Dicembre 1997 – dicembre 2017:  vent’anni di riconoscimento vocale.

Nel dicembre del 1997 fui assunto con un contratto metalmeccanico di formazione-lavoro della durata di due anni da GST – Gruppo Soluzioni Tecnologiche (in seguito incorporata per fusione in Exprivia), società che si occupa di riconoscimento vocale in ambito sanitario.

Tutto inizio qualche settimana prima, esattamente il 27 ottobre 1997 quando iniziai  il primo giorno di stage presso G.S.T.  (stavo frequentando infatti il corso di IT97 – Information Technology presso l’Accademia di Commercio e Turismo di Trento e l’ultima parte del corso era uno stage di 6 settimane presso aziende informatiche trentine).

Quel primo giorno avevo visto con stupore il funzionamento del programma AReS-Rad® sviluppato in collaborazione con l’ITCIRST (Istituto Trentino di Cultura – Istituto di Ricerca Scientifica e Tecnologica diventato in seguito FBK Fondazione Bruno Kessler).
AReS-Rad® era basato sul motore di riconoscimento TRIDEnTE®, motore sviluppato dai ricercatori dell’IRST e trasformato in un prodotto commercializzabile dai programmatori di GST.

Si trattava del primo motore di riconoscimento vocale in parlato continuo (ovvero non occorreva scandire parola per parola come nei precedenti sistemi di riconoscimento vocale, ma si poteva parlare normalmente). La tecnologia era di tipo client-server: i client erano dei pc Windows 95 e il server (dove avveniva la trasformazione del suono in fonemi e poi in parole) era con s.o. Linux.

Una tecnologia affascinante e poco conosciuta nel 1997, oggi alla portata di tutti in quanto diffusa negli strumenti d’uso quotidiano quali gli SmartPhone.

Durante lo stage (dove mi occupavo della creazione del sito internet di GST) fui contattato dalla Università di Trento in quanto ero risultato vincitore di un  concorso che avevo fatto qualche mese prima per un posto (6 mesi a tempo indeterminato) come informatico presso il CED dell’università di Rovereto. Era mia intenzione pertanto abbandonare lo stage per andare a lavorare all’università, ma Cristiano, che era il mio riferimento aziendale per lo stage (e che poi divenne il mio capo ufficio), mi disse di attendere un paio di giorni prima di dare una risposta all’Università. Due giorni dopo ricevetti una controproposta da parte di GST: un contratto di formazione lavoro della durata di due anni quale tecnico informatico. Analizzai entrambe le proposte ed accettai quella di GST (e visto che ancora lavoro nella stessa azienda da vent’anni, forse è stata una buona scelta).

Iniziò pertanto la mia carriera nell’ambito della tecnologia del riconoscimento vocale in ambito sanitario.

Ricordo ancora le prime installazioni effettuate in autonomia presso un noto studio ecografico in via Piave a Trento (medico con il quale sono tutt’ora in contatto), presso uno studio radiologico a Casalecchio di Reno (sento ancora i tecnici con i quali ho collaborato per integrare il sistema vocale nel loro gestionale di reparto), a Porto Potenza Picena (MC), a Conegliano (TV), a La Spezia, a Lugo (RA), a Novara, a Bolzano, ad Ancona.

Ricordo anche la mia prima partecipazione all’esposizione tecnica del congresso SIRM (Società Italiana Radiologia Medica) a Milano alla quale ne seguirono altre in diverse località italiane.

Avevo iniziato l’avventura che mi ha portato a conoscere e approfondire la tecnologia del riconoscimento vocale in ambito sanitario e ad esplorare tante località piccole e grandi dell’Italia (e non solo), un’avventura che ha trasformato uno spaesato studentello appassionato di informatica in un professionista informatico nell’ambito sanitario.

In questi anni tanti sono stati i prodotti di riconoscimento vocale che ho installato e/o collaborato alla loro realizzazione:

1997 AReS-Rad®  il cui acronimo sta per Automatic Reporting by Speech – con dizionario per la Radiologia) basato sulla tecnologia TRIDEnTE®
AReS-Pat® con dizionario specifico per l’Anatomia Patologica
AReS-Dat® versione con dettatura a registratore digitale: si poteva registrare il suono su nastro digitale e in una fase successiva avviare la trascrizione/conversione del suono in testo (la modalità differita)
1998 PhonemA®-Med con il motore IBM ViaVoice®
AReS IT®  (Intelligent Typewriter) con motore IBM ViaVoice®
1999 PhonemA®-Med OCX: l’interfaccia che sfrutta la tecnologia degli Active-X
PhonemA®-DEV (Data Entry by Voice): un tool di sviluppo di applicazioni vocali, di facile utilizzo ed integrabilità.
2002 PhoneidoS-DI® con il motore IBM ViaVoice® vers. 8
PhoneidoS-OCX® con la tecnologia Active-X e motore IBM ViaVoice® vers. 8
PhoneidoS-RMS® (Radiologist Management System): il programma consentiva di avviare la sessione di refertazione richiamando con comandi vocali il nome e cognome del paziente
2004 magic-Reporting® basato sul motore Philips SpeechMagic® vers. 5
2005 PhoneidoS-DI® vers. 2 con il motore IBM ViaVoice® vers.10
PhoneidoS-Word
basato sul motore IBM ViaVoice® vers.10 è la versione integrata con il più diffuso editor di testo prodotto da Microsoft
magic-Reporting® vers. 2 basato sul motore Dragon Naturally Speaking®
2006 turbo PhoneidoS® DI basato sul motore Dragon Naturally Speaking®
turbo PhoneidoS® OCX basato sul motore Dragon Naturally Speaking®
2007 iAShell basato sul motore Philips SpeechMagic® vers. 5
iAShell-OCX
basato sul motore Philips SpeechMagic® vers. 5
magic-PhoneidoS® DI basato sul motore Philips SpeechMagic® vers. 5
magic-PhoneidoS® OCX basato sul motore Philips SpeechMagic® vers. 5
2009 HyperSpeech®-DI s basato sul motore Philips SpeechMagic® vers. 6.1
HyperSpeech®-OCX s basato sul motore Philips SpeechMagic® vers. 6.1
HyperSpeech®-SDK s basato sul motore Philips SpeechMagic® vers. 6.1
HyperSpeech®-DI i basato sul motore IBM ViaVoice® vers. 10.5
HyperSpeech®-OCX i basato sul motore IBM ViaVoice® vers. 10.5
HyperSpeech®-SDK i basato sul motore IBM ViaVoice® vers. 10.5
2010 medVocal®-DI s basato sul motore Nuance SpeechMagic® vers. 7
medVocal®-OCX s basato sul motore  Nuance SpeechMagic® vers. 7
medVocal®-SDK s basato sul motore Nuance SpeechMagic® vers. 7
2011 medVocal®-Flex basato sul motore Nuance SpeechMagic® vers. 7
medVocal®-Silverlight basato sul motore  Nuance SpeechMagic® vers. 7
2012 medVocal®-DI p basato sul motore Pervoice Audioma RT®
medVocal®-OCX p basato sul motore Pervoice Audioma RT®

2017 eVoice s basato sul motore Nuance SpeechMagic SDK®
medVocal® d
basato sul motore Nuance DMD®

La tecnologia del riconoscimento vocale è migliorata notevolmente negli anni, ora il tasso di riconoscimento si avvicina sempre più al 95-96% (percentuali maggiori sono matematicamente improbabili nell’utilizzo quotidiano – sto parlando di valori medi nella dettatura di mille referti di diverse discipline) ma nonostante questo, mi ritrovo ancora ad affiancare i medici mentre dettano al computer per istruirli ad un uso corretto del sistema (sembra incredibile ma le regole basilari spesso vengono ignorate) e per affinare/personalizzare il riconoscimento e ottenere prestazioni migliori.

Qualcuno capisce l’enorme importanza di questo valore aggiunto dato dall’esperienza ventennale nell’ottimizzazione di sistemi di riconoscimento vocale e segue con attenzione quanto suggerisco, qualcun altro un po’ meno, altri invece neppure ci provano e vanno in cerca di nuove tecnologie e poi si ritrovano “punto e a capo”.

Sono passati vent’anni e mi occupo ancora di tecnologie di riconoscimento vocale, ma non solo, infatti ora mi occupo anche di tutti sistemi informatici (gestionali di reparto, archiviazione immagini, gestione privacy, pianificazione, etc.) utilizzati in ambito ospedaliero e sanitario.

/ 5
Grazie per aver votato!