NinIA — Riconoscitore automatico di comunicazione inefficace in un team di intervento neonatale

Il progetto si propone di implementare il software di Intelligenza Artificiale (IA) NinIA, che identifica automaticamente fasi di dialogo in simulazioni neonatali che includono potenzialmente una comunicazione non ottimale tra i membri del team ospedaliero, e di riassumere le parole chiave attorno alle quali ruotano queste fasi. Il software ha quindi come scopo l’identificazione di fasi di dialogo che dovrebbero essere sottoposte all’analisi di un esperto per la valutazione ed il miglioramento della comunicazione tra i membri di un team di intervento neonatale. Individuare automaticamente tali fasi inefficaci, infatti, permette di riassumere i momenti più critici di un intervento neonatale e di ridurre il tempo e lo sforzo richiesto agli esperti di comunicazione per analizzare e migliorare la comunicazione del team. Il sistema proposto si configura come un passo importante per l’esplorazione dei rapporti tra le persone coinvolte in uno scenario ospedaliero materno-infantile e per l’estrazione automatica di schemi di interazione che identifichino automaticamente momenti e scambi critici e inefficaci in una sessione simulata o reale.

Attualmente, il centro NINA, insieme al CNR-ISTI, ha prodotto una prova di concetto funzionante di NinIA, che produce principalmente due risultati: un’annotazione, sul file audio originale, delle fasi del dialogo che contengono una comunicazione potenzialmente inefficace (Figura 1); e una rappresentazione visuale in forma di “tags cloud” delle parole chiave pronunciate in tali fasi, che riassumono determinati atteggiamenti dei membri del team ospedaliero. In particolare, la dimensione delle parole che seguono corrisponde in modo direttamente proporzionale al loro peso.

nico piange sono facciamo faccio secondi volevo vedere preparate farmasi punto capito

Figura 1. Annotazione di una porzione di dialogo come potenzialmente inefficace.

NinIA effettua un’analisi del parlato basata su segmenti di durata “sillabica” (da 100 a 300 ms), seguendo l’ipotesi psicoacustica che l’informazione di un dialogo si sviluppi attorno alla sillaba piuttosto che al fonema (Wu et al. 1998). L’analisi dell’audio è completamente basata sulle sillabe pronunciate dai parlatori, un approccio che ha dimostrato particolare affidabilità nell’ambito del riconoscimento automatico del Parlato (Coro et al. 2007, Coro 2007). Inoltre, NinIA apprende le proprietà dei dialoghi direttamente dall’audio, sfruttando un approccio di IA “non supervisionato”, che permette di risparmiare tempo nella preparazione preliminare dei dati. Infine, il software combina tecniche di analisi del segnale e di IA con metodologie stato dell’arte di trascrizione automatica e di elaborazione automatica del testo (Coro et al. 2019), allo scopo di estrarre le parole più importanti attorno alle quali ruota la semantica dei dialoghi inefficaci.

Piano di lavoro

Attualmente, NinIA è una prova di concetto e siamo attualmente impegnati per evolvere il software verso un sistema pienamente funzionante, applicabile a tutte le simulazioni neonatali finora raccolte dal centro NINA ed anche a riunioni pre o post intervento. Inoltre, per ottimizzare e raffinare l’analisi, verrà introdotto un sistema di registrazione multi microfono che consentirà di registrare ogni parlatore indipendentemente dall’altro, in modo da produrre analisi per parlatore. Inoltre, si prevede di implementare o integrare un sistema di registrazione multi microfono e combinarlo a NinIA per valutare come questo migliori le prestazioni del software. Infine, NinIA sarà esteso con funzionalità di identificazione del parlatore in modo da implementare un’analisi per parlatore anche su registrazioni ambientali.

 

Riferimenti

Wu, S. L., Kingsbury, E. D., Morgan, N., & Greenberg, S. (1998, May). Incorporating information from syllable-length time scales into automatic speech recognition. In Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP’98 (Cat. No. 98CH36181) (Vol. 2, pp. 721-724). IEEE.
Coro, G., Cutugno, F., & Caropreso, F. (2007). Speech recognition with factorial-HMM syllabic acoustic models. In Eighth Annual Conference of the International Speech Communication Association.
Coro, G. (2007). A Step Forward in Multi-granular Automatic Speech Recognition (Doctoral dissertation, PhD Thesis, University “Federico II” Naples).
Coro, G., Panichi G., Pagano, P., & Perrone, E. (2019) NLPHub: An e-Infrastructure-based Text Mining Hub. Concurrency and Computation: Practice and Experience (submitted).