Come fa Alexa a sapere quando le parli?

Sfruttando il contenuto semantico, aumentano le prestazioni del modello solo-acustico per il rilevamento delle parole dirette ad Alexa, il dispositivo di riconoscimento vocale di Amazon.

Alexa: come riconosce le parole a lei rivolte?

La modalità follow-up rende più naturale interagire con Alexa. Con la modalità Follow-up abilitata, un cliente può chiedere, “Alexa, che tempo fa?”, quindi fare follow-up chiedendo “Come è domani?”, senza dover ripetere la parola-sveglia “Alexa”.

L’eliminazione della parola di attivazione significa che i dispositivi Alexa devono distinguere tra il riconoscimento vocale diretto e non diretto al dispositivo.

Devono distinguere, cioè, tra frasi come “E domani?” e le grida o le voci dei bambini dalla TV.

In passato, i ricercatori di Alexa hanno migliorato notevolmente il rilevamento del discorso diretto al dispositivo sfruttando i componenti del sistema del riconoscimento vocale di Alexa. In un articolo che presenteremo (virtualmente) questa settimana alla Conferenza internazionale sull’acustica, viene illustrato come il riconoscimento vocale e l’elaborazione dei segnali (ICASSP) estendono tali miglioramenti aggiungendo informazioni sulle funzionalità semantiche e sintattiche delle espressioni dei clienti. Negli esperimenti riportati nel nostro documento, il nostro modello di apprendimento automatico ha dimostrato un miglioramento del 14% rispetto alla linea di base con le migliori prestazioni in termini di tasso di errore uguale e di tasso di errore che si verifica se i tassi falsi positivi e falsi negativi sono impostati come uguali.

Sintassi fratturata

Le richieste indirizzate ad Alexa sono diverse da una normale conversazione umana in termini di argomento, contenuto, flusso conversazionale, struttura sintattica e semantica. Ad esempio, il discorso non orientato al dispositivo è spesso costituito da frammenti di frasi. La sintassi fratturata di questi frammenti è qualcosa che un sistema di apprendimento automatico dovrebbe essere in grado di riconoscere.

Naturalmente, le richieste follow-up possono anche essere fratturate: ad esempio, un cliente potrebbe sostituire la domanda “Alexa, qual è il tempo oggi?” con “e domani?”. Ma questi frammenti di solito guadagnano in coerenza quando sono combinati con le loro domande precedenti. Pertanto, come input per il modello, utilizziamo sia l’espressione corrente che quella che l’ha preceduta.

Altre espressioni (“grazie”, “stop”, “okay”) rimangono ambigue anche comparate con i loro software predecessori.

Per questo motivo, il sistema non si basa solo su caratteristiche di alto livello, sia semantiche che sintattiche, bensì utilizziamo anche funzionalità acustiche che rappresentano la fiducia del sistema di riconoscimento vocale, in base a quanto dicono i clienti. Questa è una versione leggera dell’approccio adottato dal team Alexa nel suo sistema all’avanguardia per rilevare la direzione del discorso al dispositivo.

Informazioni di base: se il sistema di riconoscimento vocale ha una bassa fiducia nelle sue trascrizioni, allora probabilmente ha a che fare con espressioni che sono diverse dai dati di addestramento. E poiché è stato addestrato su espressioni dirette al dispositivo, le espressioni a differenza dei dati di addestramento hanno maggiori probabilità di essere non dirette al dispositivo.

Poiché le caratteristiche semantiche che aggiungiamo hanno lo scopo di sfruttare la struttura della frase, la sequenza di parole è importante. Di conseguenza, il nostro sistema utilizza un modello di apprendimento automatico noto come “long-short-term-memory” (LSTM).

Gli LSTM elaborano gli input in sequenza, in modo che ogni output si trovi sia negli input che negli output che lo hanno preceduto. A seguito di input linguistici, il LSTM processa una parola alla volta, producendo un nuovo output dopo ogni nuova parola. L’output finale codifica le informazioni sulla sequenza delle parole che l’hanno preceduta.

Meccanismi di attenzione

In molte impostazioni di comprensione del linguaggio naturale, le LSTM funzionano meglio se incorporano anche meccanismi di attenzione. Essenzialmente, il meccanismo di attenzione determina quanto ogni parola dell’input deve contribuire all’output finale. In molte applicazioni, ad esempio, i nomi delle entità (“Blinding Lights”, “Dance Monkey”) sono più importanti degli articoli (“a”, “the”) o delle preposizioni (“a”, “di”); un meccanismo di attenzione assegnerebbe loro un peso maggiore. Utilizziamo un meccanismo di attenzione per aiutare il modello nelle parole di input che sono particolarmente utili per distinguere il riconoscimento del discorso diretto al dispositivo.

Infine, utilizziamo anche l’apprendimento dei trasferimenti per migliorare le prestazioni del nostro modello. Ovvero pre-allenando il modello sulle interazioni one-shot prima di trasformarlo in modo finale sulle interazioni multiturno. Durante il pre-training, utilizziamo esempi positivi e negativi, quindi la rete apprende le funzionalità del riconoscimento vocale sia diretto al dispositivo che non.

Nei nostri esperimenti, abbiamo confrontato il nostro sistema sia con il modello di solo acustica all’avanguardia per riconoscere il linguaggio diretto al dispositivo che con una versione del nostro modello che utilizzava una rete neurale profonda (DNN) piuttosto che un LSTM. Per rendere equo il confronto, il modello solo acustico è stato addestrato sia sul set di dati pre-allenamento (interazione singola) che sul set di dati di messa a punto (con interazione multipla) che abbiamo usato per l’apprendimento dei trasferimenti.

Il DNN rappresenta gli input in un modo che riesce ad acquisisre informazioni semantiche su tutte le parole in un’espressione, ma non rispetta il loro ordine. Le sue prestazioni erano significativamente peggiori di quelle della linea di base solo acustica, un tasso di pari-errore del 19,2%, rispetto a una linea di base del 10,6%. Ma il nostro modello LSTM proposto ha abbassato il tasso di pari-errore al 9,1%, con un miglioramento del 14%.