Ricerca vocale e le nuove tecnologie

14.12.2018 - Tempo di lettura: 4'
Ricerca vocale e le nuove tecnologie

Le modalità di riconoscimento vocale sono state sviluppate negli Stati Uniti a partire dagli anni Cinquanta con l’obiettivo di poter controllare e gestire dispositivi di vario genere con la voce.

Come già accaduto per la ricerca della rete internet e delle comunicazioni digitali, il dipartimento della difesa, i laboratori Bell e la NSA svolsero un ruolo di primaria importanza.

Questo tipo di tecnologie si è caratterizzato per uno sviluppo lento: infatti soltanto negli anni Settanta è stato possibile avere il riconoscimento vocale di frasi complete, anche se la struttura grammaticale e i vocaboli erano molto semplici.

La commercializzazione di questi software è iniziata nel 1982, trasformando in una stazione vocale il computer grazie al microfono abbinato all’applicativo.

Con lo sviluppo e l’evoluzione costante delle tecnologie dedicate i sistemi di ricerca vocale sono diventati sempre più performanti e di alto livello. Proprio per questo motivo i PC e i dispositivi mobile (smartphone e tablet) sono diventati strumenti versatili, multimediali e in grado di svolgere numerose attività.

Al tempo stesso questa modalità ha cominciato ad essere sfruttata anche dal punto di vista SEO.

Si tratta di una soluzione molto apprezzata per sistemi come OK Google oppure Apple Siri. Più elevato è il numero di ricerche vocali effettuate e maggiore è il grado di precisione che si acquista con il tempo.

I sistemi di riconoscimento vocale

Esistono due modalità di riconoscimento vocale su cui si basano i sistemi adottati:

  • gli speaker dependent: si adattano alla voce dell’utente garantendo un più alto livello di precisione nel riconoscimento vocale. Correggono gli errori di interpretazione attraverso la pratica e, grazie agli algoritmi che tengono traccia di queste operazioni, danno al sistema la possibilità di imparare dagli errori. Proprio per questo motivo vengono adottati in dispositivi abbastanza sofisticati, ad esempio per gli assistenti vocali Siri e Google;
  • gli speaker independent: il riconoscimento vocale è generico, di conseguenza il livello di precisione raggiunto è inferiore. In genere questi sistemi vengono adottati per i servizi di informazione automatici. I risultati possono essere adeguati soltanto se le parole e le frasi pronunciate dall’utente appartengono alla ristretta lista che lo speaker independent riconosce oppure se si ha a che fare con risposte a scelta multipla.

I sistemi adottati si differenziano anche per l’ampiezza del database contenente un vero e proprio dizionario del software di riconoscimento. Infatti, la modalità di riconoscimento e ricerca vocale prevede che l’impianto elabori l’audio in ingresso, trasformando i fonemi in parole e in frasi di senso compiuto. Per ottenere questo risultato l’applicativo software deve avere in memoria un apposito database di termini. In questo modo può trovare le parole corrispondenti oppure verificare se ne esiste una dal suono simile.

Non bisogna dimenticare che si tratta di un’operazione molto complessa e che si basa esclusivamente sui fonemi che compongono i vari vocaboli.

Più il database è ampio e migliori sono i risultati ottenuti.

In genere i sistemi speaker independent presentano un database molto più ampio rispetto alla modalità alternativa (circa 200.000 lemmi) proprio per far fronte alla minore precisione dell’impianto di riconoscimento vocale. Al tempo stesso è necessario che vengano memorizzati tutti i modi diversi per la pronuncia di un singolo vocabolo. Di conseguenza il database contiene una grande quantità di materiale audio e risulta essere molto complesso sia da elaborare che da gestire.

Per questo motivo devono essere supportati da un computer molto potente oppure da un’elaborazione off line.

Anche i sistemi speaker dependent integrano un ampio database, tuttavia la loro precisione maggiore consente di ottenere risultati di alto livello con un normale processore. Quindi vengono comunemente installati nei PC, negli smartphone e nei tablet. Sono in grado di riconoscere oltre cento parole al minuto. Le nuove tecnologie applicate a questi sistemi permettono di ampliare le possibilità e le funzioni messe a disposizione degli utenti, ad esempio consentendo la dettatura di un testo anche di lunghezza medio-alta.

La differenza tra la ricerca vocale e quella scritta

Come emerso dai risultati delle ricerche effettuate con i motori di ricerca come Google, la lista dei siti e dei contenuti trovati varia in maniera notevole in base alla modalità usata per esprimere la query.

Ciò avviene proprio per il fatto che la ricerca vocale presenta sostanziali differenze rispetto a quella tradizionale scritta.

Con la ricerca scritta tradizionale si tende a sintetizzare il più possibile per poter esprimere concetti più o meno complessi tramite una o più keyword.

L’espressione usata è sempre molto breve e di immediata comprensione. Anche per questo motivo i risultati ottenuti sono molto ampi.

Al contrario, quando si effettua una ricerca vocale, si tende a essere il più precisi possibile, così da poter esprimere al meglio cosa si sta cercando.

Questo fatto si spiega con il semplice motivo che parlare è più semplice che scrivere.

Secondo alcuni studi la ricerca vocale viene preferita soprattutto dagli utenti che utilizzano dispositivi mobile. Si tratta di una modalità che consente di avere una maggiore praticità e di ottenere risultati in tempi più brevi. Proprio per questo motivo le ultime tecnologie del settore che sono state sviluppate sono finalizzate a rendere sempre più precisi i sistemi di rilevazione vocale.

Le soluzioni più performanti e più diffuse sono:

  • OK Google,
  • Apple Siri,
  • Amazon Alexa,
  • Windows Cortana.

Tutte queste soluzioni utilizzano la tecnologia NLP (Natural Language Processing) oppure una similare.

In questo modo diventa molto più semplice comprendere la voce degli utenti e processarla per ottenere frasi dotati di significato. In questo si ottiene una lista di pagine con i risultati delle ricerche oppure la risposta perviene sotto forma discorsiva grazie a una gradevole voce di sintesi per umanizzare il servizio.

Altri linguaggi di programmazione stano riscontrando un uso significativo in vari i settori, inclusi dall’aviazione commerciale e militare, dal controllo del traffico aereo ai sistemi ferroviari e dispositivi medici. Con la incarnazione dei nuovi linguaggi nei moderni principi di ingegneria informatica, si potrà avere un eccellente linguaggio di insegnamento sia per i corsi introduttivi che per quelli avanzati di informatica, con un uso sempre più significativo nella ricerca universitaria, specialmente nel campo delle tecnologie in tempo reale.

Articoli correlati