Tacotron2 la voce artificiale di Google uguale a quella umana

Tacotron2 la voce artificiale di Google uguale a quella umana

Tacotron2 la voce artificiale di Google uguale a quella umana

Tacotron 2 è il nome dell’innovativo sistema text-to-speech sviluppato da Google tramite l’intelligenza artificiale il cui funzionamento viene dettagliatamente descritto all’interno di un paper pubblicato dalla Cornell University. Si tratta di una soluzione estremamente avanzata, capace di replicare alla perfezione la voce umana, intonazione inclusa.

Tacotron 2 si basa sulle reti neurali, traducendo il testo in uno spettrogramma e inserendo successivamente quest’ultimo all’interno di WaveNet, sistema implementato dal laboratorio di ricerca sull’AI DeepMind acquistato da Alphabet nel 2016 capace di interpretare il grafico spettrografico traducendolo in una traccia audio.

Tacotron2 la voce artificiale di Google uguale a quella umana

Fonte

Tacotron2 la voce artificiale di Google uguale a quella umana

Google garantisce che Tacotron 2 non solo è pressoché indistinguibile da una voce umana “reale” (solamente femminile, al momento, ma siamo certi che in futuro vi saranno ulteriori sviluppi), ma è anche capace di leggere “a voce alta” parole e nomi complessi, nonché di interpretare la punteggiatura e le lettere maiuscole, utilizzate nel testo per enfatizzare una specifica parola di particolare importanza all’interno della frase.

L’azienda di Mountain View sfrutterà il nuovo sistema text-to-speech per migliorare ulteriormente l’assistente vocale Google Assistant. Vi invitiamo a consultare QUESTA PAGINA per ascoltare alcune frasi d’esempio pronunciate da una voce umana e dall’intelligenza artificiale. Riconoscere la differenza pare essere davvero arduo!

Tacotron 2, un’architettura di rete neurale per la sintesi vocale direttamente dal testo. Il sistema è composto da una rete di previsione delle caratteristiche sequenza-sequenza ricorrente che mappa le immersioni dei personaggi in spettrogrammi su scala mel, seguito da un modello WaveNet modificato che funge da vocoder per sintetizzare forme d’onda timedomain da quegli spettrogrammi. Il nostro modello ottiene un punteggio medio di opinione (MOS) di 4,53 paragonabile a un MOS di 4,58 per il parlato registrato professionalmente. Per convalidare le nostre scelte progettuali, presentiamo studi di ablazione delle componenti chiave del nostro sistema e valutiamo l’impatto dell’utilizzo degli spettrogrammi mel come input per WaveNet invece delle caratteristiche linguistiche, di durata e F0.

AMCOMPUTERS

[Voti: 0    Media Voto: 0/5]

Lascia un commento