DeepMind A.I. Colma il divario tra robot e voci umane

$config[ads_kvadrat] not found

DeepMind: The Podcast | Episode 4: AI, Robot

DeepMind: The Podcast | Episode 4: AI, Robot
Anonim

L'intelligenza artificiale ha reso le voci dei robot molto più realistiche.

DeepMind, che in precedenza dimostrava il potere di A.I. battendo un giocatore umano a Go in marzo e tagliando la sua bolletta energetica a metà luglio, ora si concentra sulla sintesi vocale.

Il gruppo di ricerca A.I, che fa parte della società madre di Google Alphabet, ha rivelato questa mattina di aver creato una nuova tecnologia chiamata WaveNet che può essere utilizzata per generare voce, musica e altri suoni in modo più accurato rispetto a prima.

DeepMind spiega che molti metodi di sintesi vocale esistenti si basano su "un database molto ampio di frammenti di parlato breve registrati da un singolo altoparlante e poi ricombinati per formare espressioni complete." WaveNet, d'altra parte, usa la "forma d'onda grezza del segnale audio" "Per creare voci e suoni più realistici.

Ciò significa che WaveNet sta lavorando con i singoli suoni creati quando un umano parla invece di usare sillabe complete o parole intere. Questi suoni vengono quindi sottoposti a un processo "computazionalmente costoso" che DeepMind ha trovato "essenziale per generare audio complesso e realistico" con le macchine.

Il risultato di tutto questo lavoro extra è un miglioramento del 50 percento della sintesi vocale in inglese e cinese mandarino. Ecco un esempio di discorso generato usando il text-to-speech parametrico, che è comune oggi, usato da DeepMind per dimostrare come manchi questo metodo di sintesi vocale:

Ed ecco un esempio della stessa frase generata da WaveNet:

Mentre le aziende continuano il loro lavoro sulle interfacce del linguaggio naturale, offrire risposte più realistiche diventerà sempre più importante. WaveNet può aiutare a risolvere questo problema.

$config[ads_kvadrat] not found