Microsoft Research inventa il riconoscimento vocale migliore dell'essere umano

Microsoft Dictate

Microsoft Dictate
Anonim

Microsoft è diventata la prima azienda al mondo a sviluppare software di riconoscimento vocale più accurato degli umani. Nel documento "Raggiungere la parità umana nel riconoscimento vocale parlato" pubblicato il lunedì, il software ha prodotto delle trascrizioni che contenevano il mezzo percento in meno di errori rispetto agli sforzi umani, il che è incredibile considerando le brave persone nella comprensione della parola. La svolta apre le porte al nuovo A.I. assistenti che sono più accurati che mai.

È impressionante quanto la tecnologia sia arrivata in così poco tempo. Non è passato molto tempo da quando il riconoscimento vocale del computer era una strana nicchia che sembrava irrimediabilmente distante. Guarda questa dimostrazione del software vocale di Windows Vista del 2006:

Il team ha utilizzato il test del National Institute of Standards and Technology (NIST) 2000, utilizzato in tutto il settore per misurare l'affidabilità delle trascrizioni vocali. Una conversazione avviene tra due partecipanti al telefono, svolta dopo svolta, prima che lo script risultante venga confrontato e verificato con l'ortografia del dizionario.

Nella parte del centralino, dove due estranei parlano per la prima volta, il tasso di errore umano è di circa il 5,9 percento, mentre nella porzione di casa chiamata, dove due persone che si conoscono parlano, il tasso di errore è intorno all'11,3 percento. Il software Microsoft ha registrato un tasso di errore inferiore dello 0,4%.

La svolta contribuirà a portare nuove forme di AIM immersiva. In agosto, lo studente Joshua Browder ha tolto gli involtini dal suo chatbot DoNotPay, che può aiutare i senzatetto a ottenere consulenza legale gratuita. In combinazione con i progressi del riconoscimento, è facile immaginare un futuro in cui le persone chiedono un assistente virtuale per un aiuto con l'alloggio avendo una conversazione regolare con il proprio computer.

In questa fase, i ricercatori stanno valutando come il riconoscimento vocale con tecnologia A.I. possa dare risposte più intelligenti. Sensay, un A.I. che rileva la rabbia. dal laboratorio dietro a Siri, utilizza capacità di riconoscimento avanzate per rilevare se un utente si sente arrabbiato o confuso, modificando le sue risposte per adattarsi alla situazione. Rimozione della barriera del riconoscimento vocale soggetto a errori, crea nuove eccitanti opportunità di assistenza virtuale.