Il nuovo algoritmo del MIT può predire le interazioni umane prima che diventino imbarazzanti

Melodyne 5: The tuning tools

Melodyne 5: The tuning tools
Anonim

La nostra incapacità di leggere altre persone ha portato ad alcuni epici cinque fallimenti e baci mancati. Anche dopo una vita di esperienza, le interazioni umane sono difficili da prevedere. Ma i ricercatori del Computer Science and Artificial Intelligence Laboratory del MIT pensano di poter aiutare: Con un nuovo algoritmo di deep learning in grado di prevedere quando due persone si abbracciano, si baciano, si stringono la mano o il cinque, hanno fatto un grande passo verso un futuro beatamente privo di quei momenti imbarazzanti.

Stanno sperando che il loro nuovo algoritmo - addestrato su 600 ore di video e programmi TV di YouTube come L'ufficio, Scrubs, Teoria del Big Bang, e Casalinghe disperate - può essere usato per programmare robot meno socialmente difficili e sviluppare cuffie Google Glass-style per suggerire azioni per noi prima ancora che abbiamo la possibilità di perdere. In futuro si stanno immaginando, non avrai mai più la possibilità di mandare il cinque con il tuo collega.

Comprendere che i robot imparano ad essere social nello stesso modo in cui lo facciamo è la chiave del successo dell'algoritmo. "Gli esseri umani imparano automaticamente ad anticipare le azioni attraverso l'esperienza, che è ciò che ci ha spinto a cercare di infondere nei computer lo stesso tipo di buon senso", afferma il dott. CSAIL. lo studente Carl Vondrick, il primo autore su un documento correlato presentato questa settimana alla Conferenza internazionale sulla Computer Vision e Pattern Recognition. "Volevamo dimostrare che solo guardando grandi quantità di video, i computer possono acquisire conoscenze sufficienti a fare previsioni coerenti su ciò che li circonda".

Vondrick e il suo team hanno insegnato alle molteplici "reti neurali" dell'algoritmo per analizzare enormi quantità di dati in questo caso, ore del grande cinque di Jim e Pam e dei baci surrettizi di Mike e Susan, da solo. Prendendo in considerazione fattori come le braccia tese, una mano alzata o uno sguardo prolungato, ognuna delle reti neurali ha intuito cosa stava per accadere nell'istante successivo, e il consenso generale delle reti è stato considerato come la "predizione" finale nel studia.

L'algoritmo ha capito bene oltre il 43% delle volte. Anche se questo potrebbe non sembrare abbastanza alto da garantire che le nostre interazioni quotidiane siano meno strane, è un grosso miglioramento rispetto agli algoritmi esistenti, che hanno una precisione di solo il 36 percento.

Inoltre, gli umani possono solo prevedere azioni il 71% delle volte. Abbiamo bisogno di tutto l'aiuto che possiamo ottenere.

Nella seconda parte dello studio, l'algoritmo è stato insegnato a prevedere quale oggetto - punti metallici domestici come telecomandi, piatti e bidoni della spazzatura - sarebbe apparso nella scena cinque secondi dopo. Ad esempio, se viene aperta una porta a microonde, c'è una probabilità relativamente alta che una tazza venga visualizzata in seguito.

Il loro algoritmo non è ancora abbastanza preciso per Google Glass, ma con il coautore Antonio Torralba, Ph.D. - finanziato da un premio di ricerca di facoltà di Google e Vondrick che collabora con un dottorato di ricerca Google. amicizia - possiamo scommettere che arriva lì. Le versioni future dell'algoritmo, prevede Vondrick, possono essere utilizzate per programmare i robot per interagire con gli esseri umani o persino per insegnare telecamere di sicurezza a registrarsi quando una persona cade o viene ferita.

"Un video non è come un libro" Scegli la tua avventura "in cui puoi vedere tutti i potenziali percorsi", afferma Vondrick. "Il futuro è intrinsecamente ambiguo, quindi è emozionante sfidarci a sviluppare un sistema che utilizza queste rappresentazioni per anticipare tutte le possibilità."