La rete neurale di Google "superumana" può davvero descrivere la posizione di qualsiasi immagine?

$config[ads_kvadrat] not found

#WebinarPiF - Eni - Diletta Milana - Intelligenza Artificiale 101

#WebinarPiF - Eni - Diletta Milana - Intelligenza Artificiale 101
Anonim

Cercare immagini è più facile che mai. Ma se stai cercando di trovare un'immagine di qualcosa in un luogo che non è del tutto ovvio (quindi non le piramidi egiziane o la scultura gigante del pollice a Parigi), è più difficile di quanto pensi - anche con le informazioni di geolocalizzazione basate su ciò che è nell'immagine

Inserisci l'ingegnere di Google di nome Tobias Weyand e un paio di suoi colleghi. Secondo un nuovo articolo sul diario arXiv (pronunciato "archivio"), il trio ha costruito una macchina per l'apprendimento profondo in grado di individuare la posizione di quasi tutte le foto basandosi esclusivamente sull'analisi dei suoi pixel.

Per fare in modo che una macchina realizzi con successo un compito come questo, vuoi dargli la possibilità di intuire le informazioni sulla base di indizi visivi. Vuoi che pensi, in altre parole, come un essere umano.

Weyand ha iniziato a sviluppare una rete neurale artificiale, un sistema di macchine progettato per imitare i percorsi neurologici del cervello, che gli consente di apprendere, elaborare e richiamare informazioni come un essere umano. Questo nuovo sistema, PlaNet, è apparentemente in grado di sovraperformare gli esseri umani nel determinare le posizioni delle immagini, indipendentemente da quale sia l'ambientazione, sia all'interno che all'esterno, e con qualsiasi tipo di segnali visivi unici o non descrittivi.

Come funziona PlaNet? Weyand e il suo team hanno suddiviso una mappa del mondo in una griglia che ha disposto oltre 26.000 forme quadrate in diverse regioni, a seconda di quante immagini sono state scattate in quei luoghi. Luoghi densi in cui vengono ritagliate molte immagini in un riquadro più piccolo, mentre le regioni più grandi e remote possono tagliare in quadrati più grandi.

Il team ha quindi creato un ampio database di immagini già geolocalizzate: quasi 126 milioni di foto diverse. Circa 91 milioni sono stati usati come set di dati per insegnare a PlaNet come capire quale immagine potrebbe essere collocata in quale griglia sulla mappa del mondo.

Quindi, la rete neurale è stata incaricata di geolocalizzare le altre 34 milioni di immagini dal database. Infine, PlaNet è stato impostato su un set di dati di 2,3 milioni di immagini geotagged da Flickr.

I risultati? PlaNet potrebbe determinare il paese di origine per il 28,4% delle foto e il continente per il 48%. Inoltre, il sistema potrebbe individuare una posizione a livello stradale per il 3,6% delle immagini di Flickr e una posizione a livello di città per il 10,1%.

E PlaNet è migliore in questo rispetto alla maggior parte degli esseri umani - anche i più grandi globetrotter. Weyand ha arruolato 10 persone ben viaggiate per competere contro PlaNet in un gioco di etichettatura delle posizioni delle immagini trovate su Google Street View.

"In totale, PlaNet ha vinto 28 dei 50 round con un errore di localizzazione mediano di 1131,7 km, mentre l'errore di localizzazione umana mediana è stato di 2320,75 km", hanno scritto i ricercatori. "Questo esperimento su piccola scala mostra che PlaNet raggiunge prestazioni sovrumane al compito di geolocalizzare le scene di Street View."

È vero? Un ingegnere di Google ha davvero sviluppato un "sovrumano" A.I. sistema?

Quando si tratta di geolocalizzare le immagini, forse. E non è tutto troppo sorprendente - il punto di A.I. non è quello di imitare fondamentalmente il cervello umano in tutti i modi, ma di superare i limiti umani in alcuni modi specifici per svolgere compiti molto più difficili. Quindi, in questo senso, ciò che i ricercatori scrivono è vero.

Tuttavia, è un modo per chiamare PlaNet una "rete neurale". Una forma ideale di quel tipo di tecnologia sarebbe in grado di apprendere molto di più della geolocalizzazione delle immagini. A.I. i sistemi sono in grado di scrivere similitudini e suonare Super Mario, ma questo è roba piccola rispetto a un sistema "master" ideale in grado di monitorare e mantenere automaticamente vitali, gestire infrastrutture di trasporto o energetiche e molto altro ancora.

$config[ads_kvadrat] not found