In che modo DeepMind ha sviluppato un A.I. Questo può sorprendere gli umani

$config[ads_kvadrat] not found

AlphaGo - The Movie | Full Documentary

AlphaGo - The Movie | Full Documentary

Sommario:

Anonim

I computer hanno preso a calci i nostri fragili culi umani a scacchi per un paio di decenni. La prima volta che accadde fu nel 1996, quando il Deep Blue di IBM riuscì a sconfiggere il campione del mondo Gary Kasperov. Ma un nuovo studio di Alfabetico A.I. il completo DeepMind fa luce su quanto fosse limitato il campo di applicazione della vittoria iniziale.

Per uno, Kasperov è tornato subito indietro, vincendo tre partite e pareggiando due volte in sei partite di spareggio, per un vecchio Le notizie del GIORNO rapporto.

Ma molto più in particolare, come racconta il ricercatore di DeepMind, Julian Schrittwieser Inverso anche applicazioni come Deep Blue sono state programmate manualmente. Ciò significa che gli umani hanno dovuto insegnare alla A.I. tutto ciò di cui aveva bisogno per sapere come gestire ogni contingenza immaginabile. In altre parole, potrebbe sempre e solo essere buono come lo erano le persone che lo programmavano. E mentre Deep Blue era ovviamente in grado di diventare abbastanza bravo a scacchi; dargli un altro, simile, gioco come Go e sarebbe stato clueless.

Alpha Zero è completamente diverso. In un nuovo studio pubblicato oggi sulla rivista Scienza, gli autori rivelano come sono stati in grado non solo di insegnare ad Alpha Zero come battere gli umani a scacchi, ma come insegnare ad Alpha Zero come insegnare a se stesso per padroneggiare più giochi.

Come insegnare A.I. Per insegnare se stesso

Alpha Zero è stato sviluppato utilizzando una tecnica chiamata apprendimento di rinforzo profondo. In sostanza, ciò implica insegnare l'A.I. qualcosa di molto semplice, come le regole base degli scacchi, e poi fare questa cosa semplice ancora e ancora e ancora e ancora fino a quando impara cose più complicate e interessanti come strategie e tecniche.

"Tradizionalmente … gli umani prenderebbero le loro conoscenze sul gioco e provano a codificarlo in regole", afferma Schrittwieser, che ha lavorato su Alpha Zero per quasi quattro anni. "Il nostro approccio è inizializzarlo a caso, e quindi lasciarlo giocare contro se stesso, e da quei giochi in sé può imparare quali strategie funzionano".

Tutte le regole di base di Alpha Zero sono le regole di base e da lì si impara a vincere giocando da solo. Secondo le nuove scoperte, ci sono volute solo nove ore per Alpha Zero per padroneggiare gli scacchi, 12 ore per padroneggiare Shogi e circa 13 giorni per padroneggiare Go. Perché gioca da solo, è essenzialmente autodidatta. È diventato carne macinata di tutti gli algoritmi di guida umana campione del mondo, battendo il campione del mondo 2017 a Shogi per il 91% delle volte.

"Può scoprire in modo indipendente una conoscenza interessante del gioco", afferma Schrittwieser. "Porta a programmi che suonano in modo più umano."

Sebbene il suo stile sia umano e creativo, tuttavia, è anche probabile che sia ottimale, dice, abbastanza da permettere ad Alpha Zero di dominare praticamente in qualsiasi gioco in cui abbia accesso a tutte le informazioni disponibili. In effetti, Alpha Zero è così sofisticato, potremmo aver bisogno di passare a una classe di giochi completamente diversa per continuare a spingere i limiti di come A.I. risolve i problemi

Perché Alpa Zero è così buono

A.I. i ricercatori adorano utilizzare questi giochi come basi di prova per forme di algoritmi sempre più sofisticate per alcuni motivi. Sono eleganti e le persone li hanno suonati per centinaia di anni, per esempio, il che significa che hai un sacco di potenziali sfidanti per testare il tuo algoritmo. Ma sono anche complicati e complicati, il che significa che possono servire come trampolino di lancio per A.I. che può risolvere problemi nel mondo reale. Schrittwieser dice che la prossima area di ricerca sta creando un algoritmo come Alpha Zero che può ancora prendere decisioni ottimali con informazioni imperfette.

"In tutti questi giochi, sai tutto quello che succede", dice. "Nel mondo reale, potresti conoscere solo parte delle informazioni. Potresti conoscere le tue carte, ma non conosci il tuo avversario, hai delle informazioni parziali."

Ci sono ancora alcuni giochi da tavolo in grado di fornire anche algoritmi come Alpha Zero - Schrittwieser ha menzionato Stratego, in cui i giocatori nascondono le loro mosse l'uno dall'altro - e Starcraft, che è un'altra area di interesse per i ricercatori di DeepMind.

"Vogliamo rendere i problemi che affrontiamo sempre più complessi", afferma. "Ma è sempre una dimensione alla volta."

Allo stesso tempo, la prossima generazione di risolutori informatici di Deep Mind sta già dimostrando il potenziale per passare dal mondo dei giochi al mondo reale. All'inizio di questa settimana, ha annunciato un altro algoritmo chiamato AlphaFold, che è in grado di estrapolare una sequenza proteica in una previsione accurata della sua struttura 3D.È un problema che da decenni confonde gli scienziati e potrebbe aiutare ad aprire la porta alle cure per malattie che vanno dall'Alzheimer alla fibrosi cistica.

$config[ads_kvadrat] not found