Algoritmo che ha dominato "Pong" ora eccellente in "Flappy Bird", ancora single

$config[ads_kvadrat] not found

Trading Genetico 1a parte - Aperitrading - Formazione Trading e Opzioni

Trading Genetico 1a parte - Aperitrading - Formazione Trading e Opzioni
Anonim

Migliorare il metodo di apprendimento profondo da pioniere pong, Invasori spaziali e altri giochi di Atari, lo studente di informatica Stanford University Kevin Chen ha creato un algoritmo abbastanza buono con il classico side-scroller 2014 Flappy Bird. Chen ha sfruttato un concetto noto come "q-learning", in cui un agente mira a migliorare il proprio punteggio di ricompensa ad ogni iterazione del gioco, per perfezionare un gioco quasi impossibile e incredibilmente avvincente.

Chen ha creato un sistema in cui il suo algoritmo è stato ottimizzato per cercare tre ricompense: una piccola ricompensa positiva per ogni fotogramma rimasto vivo, una grande ricompensa per il passaggio attraverso una pipa e una ricompensa altrettanto grande (ma negativa) per la morte. Così motivata, la cosiddetta rete deep-q può battere gli umani, secondo il rapporto scritto da Chen: "Siamo stati in grado di giocare con successo il gioco Flappy Bird imparando direttamente dai pixel e dal punteggio, ottenendo risultati superumani."

Il documento originale Atari, pubblicato nel 2015 a Natura, proveniva dalla società DeepMind di proprietà di Google (ora famosa per la sua padronanza dell'antico gioco da tavolo cinese Go). Il risultato di DeepMind è stato un passo avanti in quanto ha richiesto informazioni visive o pixel, almeno, e, con un input minimo, è stato in grado di massimizzare i premi. Tale sistema di ricompensa è stato paragonato alla risposta dopaminergica del cervello, solo semplificata.

Non è la prima volta che un algoritmo ha conquistato l'uccello che sbatte: una precedente classe di studenti di informatica dell'Università di Stanford ha creato un programma che, una volta addestrato durante la notte, il suo punteggio è migliorato da 0 tubi passati a 1.600.

$config[ads_kvadrat] not found