Come il bandito multibraccio determina quali annunci e storie vedi online

Come Le Storie

Come Le Storie
Anonim

Immagina di essere un giocatore d'azzardo e sei di fronte a molte slot machine. Il tuo obiettivo è massimizzare le tue vincite, ma in realtà non sai nulla delle potenziali ricompense offerte da ciascuna macchina. Tuttavia, comprendi che le leve che eserciti e la frequenza con cui lo fai influenzeranno i risultati della tua baldoria da gioco.

Questo scenario, affrontato ogni giorno dai visitatori di Las Vegas e Atlantic City (a qualsiasi livello le persone vanno ancora ad Atlantic City) è anche un classico puzzle logico chiamato "Multi-Armed Bandit" - le slot machine sono indicate come "One-Armed" Banditi "invecchiando i tipi Reno perché hanno una leva e prendono i soldi delle persone. Anche se non esiste un modo corretto per affrontare situazioni Bandit multibraccio - il candidato più vicino è Gittins Index - ci sono approcci strategici per affrontare questi problemi che vedi senza registrarti ogni giorno quando vai online. Molti algoritmi che regolano il modo in cui il contenuto viene emerso tramite Google e sui siti Web sono costruiti attorno alle strategie MAB. L'obiettivo in quasi tutti i casi è quello di collegare apprendimento e risultati e massimizzare il potenziale per entrambi.

Un approccio bandito multi-armato è usato da Il Washington Post per capire quali sono le foto e i titoli con maggiori probabilità di clic e le reti wireless per capire quali percorsi ottimali e che conservano energia sono i migliori. Gli algoritmi che derivano dagli approcci MBA sono estremamente importanti per queste aziende e molti altri perché determinano in genere quando e quali annunci appaiono online.

Capire quali pubblicità mostrare alle persone è un problema impegnativo perché ci sono così tanti banditi con un braccio solo che girano intorno a fare clic su cose online. Gli algoritmi MAB per gli annunci pubblicitari utilizzano tipicamente un "problema dei banditi mortali multi-braccio" che cambia rapidamente, che viene applicato su periodi di tempo finiti. I dati sul traffico vengono utilizzati per sviluppare metodologie sempre più efficaci.

È difficile bloccare i MAB con uno scopo preciso, perché è possibile creare così tante varianti della formula. I banditi armati di K, ad esempio, hanno "armi" che competono per ottenere la ricompensa più alta prevista. Contestualizzare i banditi fanno lo stesso, ma con "consigli di esperti" - dati precedentemente raccolti sull'utente - e il web-ready denominato "ILOVETOCONBANDITS" funziona solo su un programma di turni pre-specificati. Al contrario, un approccio MAB classico non ha alcuna informazione laterale possibile e il risultato dipende solo dal potenziale dell'azione scelta.

Finora l'applicazione più utile per i MAB sembra essere legata a internet, i ricercatori stanno lavorando per trovare un modo per applicarli agli scenari della "vita reale" (aka meatspace). In un documento del 2015, i ricercatori dell'Università della British Columbia considerano l'applicazione dei MAB alle sperimentazioni mediche. L'obiettivo, se i MAB si dimostrassero possibili qui, è che un algoritmo MAB potrebbe misurare l'effetto di un particolare farmaco. Il problema ovvio è che, a meno che non si possa creare una versione modulata dal computer, seguire questo approccio sarebbe troppo dispendioso in termini di tempo. Non è possibile che un progetto MAB possa essere inserito in una sperimentazione clinica.

L'idea è bella, ma non fattibile al momento. Fino a quando il futuro sarà qui, sentirai per lo più la presenza incombente di un bandito multi-armato quando cerchi disperatamente di fare clic sugli annunci pop-up.