Deepfakes non ha riscontri nell'apprendimento automatico: ecco perché

$config[ads_kvadrat] not found

COS'È IL MACHINE LEARNING ?

COS'È IL MACHINE LEARNING ?

Sommario:

Anonim

Una nuova forma di disinformazione è pronta a diffondersi attraverso le comunità online mentre le campagne elettorali a medio termine del 2018 si surriscaldano. Chiamati "deepfakes" dopo l'account online pseudonimo che ha reso popolare la tecnica - che potrebbe aver scelto il suo nome perché il processo utilizza un metodo tecnico chiamato "deep learning" - questi video finti sembrano molto realistici.

Finora, le persone hanno usato video di deepfake in pornografia e satira per far sembrare che le persone famose stiano facendo cose che normalmente non farebbero. Ma è quasi certo che i deepfakes appariranno durante la campagna elettorale, pretendendo di descrivere candidati che dicono cose o luoghi in cui il vero candidato non lo farebbe.

Poiché queste tecniche sono così nuove, le persone hanno difficoltà a capire la differenza tra video reali e video deepfake. Il mio lavoro, con la mia collega Ming-Ching Chang e il nostro dottorato. la studentessa Yuezun Li, ha trovato il modo di raccontare in modo affidabile video reali da video deepfake. Non è una soluzione permanente, perché la tecnologia migliorerà. Ma è un inizio, e offre la speranza che i computer saranno in grado di aiutare le persone a dire la verità dalla finzione.

Che cos'è un "Deepfake", comunque?

Fare un video deepfake è molto simile alla traduzione tra le lingue. Servizi come Google Translate utilizzano l'apprendimento automatico - analisi computerizzata di decine di migliaia di testi in più lingue - per rilevare i modelli di utilizzo delle parole che utilizzano per creare la traduzione.

Gli algoritmi di Deepfake funzionano allo stesso modo: usano un tipo di sistema di apprendimento automatico chiamato rete neurale profonda per esaminare i movimenti facciali di una persona. Quindi sintetizzano le immagini del viso di un'altra persona facendo movimenti analoghi. Facendo così efficacemente crea un video della persona bersaglio che sembra fare o dire le cose che ha fatto la persona di origine.

Prima che possano funzionare correttamente, le reti neurali profonde necessitano di molte informazioni sulla fonte, come le foto delle persone che sono la fonte o il bersaglio della rappresentazione. Maggiore è il numero di immagini utilizzate per addestrare un algoritmo di deepfake, più realistica sarà la rappresentazione digitale.

Rilevazione lampeggiante

Ci sono ancora difetti in questo nuovo tipo di algoritmo. Uno di questi ha a che fare con il modo in cui i volti simulati lampeggiano o no. Umani adulti sani lampeggiano da qualche parte tra ogni due e 10 secondi, e un singolo battito di ciglia richiede tra un decimo e quattro decimi di secondo. Questo è ciò che sarebbe normale vedere in un video di una persona che parla. Ma non è quello che succede in molti video deepfake.

Quando un algoritmo di deepfake viene addestrato sulle immagini dei volti di una persona, dipende dalle foto disponibili su Internet che possono essere utilizzate come dati di allenamento. Anche per le persone che vengono fotografate spesso, sono disponibili poche immagini online che mostrano gli occhi chiusi. Non solo le foto sono rare - perché gli occhi delle persone sono sempre aperti - ma i fotografi di solito non pubblicano immagini in cui gli occhi dei soggetti principali sono chiusi.

Senza l'allenamento di immagini di persone che lampeggiano, gli algoritmi di Deepfake hanno meno probabilità di creare volti che lampeggiano normalmente. Quando calcoliamo il tasso globale di lampeggio e lo confrontiamo con il range naturale, abbiamo scoperto che i personaggi nei video deepfake lampeggiano molto meno frequentemente rispetto alle persone reali. La nostra ricerca utilizza l'apprendimento automatico per esaminare l'apertura e la chiusura degli occhi nei video.

Vedi anche: Hollywood non scriverà le stelle asiatico-americane, ma A.I. Machine Learning Can

Questo ci dà l'ispirazione per rilevare video deepfake. Successivamente, sviluppiamo un metodo per rilevare quando la persona nel video lampeggia. Per essere più specifici, esegue la scansione di ciascun fotogramma di un video in questione, rileva i volti in esso e quindi individua automaticamente gli occhi. Quindi utilizza un'altra rete neurale profonda per determinare se l'occhio rilevato è aperto o chiuso, utilizzando l'aspetto dell'occhio, le caratteristiche geometriche e il movimento.

Sappiamo che il nostro lavoro sta sfruttando un difetto nel tipo di dati disponibili per addestrare algoritmi di deepfake. Per evitare di cadere preda di un difetto simile, abbiamo addestrato il nostro sistema su una vasta libreria di immagini di entrambi gli occhi aperti e chiusi. Questo metodo sembra funzionare bene e, di conseguenza, abbiamo raggiunto un tasso di rilevamento superiore al 95%.

Questa non è l'ultima parola sul rilevamento dei deepfake, ovviamente. La tecnologia sta migliorando rapidamente e la competizione tra la generazione e la rilevazione di video falsi è analoga a un gioco di scacchi. In particolare, il blinking può essere aggiunto ai video deepfake includendo le immagini dei volti con gli occhi chiusi o utilizzando sequenze video per l'allenamento. Le persone che vogliono confondere il pubblico miglioreranno nel realizzare video falsi - e noi e gli altri membri della comunità tecnologica dovremo continuare a trovare i modi per rilevarli.

Questo articolo è stato originariamente pubblicato su The Conversation di Siwei Lyu. Leggi l'articolo originale qui.

$config[ads_kvadrat] not found