I “dati falsi” sono un vero affare quando si addestrano gli algoritmi? | Intelligenza artificiale (IA)

Ysei al volante della tua macchina ma sei esausto. Le tue spalle iniziano a cedere, il tuo collo inizia a cadere, le palpebre scivolano verso il basso. Quando la tua testa si inclina in avanti, sterzi fuori strada e sfrecci attraverso un campo, schiantandoti contro un albero.

Ma cosa succede se il sistema di monitoraggio della tua auto ha riconosciuto i segni rivelatori di sonnolenza e ti ha chiesto di uscire dalla strada e parcheggiare invece? La Commissione Europea ha stabilito che da quest’anno i nuovi veicoli siano dotati di sistemi per catturare i conducenti distratti e assonnati per aiutare a prevenire gli incidenti. Ora un certo numero di startup stanno addestrando sistemi di intelligenza artificiale per riconoscere gli omaggi nelle nostre espressioni facciali e nel linguaggio del corpo.

Queste aziende stanno adottando un nuovo approccio per il campo dell’IA. Invece di filmare migliaia di automobilisti nella vita reale che si addormentano e inserire tali informazioni in un modello di apprendimento profondo per “apprendere” i segni della sonnolenza, stanno creando milioni di falsi avatar umani per rievocare i segnali assonnati.

“Big data” definisce il campo dell’IA per un motivo. Per addestrare accuratamente gli algoritmi di deep learning, i modelli devono avere una moltitudine di punti dati. Ciò crea problemi per un compito come riconoscere una persona che si addormenta al volante, che sarebbe difficile e richiederebbe tempo per filmare ciò che accade in migliaia di auto. Invece, le aziende hanno iniziato a creare set di dati virtuali.

Synthesis AI e Datagen sono due aziende che utilizzano scansioni 3D di tutto il corpo, comprese scansioni facciali dettagliate e dati di movimento acquisiti da sensori posizionati su tutto il corpo, per raccogliere dati grezzi da persone reali. Questi dati vengono alimentati attraverso algoritmi che modificano varie dimensioni molte volte per creare milioni di rappresentazioni 3D di esseri umani, simili ai personaggi di un videogioco, impegnandosi in comportamenti diversi attraverso una varietà di simulazioni.

Nel caso di qualcuno che si addormenta al volante, potrebbe filmare un artista umano che si addormenta e combinarlo con motion capture, animazioni 3D e altre tecniche utilizzate per creare videogiochi e film d’animazione, per costruire la simulazione desiderata. “Puoi mappare [the target behaviour] attraverso migliaia di diversi tipi di corpo, angolazioni diverse, illuminazione diversa e aggiungono variabilità anche al movimento”, afferma Yashar Behzadi, CEO di Synthesis AI.

L’uso di dati sintetici elimina gran parte del disordine del modo più tradizionale di addestrare algoritmi di deep learning. In genere, le aziende dovrebbero accumulare una vasta collezione di filmati di vita reale e i lavoratori sottopagati etichettano scrupolosamente ciascuna delle clip. Questi verrebbero inseriti nel modello, che imparerebbe a riconoscere i comportamenti.

Il grande vantaggio per l’approccio ai dati sintetici è che è più veloce ed economico con un ampio margine. Ma queste aziende affermano anche che può aiutare ad affrontare il pregiudizio che crea un enorme mal di testa per gli sviluppatori di intelligenza artificiale. È ben documentato che alcuni software di riconoscimento facciale AI non riescono a riconoscere e identificare correttamente particolari gruppi demografici. Questo tende a essere dovuto al fatto che questi gruppi sono sottorappresentati nei dati di addestramento, il che significa che è più probabile che il software identifichi erroneamente queste persone.

Niharika Jain, un ingegnere del software ed esperta di pregiudizi di genere e razziali nell’apprendimento automatico generativo, mette in evidenza il famigerato esempio della funzione di “rilevamento occhi chiusi” di Nikon Coolpix, che, poiché i dati di allenamento includevano la maggior parte dei volti bianchi, giudicava sproporzionatamente i volti asiatici come lampeggiante. “Un buon sistema di monitoraggio del conducente deve evitare di identificare erroneamente i membri di un determinato gruppo demografico come addormentati più spesso di altri”, afferma.

La tipica risposta a questo problema è raccogliere più dati dai gruppi sottorappresentati in contesti di vita reale. Ma aziende come Datagen affermano che questo non è più necessario. L’azienda può semplicemente creare più volti dai gruppi sottorappresentati, il che significa che costituiranno una percentuale maggiore del set di dati finale. I dati reali della scansione facciale 3D di migliaia di persone vengono trasformati in milioni di compositi AI. “Non c’è alcun pregiudizio nei dati; hai il pieno controllo dell’età, del sesso e dell’etnia delle persone che stai generando”, afferma Gil Elbaz, co-fondatore di Datagen. I volti inquietanti che emergono non sembrano persone reali, ma la società afferma che sono abbastanza simili da insegnare ai sistemi di intelligenza artificiale come rispondere a persone reali in scenari simili.

C’è, tuttavia, un certo dibattito sul fatto che i dati sintetici possano davvero eliminare i pregiudizi. Bernease Herman, data scientist presso l’Università di Washington eScience Institute, afferma che sebbene i dati sintetici possano migliorare la solidità dei modelli di riconoscimento facciale sui gruppi sottorappresentati, non crede che i dati sintetici da soli possano colmare il divario tra le prestazioni su quei gruppi e altri. Sebbene le aziende a volte pubblichino articoli accademici che mostrano come funzionano i loro algoritmi, gli algoritmi stessi sono proprietari, quindi i ricercatori non possono valutarli in modo indipendente.

In aree come la realtà virtuale e la robotica, dove la mappatura 3D è importante, le società di dati sintetici sostengono che potrebbe essere effettivamente preferibile addestrare l’IA sulle simulazioni, soprattutto perché la modellazione 3D, gli effetti visivi e le tecnologie di gioco migliorano. “È solo questione di tempo prima che… tu possa creare questi mondi virtuali e addestrare i tuoi sistemi completamente in una simulazione”, afferma Behzadi.

Questo tipo di pensiero sta guadagnando terreno nel settore dei veicoli autonomi, dove i dati sintetici stanno diventando strumentali nell’insegnare l’IA dei veicoli a guida autonoma come navigare su strada. L’approccio tradizionale – filmare ore di filmati di guida e inserirli in un modello di apprendimento profondo – è stato sufficiente per rendere le auto relativamente brave a navigare sulle strade. Ma il problema che irrita il settore è come fare in modo che le auto gestiscano in modo affidabile quelli che sono noti come “casi limite”, eventi che sono abbastanza rari da non apparire molto in milioni di ore di dati di addestramento. Ad esempio, un bambino o un cane che corre per strada, lavori stradali complicati o anche alcuni coni stradali posizionati in una posizione inaspettata, il che è stato sufficiente per fermare un veicolo Waymo senza conducente in Arizona nel 2021.

Volti sintetici realizzati da Datagen.

Con i dati sintetici, le aziende possono creare infinite variazioni di scenari nei mondi virtuali che raramente si verificano nel mondo reale. “​​Invece di aspettare milioni di miglia in più per accumulare più esempi, possono generare artificialmente tutti gli esempi necessari per la formazione e i test”, afferma Phil Koopman, professore associato di ingegneria elettrica e informatica presso la Carnegie Mellon University.

Le aziende AV come Waymo, Cruise e Wayve si affidano sempre più a dati di vita reale combinati con la guida simulata nei mondi virtuali. Waymo ha creato un mondo simulato utilizzando l’intelligenza artificiale e i dati dei sensori raccolti dai suoi veicoli a guida autonoma, completo di gocce di pioggia artificiali e abbagliamento solare. Lo usa per addestrare i veicoli in normali situazioni di guida, così come nei casi limite più complicati. Nel 2021, Waymo ha dichiarato a Verge di aver simulato 15 miliardi di miglia di guida, contro solo 20 milioni di miglia reali di guida.

Un ulteriore vantaggio di testare prima i veicoli autonomi nei mondi virtuali è ridurre al minimo la possibilità di incidenti molto reali. “Un grande motivo per cui la guida autonoma è in prima linea in molti dati sintetici è la tolleranza agli errori”, afferma Herman. “Un’auto a guida autonoma che commette un errore l’1% delle volte, o anche lo 0,01% delle volte, è probabilmente troppo”.

Nel 2017, la tecnologia di guida autonoma di Volvo, a cui era stato insegnato come rispondere ai grandi animali nordamericani come i cervi, è rimasta sconcertata quando ha incontrato per la prima volta i canguri in Australia. “Se un simulatore non conosce i canguri, nessuna simulazione ne creerà uno fino a quando non verrà visto nei test e i progettisti non capiranno come aggiungerlo”, afferma Koopman. Per Aaron Roth, professore di informatica e scienze cognitive all’Università della Pennsylvania, la sfida consisterà nel creare dati sintetici che siano indistinguibili dai dati reali. Pensa che sia plausibile che siamo a quel punto per i dati sui volti, poiché i computer ora possono generare immagini fotorealistiche dei volti. “Ma per molte altre cose”, che possono includere o meno i canguri, “Non credo che siamo ancora arrivati”.

Leave a Comment