Microsoft presenta VASA-1: l’IA che anima i volti umani (VIDEO)

Microsoft ha compiuto un grande passo avanti nel campo della generazione di contenuti guidata dall’intelligenza artificiale. Proprio questo mese, il braccio di ricerca della compagnia guidata da Satya Nadella ha presentato VASA-1, un framework di IA che può trasformare ritratti fotografici di teste umane in video che parlano e cantano.

Innovazione nel contenuto generato dall’IA

Il progetto segna un cambiamento significativo rispetto a quanto è stato raggiunto nella generazione di contenuti IA perché funziona con un input minimo. Tutto ciò di cui ha bisogno, infatti, è un ritratto statico e un file audio con voce, e il modello lo porterà in vita, completo di sincronizzazione labiale, espressioni correlate e movimenti della testa.

Microsoft ha condiviso diversi esempi che mostrano le capacità del framework, inclusa una rappresentazione della Gioconda che rappa (guarda il video poco su). Tuttavia, data la chiara possibilità di generare deepfake con tale tecnologia, l’azienda ha anche sottolineato che si tratta solo di una demo di ricerca e non c’è alcun piano per commercializzare la tecnologia.

Oggi, infatti, gli strumenti che generano contenuti IA, specialmente video, sono una spada a doppio taglio. Possono essere utilizzati per applicazioni positive, come la produzione di scene per progetti pubblicitari, o per atti dannosi come la produzione di deepfake e il danneggiamento della reputazione di una persona o celebrità.

Ecco, quindi, il punto delicato: anche i deepfake possono avere applicazioni positive. Immagina un artista che accetta di creare la sua replica digitale per progetti pubblicitari o promozioni sui social media. Con VASA-1, Microsoft percorre questa linea sottile della produzione di deepfake descrivendola come “la generazione di volti parlanti realistici di personaggi virtuali con competenze visive affettive accattivanti (VAS)”.

Innovazioni e controllo dell’utente

Secondo l’azienda, il modello di punta, quando fornito con un’immagine statica del viso di una persona e un file audio di un discorso, può trasformarlo in un video, completo di movimenti delle labbra sincronizzati con l’audio e una gamma di emozioni, sfumature facciali e movimenti naturali della testa che contribuiscono alla percezione di autenticità e vivacità. I ricercatori dietro VASA hanno scritto sul sito web dell’azienda che le principali innovazioni comprendono un modello di generazione di dinamiche facciali e movimenti della testa che opera in uno spazio latente del viso e lo sviluppo di uno spazio latente del viso espressivo e disgiunto utilizzando i video.

Considerazioni etiche

Importante è anche notare che la tecnologia permette agli utenti di controllare la loro generazione, consentendo di modificare aspetti come la sequenza dei movimenti, la direzione dello sguardo, la distanza della testa e le emozioni semplicemente muovendo un cursore su e giù. Microsoft ha enfatizzato che tutti i ritratti umani mostrati nelle clip dimostrative sono stati generati usando l’IA e questa tecnologia è in gran parte destinata alla generazione di competenze affettive visive per avatar AI virtuali, mirati a applicazioni positive piuttosto che a contenuti usati per ingannare.

A lungo termine, Microsoft vede la ricerca VASA come un passo verso avatar realistici che emulano movimenti ed emozioni umane. Questo, secondo l’azienda, potrebbe aiutare a migliorare l’equità educativa, l’accessibilità per le persone con sfide comunicative e offrire compagnia o supporto terapeutico a coloro che ne hanno bisogno.

Fonte: Venturebeat.com

Leggi anche questi articoli