V-JEPA 2: l’AI di Meta che impara il mondo come gli umani

Meta ha annunciato il lancio di V-JEPA 2, un modello di intelligenza artificiale open-source che rappresenta un passo avanti significativo nel campo dei “modelli mondiali”. Questo sistema, progettato per comprendere e interagire con il mondo fisico in modo simile agli esseri umani, promette di trasformare settori come la robotica, i veicoli autonomi e le applicazioni di intelligenza artificiale embodied. Addestrato su oltre un milione di ore di video, V-JEPA 2 impara a prevedere movimenti e interazioni fisiche senza bisogno di dati etichettati, segnando una svolta nell’apprendimento autonomo.

Un modello mondiale per la comprensione fisica

V-JEPA 2, acronimo di Video Joint Embedding Predictive Architecture, è un modello di intelligenza artificiale definito “mondiale” per la sua capacità di simulare una versione semplificata della realtà fisica. A differenza dei tradizionali modelli di linguaggio, che si concentrano sull’elaborazione del testo, V-JEPA 2 si focalizza sulla comprensione delle dinamiche fisiche del mondo reale, come il movimento degli oggetti o l’effetto della gravità. “Le macchine comprendono il mondo fisico in modo diverso dal linguaggio”, spiega Meta, sottolineando come questo modello utilizzi un approccio di autoapprendimento per sviluppare connessioni di “buon senso”, simili a quelle che i bambini sviluppano osservando il mondo.

Il modello è stato addestrato su un vasto dataset che include oltre un milione di ore di video e un milione di immagini, oltre a circa 62 ore di dati di controllo robotico. Questo corpus di dati consente a V-JEPA 2 di riconoscere schemi complessi, come il movimento di una palla che rotola su un tavolo e cade, o il passaggio successivo in una ricetta, come aggiungere farina dopo aver mescolato gli ingredienti.

Come funziona V-JEPA 2

Il cuore di V-JEPA 2 è la sua architettura Joint Embedding Predictive Architecture (JEPA), che si basa su un processo di apprendimento auto-supervisionato. Invece di richiedere dati etichettati, il modello analizza video e immagini non annotati, identificando relazioni temporali e spaziali. Ad esempio, può prevedere il comportamento di un oggetto in base al contesto visivo, come un robot che comprende come raccogliere un oggetto non familiare e posizionarlo correttamente.

Il processo di addestramento avviene in due fasi. Nella prima, il modello apprende da video e immagini attraverso l’autoapprendimento, catturando schemi di interazione fisica. Nella seconda fase, utilizza un set limitato di dati di controllo robotico per integrare la comprensione delle azioni degli agenti, rendendo possibile la pianificazione e il controllo in tempo reale.

Secondo Meta, V-JEPA 2 è 30 volte più veloce del modello Cosmos di Nvidia, anche se le due aziende potrebbero utilizzare benchmark diversi per valutare le prestazioni. Questa velocità, combinata con la capacità di generalizzare in ambienti nuovi, rende il modello particolarmente adatto per applicazioni pratiche.

Applicazioni pratiche: robotica e oltre

Meta vede in V-JEPA 2 l’inizio di una “nuova era per la robotica”. “Crediamo che i modelli mondiali inaugureranno una nuova era per la robotica, consentendo agli agenti di intelligenza artificiale del mondo reale di aiutare con faccende domestiche e compiti fisici senza bisogno di quantità astronomiche di dati di addestramento”, ha dichiarato Yann LeCun, Chief AI Scientist di Meta.

I test di laboratorio condotti da Meta dimostrano che V-JEPA 2 consente ai robot di eseguire compiti come raccogliere e posizionare oggetti in ambienti non familiari, con tassi di successo che variano dal 65% all’80%. Ad esempio, un robot equipaggiato con V-JEPA 2 può utilizzare subgoal visivi per guidare il proprio comportamento, come afferrare un oggetto e collocarlo in una nuova posizione. Queste capacità sono fondamentali per applicazioni come robot di consegna, veicoli autonomi e droni, che devono navigare in ambienti dinamici e imprevedibili.

Oltre alla robotica, V-JEPA 2 ha il potenziale per rivoluzionare settori come la sanità, l’agricoltura e il soccorso in caso di disastri, dove la comprensione del contesto fisico è essenziale. La sua natura open-source consente a sviluppatori e ricercatori di tutto il mondo di testarlo e integrarlo in diverse applicazioni, accelerando l’innovazione nel campo dell’AI embodied.

Nuovi benchmark per la ricerca

Insieme a V-JEPA 2, Meta ha rilasciato tre nuovi benchmark per valutare la capacità dei modelli di intelligenza artificiale di ragionare sul mondo fisico attraverso i video: IntPhys 2, MVPBench e CausalVQA. Questi strumenti misurano rispettivamente la capacità di distinguere scenari fisicamente plausibili, la comprensione causale e il ragionamento su domande di tipo “cosa succederebbe se” o “cosa accadrà dopo”. Sebbene V-JEPA 2 mostri miglioramenti rispetto ai modelli precedenti, Meta riconosce che esiste ancora un divario significativo rispetto alle prestazioni umane, che raggiungono fino al 95% di accuratezza in questi compiti.

Meta e la corsa ai modelli mondiali

Il lancio di V-JEPA 2 si inserisce in un contesto di crescente interesse per i modelli mondiali. Recentemente, Fei-Fei Li, nota come “madrina dell’intelligenza artificiale”, ha raccolto 230 milioni di dollari per la sua startup World Labs, focalizzata sulla creazione di modelli che comprendano il mondo fisico. Allo stesso modo, Google DeepMind ha sviluppato Genie 2, un modello in grado di simulare ambienti 3D in tempo reale. Meta si posiziona così in una competizione sempre più accesa, con un investimento di 14 miliardi di dollari in Scale AI per potenziare le sue ambizioni nel campo dell’intelligenza artificiale.