Llama 3.2, l’IA multimodale di Meta che comprende immagini e testo

News - 27/09/2024

di Redazione

Meta ha presentato Llama 3.2, il suo primo modello di linguaggio multimodale open-source in grado di elaborare immagini e testo. A pochi mesi dal lancio di Llama 3.1, Mark Zuckerberg e la sua azienda tornano alla carica con un’IA che comprende le immagini, genera testo multilingue e molto altro. La famiglia include due modelli leggeri ottimizzati per ARM che possono essere eseguiti su processori Qualcomm e MediaTek.

Llama 3.2: comprensione delle immagini e generazione di testo

Secondo Meta, Llama 3.2 supporta casi d’uso di ragionamento sulle immagini, come la comprensione di tabelle e grafici, didascalie, localizzazione di oggetti e altro ancora. La nuova IA multimodale è in grado di estrarre dettagli da una foto e scrivere una o due frasi che potrebbero essere utilizzate come identificatore o per aiutare a raccontare una storia.

Integrazione nelle app di Meta

Durante la presentazione al keynote di Meta Connect, Mark Zuckerberg ha mostrato l’integrazione di Llama 3.2 nelle sue applicazioni più popolari. Ad esempio, l’assistente Meta AI integrato in WhatsApp, Messenger, Instagram e Facebook, capisce cosa stai guardando. Puoi inviargli una foto e fargli domande al riguardo, o condividere un’immagine di un piatto per ottenere una ricetta per la sua preparazione.

Editing di foto con Llama 3.2

Il carattere multimodale di Llama 3.2 permetterà anche di sfruttarlo nell’editing di foto. Zuckerberg ha presentato una demo in cui Meta AI aggiunge pattini, ginocchiere e un casco di sicurezza a una fotografia a partire da un’istruzione (prompt). L’IA può effettuare altre regolazioni, come cambiare i vestiti, rimuovere lo sfondo e altro ancora.

Llama 3.2 sfida GPT-4o mini e altri modelli commerciali di IA

Secondo l’azienda tecnologica, Llama 3.2 è competitivo se confrontato con altri modelli commerciali. In alcuni casi, il modello open-source di Meta supera Claude 3 Haiku e GPT-4o mini, dimostrando prestazioni eccezionali nei test di riconoscimento delle immagini e comprensione visiva.

La famiglia Llama 3.2

La famiglia Llama 3.2 include due modelli multimodali: uno con 90.000 milioni di parametri e un altro con 11.000 milioni. L’offerta è completata da Llama 3.2, 1B e 3B, che supportano una lunghezza di contesto di 128K token e sono in grado di eseguire riassunti, riscrittura e ogni sorta di istruzioni che vengono eseguite su un dispositivo locale. I modelli leggeri sono ottimizzati per ARM e possono gestire più attività con una latenza minima.

L’impegno di Meta per l’open-source

L’arrivo di Llama 3.2 avviene a soli due mesi dal lancio del suo predecessore. Meta ha investito una notevole quantità di tempo (e dati) per addestrare il suo modello di ultima generazione. Come abbiamo visto con Llama 3.1, la nuova versione del modello linguistico mantiene il suo impegno per l’open-source.

“Oggi, diverse aziende tecnologiche stanno sviluppando modelli chiusi leader. Ma l’open-source sta rapidamente colmando il divario”, ha dichiarato Zuckerberg in un post pubblicato a luglio. “L’anno scorso, Llama 2 era paragonabile solo a una generazione precedente di modelli dietro la frontiera. Quest’anno, Llama 3 è competitivo con i modelli più avanzati e leader in alcune aree”.

Llama 3.2 è disponibile per tutti gli sviluppatori. Fonte: Hipertextual.

Questo contenuto è stato scritto da un utente della Community. Il responsabile della pubblicazione è esclusivamente il suo autore.