OpenAI lancia la modalità visione in tempo reale per ChatGPT

OpenAI ha rilasciato la funzionalità di visione in tempo reale per ChatGPT, consentendo all’intelligenza artificiale di “vedere” e interagire con il mondo attraverso la fotocamera dello smartphone.

Visione in tempo reale per ChatGPT

Dopo mesi di attesa, OpenAI ha lanciato la modalità video in tempo reale per ChatGPT. Gli utenti con un abbonamento a ChatGPT Plus, Team o Pro possono ora puntare la fotocamera del proprio telefono verso un oggetto e ChatGPT lo identificherà, lo comprenderà e risponderà alle domande in tempo reale.

Come funziona?

Durante una dimostrazione in diretta, OpenAI ha presentato un aggiornamento alla modalità vocale avanzata, che ora include funzionalità di visione. Come spiegato durante la presentazione, per utilizzare la nuova funzionalità, gli utenti possono toccare l’icona del microfono accanto alla barra della chat e quindi fare clic sull’icona del video in basso a sinistra per avviare il video. Per condividere lo schermo, è sufficiente toccare il menu a tre punti e selezionare “Condividi schermo“.

Applicazioni e potenzialità

La nuova funzionalità può anche interpretare ciò che è presente sullo schermo di un dispositivo tramite la condivisione dello schermo. Ad esempio, può spiegare le impostazioni del menu o fornire suggerimenti per risolvere un problema di matematica. Le potenzialità di questa nuova funzionalità sono enormi: si immagini ad esempio un turista che punta la fotocamera del telefono verso un monumento e riceve informazioni storiche e artistiche in tempo reale, oppure uno studente che riceve aiuto immediato per risolvere un problema di geometria.

Un’intelligenza artificiale ancora in fase di sviluppo

Nonostante alcuni successi, la funzionalità ha commesso un errore durante la risoluzione di un problema di geometria, dimostrando che ha ancora margini di miglioramento. Come molti altri modelli di intelligenza artificiale, ChatGPT è ancora soggetto a errori e “allucinazioni”, ovvero può generare informazioni errate o inventate.

Disponibilità e tempi di rilascio

Il lancio della modalità vocale avanzata con funzionalità video era stato ritardato più volte, in parte perché OpenAI aveva annunciato la funzionalità prima che fosse completamente pronta. Inizialmente, infatti, l’azienda aveva pianificato di lanciarla in primavera, ma ci sono voluti diversi mesi per finalizzarla. La distribuzione di questa funzionalità è iniziata giovedì 12 dicembre e dovrebbe essere completata entro la prossima settimana. Tuttavia, non tutti gli utenti avranno accesso immediato. Gli abbonati a ChatGPT Enterprise e Edu non potranno utilizzarla fino a gennaio e non ci sono ancora tempi previsti per la disponibilità nell’UE, Svizzera, Islanda, Norvegia o Liechtenstein.

Santa Mode per le festività

Oltre alle nuove funzionalità di visione, l’azienda ha anche introdotto una festosa “Santa Mode“, che consente agli utenti di selezionare la voce di Babbo Natale come preimpostazione in ChatGPT. Questa opzione è disponibile facendo clic sull’icona del fiocco di neve accanto alla barra dei prompt nell’app.

La competizione si fa accesa

Anche Google e Meta stanno lavorando a funzionalità simili per i propri sistemi di intelligenza artificiale. Questa settimana, Google ha presentato il suo Project Astra, che offre anche l’analisi video in tempo reale per gli utenti Android. La corsa allo sviluppo di intelligenze artificiali sempre più sofisticate è quindi aperta e OpenAI si conferma uno dei principali protagonisti di questa rivoluzione tecnologica.

Questo contenuto è stato scritto da un utente della Community.  Il responsabile della pubblicazione è esclusivamente il suo autore.