Kyutai sfida OpenAI con Moshi, l’IA open-source che rivoluziona l’interazione uomo-macchina

La francese Kyutai ha presentato Moshi, un innovativo modello di intelligenza artificiale multimodale in tempo reale che supera alcune funzionalità del GPT-4o di OpenAI.

Moshi, infatti, è in grado di comprendere ed esprimere emozioni, parlare con accenti diversi (tra cui il francese) e generare audio e testo in modo fluido.

Tecnologia all’avanguardia per l’interazione in tempo reale

Una delle caratteristiche più sorprendenti di Moshi è la capacità di gestire due flussi audio contemporaneamente, consentendo all’IA di ascoltare e parlare nello stesso momento.

Questa interazione in tempo reale è resa possibile dal pre-addestramento congiunto su una combinazione di testo e audio, sfruttando i dati testuali sintetici di Helium, un modello linguistico da 7 miliardi di parametri sviluppato da Kyutai.

Addestramento e ottimizzazione di Moshi

Il processo di fine-tuning (l’attività che consiste nella modifica finale e nella precisione precisione per l’ottimizzazione) di Moshi ha coinvolto 100.000 conversazioni sintetiche in “stile orale”, convertite utilizzando la tecnologia Text-to-Speech (TTS).

La voce del modello è stata addestrata su dati sintetici generati da un modello TTS separato, raggiungendo una latenza end-to-end di 200 millisecondi.

Kyutai ha anche sviluppato una versione più piccola di Moshi in grado di funzionare su un MacBook o una GPU consumer, rendendola accessibile a un pubblico più ampio.

Responsabilità e trasparenza nell’IA

Kyutai ha sottolineato l’importanza dell’uso responsabile dell’IA incorporando la filigrana per rilevare l’audio generato dall’IA, una funzionalità ancora in fase di sviluppo.

Architettura e funzionamento di Moshi

Moshi è alimentato da un modello linguistico multimodale da 7 miliardi di parametri che elabora input e output vocali. Il modello opera con un sistema I/O a due canali, generando token di testo e codec audio contemporaneamente.

Il modello linguistico di base, Helium 7B, è stato addestrato da zero e poi congiuntamente con codec di testo e audio. Basato sul modello Mimi di Kyutai, il codec vocale vanta un fattore di compressione 300x, catturando informazioni semantiche e acustiche.

Addestramento e flessibilità del motore Text-to-Speech

L’addestramento di Moshi ha coinvolto processi rigorosi, con il fine-tuning di 100.000 trascrizioni altamente dettagliate annotate con emozioni e stile. Il motore Text-to-Speech, che supporta 70 diverse emozioni e stili, è stato affinato su 20 ore di audio registrate da una doppiatrice professionista di nome Alice. Il modello è progettato per essere adattabile e può essere ulteriormente perfezionato con meno di 30 minuti di audio.

Il modello demo di Moshi, ospitato su Scaleway e Hugging Face, può gestire due batch size a 24 GB di VRAM. Supporta vari backend, tra cui CUDA, Metal e CPU, e beneficia di ottimizzazioni nel codice di inferenza tramite Rust. Si prevede che il caching KV e il caching dei prompt miglioreranno ulteriormente le prestazioni.

Il futuro di Moshi

Kyutai ha piani ambiziosi per Moshi, con l’intenzione di rilasciare un rapporto tecnico e versioni open del modello, incluso il codice di inferenza, il modello 7B, il codec audio e l’intero stack ottimizzato. Le future iterazioni, come Moshi 1.1, 1.2 e 2.0, perfezioneranno il modello in base al feedback degli utenti. La licenza di Moshi mira ad essere il più permissiva possibile, favorendo l’adozione diffusa e l’innovazione. Fonte: MarkTechPost.

Questo contenuto è stato scritto da un utente della Community.  Il responsabile della pubblicazione è esclusivamente il suo autore. 

3 buoni motivi per registrarsi alla Community di Innovation Island

  • Aggiornamento continuo sui finanziamenti all’innovazione
  • Il bando e altre novità del Premio Innovazione Sicilia
  • Accesso a opportunità di lavoro e di formazione