CM3leon: il modello AI che genera immagini e testi a partire da testi e immagini

CM3leon è un modello multimodale di Meta capace di generare sequenze di testi e immagini condizionate a sequenze arbitrarie di altri contenuti di testo e immagine.

CM3leon: il modello AI che genera immagini e testi a partire da testi e immagini

Meta, la società dietro Facebook e Instagram, ha presentato CM3leon, un nuovo modello di intelligenza artificiale capace di generare immagini e testi a partire da testi e immagini. Si tratta di un modello multimodale, cioè in grado di gestire diverse modalità di input e output, che sfrutta una tecnica chiamata “attention” per pesare la rilevanza dei dati in ingresso, come testi o immagini, e produrre sequenze coerenti di testi e immagini in uscita.

CM3leon si basa su una tipologia di rete neurale chiamata “transformer“, che ha dimostrato ottime prestazioni nel campo del natural language processing, ovvero la capacità delle macchine di comprendere ed esprimere il linguaggio naturale. Meta ha adattato la ricetta dei modelli transformer basati solo su testo, aggiungendo una fase di pre-addestramento con dati provenienti da una ricerca su larga scala e una seconda fase di affinamento supervisionato su diversi compiti specifici.

Questa ricetta è semplice, produce un modello potente e dimostra anche che i transformer basati su tokenizzatori possono essere addestrati in modo efficiente come i modelli basati sulla diffusione generativa. La diffusione generativa è una tecnica usata da altri modelli di generazione di immagini, come DALL-E 2 di OpenAI o Parti di Google, che consiste nel partire da un’immagine composta interamente da rumore gaussiano e rimuovere gradualmente il rumore fino ad avvicinarsi all’immagine desiderata in base al testo in input. 

Questa tecnica è computazionalmente intensiva, rendendo costoso e lento il funzionamento dei modelli.CM3leon invece richiede cinque volte meno calcolo e un dataset di addestramento più piccolo rispetto ai metodi precedenti basati su transformer.

Inoltre, CM3leon ha la versatilità e l’efficacia dei modelli autoregressivi, mantenendo bassi i costi di addestramento e l’efficienza dell’inferenza. È un modello causale mascherato multimodale (CM3) perché può generare sequenze di testi e immagini condizionate a sequenze arbitrarie di altri contenuti di testo e immagine. Questo amplia notevolmente la funzionalità dei modelli precedenti che erano o solo testo-immagine o solo immagine-testo.

Meta ha applicato l’affinamento multitask basato su istruzioni a CM3leon sia per la generazione di immagini che di testi, mostrando che migliora significativamente le prestazioni su compiti come la generazione di didascalie per le immagini, la risposta alle domande visive, la modifica basata sul testo e la generazione condizionata di immagini. Questo fornisce un altro forte esempio di come le ricette di scalabilità sviluppate per i modelli solo testo si generalizzino direttamente ai modelli di generazione di immagini basati su tokenizzazione.

Quando si confronta le prestazioni sul benchmark più utilizzato per la generazione di immagini (zero-shot MS-COCO), CM3Leon ottiene uno score FID (Fréchet Inception Distance) di 4.88, stabilendo un nuovo stato dell’arte nella generazione testo-immagine e superando il modello testo-immagine di Google, Parti. Questo risultato sottolinea il potenziale dell’augmentazione basata sulla ricerca e evidenzia l’impatto delle strategie di scalabilità sulle prestazioni dei modelli autoregressivi.

Continua a leggere su Fidelity News