DeepMind rivoluziona la produzione audiovisiva con l’IA: colonne sonore personalizzate per ogni video

DeepMind ha introdotto un innovativo strumento basato sull'IA che combina analisi visiva e prompt testuali per creare colonne sonore perfettamente adattate ai video, promettendo un nuovo standard nella produzione multimediale.

Software e App

di Fabrizio Ferrara

18 Giu 2024 / 19:36

Facebook

DeepMind, l’azienda di intelligenza artificiale di Google, ha recentemente svelato un innovativo strumento progettato per rivoluzionare la produzione di colonne sonore per i video. Questo nuovo sistema combina l’analisi dei pixel dei video con l’utilizzo di prompt testuali per generare audio perfettamente sincronizzato con le immagini, aprendo nuove prospettive nel campo della creazione multimediale.

Secondo quanto riportato da DeepMind, questo strumento consente agli utenti di creare ambientazioni sonore personalizzate, adattando la musica, gli effetti sonori e persino i dialoghi al tono e al contenuto del video. Immagina, ad esempio, una scena di un’auto che sfreccia in un paesaggio cyberpunk. Utilizzando prompt come “auto che sgomma, rombo del motore, musica elettronica angelica“, l’IA può generare un audio che segue perfettamente il movimento dell’auto e l’atmosfera della scena.

L’innovazione principale di questo sistema risiede nella sua capacità di generare un numero “illimitato” di colonne sonore per lo stesso video, consentendo agli utenti di sperimentare diverse opzioni audio fino a trovare quella che meglio si adatta alle loro esigenze creative. Questo aspetto potrebbe distinguere il tool di DeepMind da altri software simili presenti sul mercato, come il generatore di effetti sonori di ElevenLabs. Tuttavia, nonostante le sue potenzialità, il sistema presenta ancora alcune limitazioni da superare.

Ad esempio, DeepMind sta lavorando per migliorare la sincronizzazione dei movimenti delle labbra con i dialoghi generati dall’IA. Inoltre, la qualità dell’audio prodotto dipende strettamente dalla qualità del video originale; pertanto, immagini disturbate o di bassa risoluzione potrebbero compromettere l’esperienza finale.

Al momento, lo strumento non è ancora disponibile al pubblico e deve ancora superare una serie di test di sicurezza prima di essere rilasciato ufficialmente. Una volta disponibile, l’audio generato porterà il watermark SynthID di Google per identificare la sua origine artificiale. Questo nuovo strumento segna un passo significativo nell’evoluzione della creazione multimediale, combinando intelligenza artificiale avanzata con analisi visiva e testuale per fornire un’esperienza di produzione audiovisiva più efficiente e personalizzata. Mentre DeepMind continua a perfezionare questa tecnologia, si prevede che il settore della produzione di contenuti multimediali possa beneficiare enormemente di queste innovazioni, aprendo la strada a nuove modalità creative e possibilità espressive nel mondo digitale.

Continua a leggere su Fidelity News