DeepSeek: la startup cinese sfida i giganti dell’AI con un modello low-cost rivoluzionario

DeepSeek, una giovane startup cinese, ha sviluppato un modello AI avanzato, il DeepSeek V3, capace di superare in prestazioni giganti come Meta e OpenAI, con un investimento contenuto e un'efficienza senza precedenti.

DeepSeek: la startup cinese sfida i giganti dell’AI con un modello low-cost rivoluzionario

Nel panorama sempre più competitivo dell’intelligenza artificiale, una piccola startup cinese sta attirando l’attenzione per aver sviluppato un modello in grado di sfidare i colossi come OpenAI, Meta e Alibaba. DeepSeek, fondata nel luglio del 2023 da High-Flyer Quant, una società che gestisce uno dei più grandi hedge fund quantitativi in Cina, ha recentemente lanciato il suo modello DeepSeek V3, un Large Language Model (LLM) che promette di superare le prestazioni dei giganti del settore con un budget sorprendentemente contenuto.

Il cuore del successo di DeepSeek V3 risiede nei suoi numeri impressionanti: 671 miliardi di parametri, un valore che lo posiziona tra i modelli più potenti al mondo. In parole semplici, i parametri in un modello di linguaggio come DeepSeek V3 determinano la sua capacità di comprendere e generare testo, risolvere problemi complessi e adattarsi a nuove informazioni. Più parametri un modello ha, maggiore è la sua abilità di lavorare con set di dati complessi, effettuando previsioni accurate e rispondendo a domande in modo fluido.Ciò che rende ancora più interessante il risultato di DeepSeek è che questo è stato raggiunto con un investimento relativamente modesto, pari a 5,58 milioni di dollari.

Questo confronto con le ingenti risorse finanziarie impiegate da altre aziende per lo sviluppo dei loro modelli LLM rivela la strategia innovativa adottata dalla startup. Un altro aspetto sorprendente del modello DeepSeek V3 è l’efficienza nei costi del suo addestramento. DeepSeek ha utilizzato solo 2,78 milioni di ore di GPU (Graphics Processing Units) per formare il suo modello, contro i 30,8 milioni di ore utilizzati da Meta per il modello Llama 3.1. Ciò è stato possibile grazie all’adozione di una nuova architettura, progettata per ottimizzare i costi senza compromettere le prestazioni. In un mercato dominato da modelli con budget miliardari, DeepSeek è riuscita a ottenere risultati eccezionali con un budget ridotto. 

DeepSeek V3 ha già dimostrato di essere competitivo con alcuni dei modelli più avanzati in circolazione. Nei benchmark, il modello ha superato Llama 3.1 di Meta e Qwen 2.5 di Alibaba in una serie di test cruciali. Questi test hanno valutato la capacità del modello di comprendere e generare testi, risolvere problemi matematici, generare codice e rispondere a domande di dominio esperto.

Non solo DeepSeek V3 ha ottenuto punteggi superiori in queste aree, ma i suoi risultati sono stati paragonabili a quelli di GPT-4 di OpenAI e Claude 3.5 Sonnet di Anthropic. DeepSeek ha dimostrato che è possibile sviluppare un modello AI avanzato con costi ridotti, sfidando i leader del settore e aprendo nuove opportunità per l’intelligenza artificiale. Con la sua ambizione di creare una “AI che possa beneficiare tutta l’umanità“, la startup sembra avere un grande potenziale per influenzare l’evoluzione del campo dell’AI. La domanda che ora si pone è se altre startup simili possano seguire l’esempio di DeepSeek, portando innovazioni che potrebbero alterare ulteriormente il panorama competitivo.

In un settore in rapida evoluzione come quello dell’intelligenza artificiale, la combinazione di efficienza nei costi e prestazioni elevate potrebbe rappresentare una vera rivoluzione, offrendo soluzioni a una gamma più ampia di aziende e sviluppatori. Con un futuro promettente davanti a sé, DeepSeek sta cambiando il modo in cui vediamo l’intelligenza artificiale e potrebbe, a lungo termine, diventare uno dei protagonisti chiave di questa industria. 

Continua a leggere su Fidelity News