OpenAI rivoluziona l’AI: i nuovi modelli o3 dominano nei test matematici e logici

I modelli o3 e o3-mini di OpenAI ridefiniscono le capacità dell’intelligenza artificiale con risultati sorprendenti in matematica, coding e ragionamento, aprendo nuove frontiere per applicazioni future.

OpenAI rivoluziona l’AI: i nuovi modelli o3 dominano nei test matematici e logici

OpenAI ha recentemente annunciato il rilascio dei suoi nuovi modelli o3 e o3-mini, segnando un importante passo avanti nel campo dell’intelligenza artificiale. Presentati come parte dell’iniziativa natalizia “12 giorni di regali“, questi modelli si distinguono per le prestazioni straordinarie in ambiti chiave come la matematica avanzata, la programmazione e il ragionamento logico. 

Uno dei successi più impressionanti di o3 è stato raggiunto nel test AIME 2024, una competizione matematica di alto livello. Il modello ha ottenuto un risultato quasi perfetto del 96,7%, con un solo errore. Questo livello di precisione, che sfida anche matematici esperti, dimostra il potenziale del modello nell’affrontare problemi complessi. Sam Altman, CEO di OpenAI, ha sottolineato che questi risultati rappresentano solo l’inizio di una nuova era per l’intelligenza artificiale, con applicazioni sempre più sofisticate all’orizzonte

Nel campo della programmazione, o3 ha stabilito nuovi standard. Con un punteggio di 2727 su Codeforces, il modello ha superato anche il Chief Scientist di OpenAI, dimostrando una comprensione avanzata della programmazione. Inoltre, ha ottenuto un punteggio notevole nel benchmark SWE-Bench Verified, migliorando di oltre 22 punti percentuali rispetto al suo predecessore o1.

Questi risultati evidenziano la capacità del modello di affrontare problemi complessi e di proporre soluzioni efficienti, rendendolo un prezioso alleato per sviluppatori e ricercatori. Un altro traguardo significativo è stato raggiunto nel test Frontier Math di EpochAI, dove o3 ha risolto il 25,2% dei problemi proposti. Sebbene la percentuale possa sembrare bassa, è un risultato rivoluzionario se confrontato con il massimo storico del 2% ottenuto da altri modelli.

Anche nel test ARC-AGI, progettato per valutare il ragionamento concettuale, o3 ha superato ogni aspettativa, triplicando le performance del modello precedente nella versione low compute e raggiungendo un’accuratezza dell’85%. Consapevole del potenziale e delle implicazioni di questi nuovi modelli, OpenAI ha scelto un approccio prudente per il rilascio. Per il momento, l’accesso ai modelli o3 e o3-mini sarà limitato a ricercatori specializzati in sicurezza, garantendo un utilizzo etico e sicuro delle loro avanzate capacità. 

 

 

Continua a leggere su Fidelity News