Via Guglielmo Calderini, 68, Roma
segreteria@nexing.it

Blog Details

  • Nexing
  • News
  • L’IA adesso può anche ‘ragionare’: OpenAI o1 è il primo modello per risolvere problemi complessi

L’IA adesso può anche ‘ragionare’: OpenAI o1 è il primo modello per risolvere problemi complessi

OpenAI ha svelato la sua ultima creazione nel campo dell’intelligenza artificiale: i modelli o1-preview e o1-mini. Collettivamente noti come famiglia “OpenAI o1”, rappresentano un notevole progresso nelle capacità di “ragionamento” e risoluzione dei problemi dei sistemi AI.

L’azienda afferma che o1-preview supera il suo predecessore, GPT-4o, in diversi benchmark cruciali come programmazione competitiva, matematica e il cosiddetto “ragionamento scientifico”. Tuttavia, chi ha già avuto accesso al modello ha segnalato che il nuovo modello non eccelle uniformemente in tutte le metriche rispetto a GPT-4o, evidenziando come ci siano ritardi nelle risposte a causa dell’elaborazione in più fasi compiuta per i “ragionamenti”.

OpenAI presenta il suo primo LLM in grado di risolvere problemi complessi

Un aspetto distintivo di o1-preview è infatti la sua capacità di affrontare compiti complessi in modo iterativo. OpenAI ha implementato un nuovo approccio di addestramento basato sul rinforzo, che insegna al modello a dedicare più tempo alla riflessione sui problemi prima di fornire una risposta. Questa metodologia permette a o1 di sperimentare diverse strategie per ogni query e di riconoscere i propri errori, mimando in qualche modo il processo di elaborazione dei problemi tipico del pensiero umano.

Secondo quanto dichiara OpenAI, le prestazioni di o1-preview sono state particolarmente impressionanti in alcuni ambiti specifici. Il modello si è classificato all’89° percentile nelle domande di programmazione competitiva di Codeforces e ha ottenuto l’83% in un esame di qualificazione per le Olimpiadi internazionali di matematica, un netto miglioramento rispetto al 13% raggiunto da GPT-4o. Nonostante i risultati promettenti, la stessa OpenAI invita a mantenere aspettative realistiche: Joanne Jang, product manager dell’azienda, ha sottolineato su X che o1 non è ancora un “modello miracoloso” in grado di superare i suoi predecessori in ogni aspetto.

Si tratta, invece, del “primo modello di ragionamento che brilla in compiti davvero difficili”, e i suoi risultati non potranno che migliorare secondo la dirigente. Le attese sui modelli della serie o1 sono comunque elevate, con il nuovo LLM che è già stato dato in pasto ai primi utenti con accesso anticipato: il professor Ethan Mollick di Wharton, ad esempio, lo ha definito “affascinante”, notando che, sebbene non eccella in tutti i compiti, riesce a risolvere alcuni problemi in precedenza particolarmente complessi per gli LLM modelli linguistici di grandi dimenioni. In questa pagina trovate i risultati dei suoi esperimenti.

L’introduzione di o1 ha anche riacceso il dibattito sulla terminologia utilizzata per descrivere le capacità dell’IA. Esemplare il commento di Clement Delangue, CEO di Hugging Face, in tal senso, che ha messo in guardia contro l’uso di termini antropomorfici come “pensiero” o “ragionamento” per descrivere le operazioni di questi sistemi. Gli LLM, infatti, si limitano ad “elaborare” o “eseguire previsioni”, di certo non possono né pensare o ragionare.

È da notare, comunque, che o1-preview presenta diverse limitazioni rispetto ai modelli precedenti. Mancano funzionalità come la navigazione web, la generazione di immagini e il caricamento di file, che OpenAI prevede di aggiungere in futuri aggiornamenti. L’arrivo di o1 segue mesi di speculazioni e anticipazioni, alimentate da report che suggerivano potenziali rischi legati a un nuovo modello di OpenAI. Tuttavia, le prime impressioni suggeriscono che, sebbene o1 rappresenti un progresso significativo in termini di problem-solving, non costituisce la minaccia immediata all’umanità paventata da alcuni.

o1-preview e o1-mini, un modello di dimensioni minori e sensibilmente più economico progettato specificamente per attività di coding, sono adesso in distribuzione graduale agli utenti di ChatGPT Plus e ad alcuni sviluppatori di API.

Fonte: Hurdware Hupgrade