Il nuovo modello AI di Ai2 batte uno dei migliori di DeepSeek

Fate posto a DeepSeek. C'è un nuovo campione AI in città - ed è americano.

La scorsa settimana, Ai2, un istituto di ricerca AI non profit con sede a Seattle, ha rilasciato un modello che sostiene di superare DeepSeek V3, uno dei principali sistemi della società cinese di AI DeepSeek.

Il modello di Ai2, chiamato Tulu3-405B, supera anche OpenAI's GPT-4o su determinati benchmark di AI, secondo i test interni di Ai2. Inoltre, a differenza di GPT-4o (e persino di DeepSeek V3), Tulu3-405B è open source, il che significa che tutti i componenti necessari per replicarlo da zero sono liberamente disponibili e concessi in licenza in modo permissivo.

Un portavoce di Ai2 ha dichiarato a TechCrunch che il laboratorio crede che Tulu3-405B "sottolinei il potenziale degli Stati Uniti di guidare lo sviluppo globale di modelli AI generativi di prima classe".

"Questo traguardo è un momento chiave per il futuro dell'AI aperta, rafforzando la posizione degli Stati Uniti come leader in modelli competitivi open source", ha detto il portavoce. "Con questo lancio, Ai2 sta introducendo un'alternativa potente, sviluppata negli Stati Uniti, ai modelli di DeepSeek - segnando un momento cruciale non solo nello sviluppo dell'AI, ma nel dimostrare che gli Stati Uniti possono guidare con AI competitiva e open source indipendentemente dai giganti tecnologici."

Tulu3-405B è un modello piuttosto grande. Contenente 405 miliardi di parametri, ha richiesto 256 GPU in esecuzione in parallelo per il training, secondo Ai2. I parametri corrispondono approssimativamente alle capacità di risoluzione dei problemi di un modello, e i modelli con più parametri generalmente si comportano meglio rispetto a quelli con meno parametri.

Ai2 ha testato Tulu3-405B sui benchmark popolari.Crediti immagine: Ai2

Secondo Ai2, una delle chiavi per ottenere prestazioni competitive con Tulu3-405B è stata una tecnica chiamata apprendimento per rinforzo con ricompense verificabili. L'apprendimento per rinforzo con ricompense verificabili, o RLVR, addestra i modelli su compiti con risultati "verificabili", come la risoluzione di problemi matematici e il seguire istruzioni.

Ai2 sostiene che sul benchmark PopQA, un insieme di 14.000 domande di conoscenza specializzate provenienti da Wikipedia, Tulu3-405B ha battuto non solo DeepSeek V3 e GPT-4o, ma anche il modello Llama 3.1 405B di Meta. Tulu3-405B ha anche avuto le prestazioni più elevate di qualsiasi altro modello della sua classe su GSM8K, un test contenente problemi di matematica di livello scolastico.

Tulu3-405B è disponibile per il test tramite l'app web chatbot di Ai2, e il codice per addestrare il modello è su GitHub e sulla piattaforma AI Hugging Face. Prendilo mentre è caldo - e prima che arrivi il prossimo modello AI di punta che batte i benchmark.