Le rivali di Nvidia si concentrano sulla costruzione di un diverso tipo di chip per alimentare i prodotti AI

SANTA CLARA, Calif. (AP) - Costruire l'attuale serie di chatbot di intelligenza artificiale ha fatto affidamento su chip informatici specializzati ideati da Nvidia, che ha conquistato il mercato e si è fatto conoscere come il simbolo dell'esplosione dell'IA.

Ma le stesse qualità che rendono efficaci quei chip processori grafici, o GPU, nel creare potenti sistemi AI da zero li rendono meno efficienti nel mettere i prodotti AI al lavoro.

Questo ha aperto l'industria dei chip AI a rivali che pensano di poter competere con Nvidia nella vendita dei cosiddetti chip di inferenza AI, più adatti all'uso quotidiano degli strumenti AI e progettati per ridurre alcuni dei enormi costi di calcolo dell'IA generativa.

“Queste aziende vedono un'opportunità per quel tipo di hardware specializzato”, ha detto Jacob Feldgoise, analista presso il Center for Security and Emerging Technology dell'Università di Georgetown. “Più ampia sarà l'adozione di questi modelli, maggiore sarà il calcolo necessario per l'inferenza e maggiore sarà la domanda di chip di inferenza.”

Cosa significa inferenza AI?

È necessaria molta potenza di calcolo per realizzare un chatbot AI. Si inizia con un processo chiamato training o pretraining - la “P” in ChatGPT - che coinvolge i sistemi AI nell'”apprendimento” dai modelli di enormi quantità di dati. Le GPU sono brave a fare quel lavoro perché possono eseguire molteplici calcoli contemporaneamente su una rete di dispositivi in comunicazione tra loro.

Tuttavia, una volta addestrato, uno strumento AI generativo ha comunque bisogno di chip per fare il lavoro - ad esempio quando chiedi a un chatbot di comporre un documento o generare un'immagine. Ecco dove entra in gioco l'inferenza. Un modello AI addestrato deve prendere nuove informazioni e trarre delle inferenze da ciò che già sa per produrre una risposta.

Anche le GPU possono fare quel lavoro. Ma può essere un po' come prendere un martello per schiacciare una noce.

“Con il training, si fa un lavoro molto più pesante, molto più lavoro. Con l'inferenza, è più leggero,” ha detto l'analista di Forrester Alvin Nguyen.

Questo ha portato startup come Cerebras, Groq e d-Matrix nonché i rivali tradizionali di Nvidia nella produzione di chip - come AMD e Intel - a proporre chip più adatti all'inferenza mentre Nvidia si concentra sul soddisfare la grande domanda da parte delle grandi aziende tecnologiche per l'hardware di fascia alta.

All'interno di un laboratorio di chip di inferenza AI

D-Matrix, che sta lanciando il suo primo prodotto questa settimana, è stata fondata nel 2019 - un po' in ritardo nel gioco dei chip AI, come ha spiegato il CEO Sid Sheth durante un'intervista recente presso la sede dell'azienda a Santa Clara, in California, la stessa città della Silicon Valley che è anche sede di AMD, Intel e Nvidia.

“C'erano già più di 100 aziende. Quindi quando siamo usciti, la prima reazione che abbiamo ricevuto è stata 'sei arrivato troppo tardi',” ha detto. L'arrivo della pandemia sei mesi dopo non ha aiutato poiché l'industria tecnologica si è concentrata su software per servire il lavoro a distanza.

Ora, tuttavia, Sheth vede un grande mercato nell'inferenza AI, paragonando quella fase successiva dell'apprendimento automatico a come gli esseri umani applicano le conoscenze acquisite a scuola.

“Abbiamo trascorso i primi 20 anni della nostra vita andando a scuola, educandoci. Questo è il training, vero?” ha detto. “E poi i successivi 40 anni della tua vita, esci là fuori e applichi quelle conoscenze - e poi ricevi un incentivo per essere efficiente.”

Il prodotto, chiamato Corsair, è composto da due chip con quattro chiplet ciascuno, realizzati dalla Taiwan Semiconductor Manufacturing Company - lo stesso produttore della maggior parte dei chip di Nvidia - e confezionati insieme in modo da mantenerli freschi.

I chip sono progettati a Santa Clara, assemblati a Taiwan e poi testati di nuovo in California. Il testing è un processo lungo e può richiedere sei mesi - se c'è qualcosa che non va, può essere rimandato a Taiwan.

I lavoratori di D-Matrix stavano facendo i test finali sui chip durante una recente visita a un laboratorio con tavoli di metallo blu coperti di cavi, schede madri e computer, con una stanza server fredda accanto.

Chi vuole i chip di inferenza AI?

Mentre i giganti della tecnologia come Amazon, Google, Meta e Microsoft hanno assorbito l'offerta di costose GPU in una corsa per superarsi a vicenda nello sviluppo dell'AI, i produttori di chip di inferenza AI puntano a una clientela più ampia.

Nguyen di Forrester ha detto che potrebbero includere aziende Fortune 500 che vogliono utilizzare le nuove tecnologie AI generative senza dover costruire la propria infrastruttura AI. Sheth ha detto di aspettarsi un forte interesse nella generazione video AI.

“Il sogno dell'AI per molte di queste aziende enterprise è che si possano utilizzare i propri dati aziendali”, ha detto Nguyen. “L'acquisto di chip di inferenza AI dovrebbe essere più economico rispetto all'acquisto delle ultime GPU di Nvidia e degli altri. Ma penso che ci sarà una curva di apprendimento in termini di integrazione.”

Feldgoise ha detto che, a differenza dei chip focalizzati sul training, il lavoro di inferenza AI prioritizza quanto velocemente una persona otterrà una risposta da un chatbot.

Ha detto che un'intera serie di aziende sta sviluppando hardware AI per l'inferenza che può funzionare non solo nei grandi data center ma anche localmente su computer desktop, laptop e telefoni.

Perché è importante?

I chip meglio progettati potrebbero abbassare i costi elevati di esecuzione dell'AI per le imprese. Questo potrebbe anche influenzare i costi ambientali ed energetici per tutti gli altri.

Sheth dice che la grande preoccupazione al momento è: “stiamo per incendiare il pianeta nella nostra ricerca di ciò che le persone chiamano AGI - intelligenza simile a quella umana?”

E' ancora confuso quando l'AI potrebbe arrivare al punto dell'intelligenza generale artificiale - le previsioni vanno da alcuni anni a decenni. Ma, nota Sheth, solo un pugno di giganti della tecnologia è in quella ricerca.

“Ma allora che succede al resto?” ha detto. “Non possono essere messi sulla stessa strada.”

L'altro gruppo di aziende non vuole utilizzare modelli AI molto grandi - è troppo costoso e utilizza troppa energia.

“Non so se le persone apprezzino davvero che l'inferenza sarà effettivamente un'opportunità molto più grande rispetto al training. Non credo che lo apprezzino. È ancora il training che sta davvero acaparando tutte le testate giornalistiche,” ha detto Sheth.