Inception emerge dall'ombra con un nuovo tipo di modello di intelligenza artificiale

Inception, una nuova azienda con sede a Palo Alto fondata dal professore di informatica di Stanford Stefano Ermon, afferma di aver sviluppato un nuovo modello di intelligenza artificiale basato sulla tecnologia della "diffusione". Inception lo chiama un modello di linguaggio large basato sulla diffusione, o "DLM" per abbreviazione.

I modelli di intelligenza artificiale generativa che ricevono ora più attenzione possono essere ampiamente divisi in due tipi: modelli di linguaggio large (LLM) e modelli di diffusione. LLM, costruiti sull'architettura del trasformatore, sono utilizzati per la generazione di testo. Nel frattempo, i modelli di diffusione, che alimentano sistemi di intelligenza artificiale come Midjourney e Sora di OpenAI, vengono principalmente utilizzati per creare immagini, video e audio.

Il modello di Inception offre le capacità dei tradizionali LLM, inclusa la generazione di codice e il question answering, ma con prestazioni significativamente più veloci e costi di calcolo ridotti, secondo l'azienda.

Ermon ha dichiarato a TechCrunch di aver studiato come applicare i modelli di diffusione al testo per molto tempo nel suo laboratorio di Stanford. La sua ricerca si basava sull'idea che i tradizionali LLM siano relativamente lenti rispetto alla tecnologia di diffusione.

Con i LLM, "non puoi generare la seconda parola finché non hai generato la prima, e non puoi generare la terza finché non hai generato le prime due", ha detto Ermon.

Ermon stava cercando un modo per applicare un approccio di diffusione al testo perché, a differenza dei LLM, che lavorano in modo sequenziale, i modelli di diffusione partono da una stima approssimativa dei dati che stanno generando (ad esempio, un'immagine), e poi portano i dati a fuoco tutto in una volta.

Ermon ipotizzava che fosse possibile generare e modificare ampi blocchi di testo in parallelo con i modelli di diffusione. Dopo anni di tentativi, Ermon e uno studente del suo hanno raggiunto una svolta importante, che hanno dettagliato in un articolo di ricerca pubblicato l'anno scorso.

Riconoscendo il potenziale avanzamento, Ermon ha fondato Inception l'estate scorsa, scegliendo due ex studenti, il professore dell'UCLA Aditya Grover e il professore di Cornell Volodymyr Kuleshov, come co-leader dell'azienda.

Anche se Ermon ha declinato di parlare del finanziamento di Inception, TechCrunch capisce che il Mayfield Fund ha investito.

Inception ha già garantito diversi clienti, comprese aziende Fortune 100 non nominate, affrontando la loro esigenza critica di ridurre la latenza dell'intelligenza artificiale e aumentare la velocità, ha detto Emron.

"Quello che abbiamo scoperto è che i nostri modelli possono sfruttare le GPU in modo molto più efficiente", ha detto Ermon, riferendosi ai chip informatici comunemente utilizzati per eseguire i modelli in produzione. "Penso che sia una cosa grandiosa. Questo cambierà il modo in cui le persone costruiscono modelli di linguaggio."

Inception offre un'API così come opzioni di distribuzione on-premises e per dispositivi edge, supporto per il raffinamento del modello e una serie di DLM pronti all'uso per vari casi d'uso. L'azienda sostiene che i suoi DLM possono funzionare fino a 10 volte più velocemente dei tradizionali LLM, costando 10 volte di meno.

"Il nostro 'piccolo' modello di coding è altrettanto buono del mini GPT-4o di [OpenAI] mentre è più di 10 volte più veloce", ha detto un portavoce dell'azienda a TechCrunch. "Il nostro modello 'mini' supera i modelli open source piccoli come Llama 3.1 8B di [Meta] e raggiunge più di 1.000 token al secondo."

"Token" è il gergo industriale per i bit di dati grezzi. Mille token al secondo sono davvero una velocità impressionante, assumendo che le affermazioni di Inception siano valide.