Come il bot di OpenAI ha distrutto il sito web di questa azienda di sette persone 'come un attacco DDoS'

Sabato, il CEO di Triplegangers Oleksandr Tomchuk è stato avvisato che il sito di e-commerce della sua azienda era giù. Sembrava essere una sorta di attacco distribuito di negazione del servizio.

Ha presto scoperto che il colpevole era un bot di OpenAI che cercava incessantemente di fare lo scraping dell'intero, enorme sito.

“Abbiamo oltre 65.000 prodotti, ogni prodotto ha una pagina,” ha detto Tomchuk a TechCrunch. “Ogni pagina ha almeno tre foto.”

OpenAI stava inviando “decine di migliaia” di richieste al server cercando di scaricare tutto, centinaia di migliaia di foto, insieme alle loro descrizioni dettagliate.

“OpenAI ha utilizzato 600 IP per fare lo scraping dei dati, e stiamo ancora analizzando i log della scorsa settimana, forse sono molti di più,” ha detto riguardo agli indirizzi IP che il bot ha usato per cercare di consumare il suo sito.

“I loro crawler stavano schiacciando il nostro sito,” ha detto. “Era praticamente un attacco DDoS.”

Il sito web di Triplegangers è la sua attività. La società di sette dipendenti ha trascorso oltre un decennio a mettere insieme quello che definisce il più grande database di “doppi digitali umani” sul web, ovvero file di immagini 3D scansionati da modelli umani reali.

Vende i file degli oggetti in 3D, così come le foto, tutto, dalle mani ai capelli, la pelle e corpi completi, a artisti 3D, creatori di videogiochi, chiunque abbia bisogno di ricreare digitalmente caratteristiche umane autentiche.

Il team di Tomchuk, con sede in Ucraina ma anche con licenza negli Stati Uniti a Tampa, Florida, ha una pagina di termini di servizio sul suo sito che vieta ai bot di prendere le sue immagini senza il permesso. Ma da solo non ha fatto nulla. I siti web devono utilizzare un file robot.txt correttamente configurato con tag che dicono specificamente al bot di OpenAI, GPTBot, di lasciare in pace il sito. (OpenAI ha anche un paio di altri bot, ChatGPT-User e OAI-SearchBot, che hanno i loro tag, secondo la pagina informativa sui loro crawler).

Robot.txt, altrimenti noto come Protocollo di esclusione dei robot, è stato creato per dire ai siti dei motori di ricerca cosa non indicizzare mentre esplorano il web. OpenAI dice sulla sua pagina informativa che rispetta tali file quando configurati con il proprio insieme di tag non-esplorazione, anche se avverte che i suoi bot possono impiegare fino a 24 ore per riconoscere un file robot.txt aggiornato.

Come ha sperimentato Tomchuk, se un sito non sta utilizzando correttamente robot.txt, OpenAI e altri lo considerano come se potessero fare scraping a loro piacimento. Non è un sistema di opt-in.

Per aggiungere insulto al danno, non solo Triplegangers è stata messa offline dal bot di OpenAI durante l'orario lavorativo negli Stati Uniti, ma Tomchuk si aspetta una bolletta di AWS aumentata grazie a tutta l'attività di CPU e di download del bot.

Robot.txt non è nemmeno un sistema infallibile. Le aziende di intelligenza artificiale vi si conformano volontariamente. Un'altra start-up di intelligenza artificiale, Perplexity, è stata famosamente citata lo scorso estate da un'indagine di Wired quando alcune prove hanno suggerito che Perplexity non stava onorando i suoi impegni.

Ogni prodotto è una pagina, con una pagina di prodotto che include molte altre foto. Usato con il permesso di Triplegangers (si apre in una nuova finestra)

Impossibile sapere con certezza cosa è stato preso

Entro mercoledì, dopo giorni di ritorno del bot di OpenAI, Triplegangers aveva un file robot.txt correttamente configurato e anche un account Cloudflare configurato per bloccare il suo GPTBot e diversi altri bot che ha scoperto, come Barkrowler (un crawler SEO) e Bytespider (il crawler di TokTok). Tomchuk spera anche di aver bloccato i crawler di altre società di modelli AI. Giovedì mattina, il sito non è andato in crash, ha detto.

Ma Tomchuk non ha ancora un modo ragionevole per scoprire esattamente cosa OpenAI ha preso con successo o per ottenere quella materiale rimosso. Non ha trovato un modo per contattare OpenAI e chiedere. OpenAI non ha risposto alla richiesta di commento di TechCrunch. E OpenAI finora non ha consegnato il suo atteso strumento di opt-out, come ha recentemente riportato TechCrunch.

Questa è una questione particolarmente delicata per Triplegangers. “Siamo in un settore in cui i diritti sono una questione seria, perché scansioniamo persone reali,” ha detto. Con leggi come il GDPR europeo, “non possono semplicemente scattare una foto di chiunque sul web e usarla.”

Il sito di Triplegangers era anche una scoperta particolarmente interessante per i crawler AI. Startup da miliardi di dollari, come Scale AI, sono state create dove gli esseri umani marciano con cura le immagini per addestrare l'intelligenza artificiale. Il sito di Triplegangers contiene foto etichettate in dettaglio: etnia, età, tatuaggi rispetto a cicatrici, tutti i tipi di corpo, e così via.

L'ironia è che la cupidigia del bot di OpenAI è stata ciò che ha avvertito Triplegangers di quanto fosse esposto. Se avesse fatto lo scraping in modo più delicato, Tomchuk non l'avrebbe mai saputo, ha detto.

“È spaventoso perché sembra che ci sia una falla che queste società stanno utilizzando per fare lo scraping dei dati, dicendo “puoi decidere di non farlo se aggiorni il tuo robot.txt con i nostri tag,” dice Tomchuk, ma questo mette l'onere del blocco sul proprietario dell'azienda di capire come farlo.

I log del server di Triplegangers mostravano come in modo spietato un bot di OpenAI stava accedendo al sito, da centinaia di indirizzi IP. Usato con il permesso di Triplegangers

Vuole che anche altre piccole aziende online sappiano che l'unico modo per scoprire se un bot di intelligenza artificiale sta prendendo i beni protetti da copyright di un sito web è di controllare attivamente. Non è certo l'unico ad essere terrorizzato da loro. I proprietari di altri siti web hanno recentemente raccontato a Business Insider come i bot di OpenAI hanno fatto crash dei loro siti web e hanno fatto lievitare le loro fatture AWS.

Il problema è cresciuto a dismisura nel 2024. Una nuova ricerca dalla società di pubblicità digitale DoubleVerify ha scoperto che i crawler e i bot di intelligenza artificiale hanno causato un aumento dell'86% del “traffico generale non valido” nel 2024, ovvero traffico che non proviene da un utente reale.

Tuttavia, “la maggior parte dei siti rimane all'oscuro di essere stati fatti scraping da questi bot,” avverte Tomchuk. “Ora dobbiamo monitorare quotidianamente l'attività dei log per individuare questi bot.”

Se ci pensate, l'intero modello funziona un po' come una estorsione mafiosa: i bot di intelligenza artificiale prenderanno ciò che vogliono a meno che tu non abbia protezione.

“Dovrebbero chiedere il permesso, non fare semplicemente lo scraping dei dati,” dice Tomchuk.

TechCrunch ha una newsletter dedicata all'intelligenza artificiale! Iscriviti qui per riceverla nella tua casella di posta ogni mercoledì.