'Questa è stata essenzialmente un attacco DDoS di due settimane': rallentamento del database dell'interfaccia utente del gioco causato da un incessante web scraping di OpenAI

Non molto tempo dopo la sua relaunch con oltre 55.000 screenshot e una serie di nuove funzionalità, il database dell'interfaccia utente del gioco ha incontrato un grosso ostacolo.

Edd Coates, creatore del repository gratuito, ha notato che il sito web era "lento come l'inferno" e con l'aiuto del maestro dei server Jay Peet, ha iniziato a indagare. La soluzione era incredibilmente semplice. Bloccare un singolo indirizzo IP ha permesso al servizio normale di riprendere, ma chi era il proprietario di quella carta di chiamata digitale? Nient'altro che OpenAI, la società di intelligenza artificiale generativa dietro ChatGPT e Dall-E.

Coates ha inizialmente condiviso la notizia su X, e ha criticato la pratica di OpenAI di fare web scraping di siti web per informazioni che possono essere utilizzate per addestrare i suoi modelli. L'azienda non è timida al riguardo. Il suo sito web afferma apertamente che i suoi grandi modelli linguistici sono addestrati su tre fonti tra cui "informazioni che sono pubblicamente disponibili su Internet". Naturalmente, una miriade di cause legali e sfide legali potenziali coinvolgenti importanti giornali (incluso il New York Times) e persino creatori di YouTube sosterrebbero che "pubblicamente disponibile" non equivale a legale (grazie The Guardian e The Verge).

Per Coates, il problema qui è duplice. Per iniziare, non è d'accordo con i metodi o il modello di business di OpenAI, ma essere preso di mira dall'azienda ha anche distrutto una risorsa gratuita che aveva impiegato cinque anni per costruire.

"Ho notato per la prima volta che il database aveva problemi un paio di settimane fa, quando le pagine impiegavano molto più tempo a caricarsi. Sapevo che questo non c'entrava con il sito stesso perché era sempre stato fluido (anche con più utenti attivi online), quindi sospettavo giochi sporchi ma non riuscivo a trovare prove in quel momento", ha detto Coates a Game Developer.

"Non riuscivo a rilasciare aggiornamenti al sito poiché il lag stava interferendo con i miei strumenti di amministrazione, e ricevevo persino email e messaggi arrabbiati dagli utenti che dipendono dal sito come parte del loro flusso di lavoro quotidiano".

Ha spiegato che alla fine il disturbo ha causato al sito web di smettere di funzionare del tutto, distribuendo errori "502 Gateway non valido" agli utenti. A quel punto, Coates ha chiesto l'aiuto di Jay Peet, che aveva ospitato il database sul loro server privato per gli ultimi cinque anni. Peet ha guardato ai log del sito e ha capito che le risorse del sito web stavano essendo inghiottite da un singolo indirizzo IP appartenente a OpenAI.

"La homepage veniva ricaricata 200 volte al secondo, poiché il bot [OpenAI] stava evidentemente faticando a orientarsi nel sito e rimaneva bloccato in un loop continuo", ha aggiunto Coates. "Questo è stato essenzialmente un attacco DDoS lungo due settimane sotto forma di una rapina di dati".

Il fondatore del database dell'interfaccia utente del gioco si chiede se lo scraping di OpenAI sia "giusto o addirittura legale?"

Coates non guadagna denaro dal database dell'interfaccia utente del gioco. In effetti, in realtà gestisce il sito web a perdita. Tuttavia, se avesse cercato di monetizzare il progetto o avesse sfruttato strumenti esterni come Amazon Web Services, l'interesse non gradito di OpenAI avrebbe potuto causare danni finanziari.

"Se mi fossi affidato a [Game UI Database] per inserzioni pubblicitarie o quote associative, il downtime causato da OpenAI avrebbe assolutamente avuto un impatto sul mio reddito", ha detto. "Stavano trasferendo ~70GB di dati dal server ogni dieci minuti. Fortunatamente, non ho costi di larghezza di banda e minimi oneri del server, quindi posso fornire questa risorsa a tutti gratuitamente (come dovrebbero essere tutte le risorse educative). Ma se avessi pagato AWS per lo storage, ad esempio, questa larghezza di banda mi sarebbe costata circa £850 al giorno".

"OpenAI non è neanche trasparente su da dove provengano i loro dati, quindi sarei stato l'unico responsabile di quella bolletta. Come può essere giusto o addirittura legale? E non sono certo l'unico ad essere interessato a questo".

Coates ha detto che il problema è più profondo di una potenziale perdita di reddito, però. "Non voglio nemmeno iniziare con ciò che stanno facendo con questi dati", ha continuato, sottolineando che ha trascorso anni a raccogliere e catalogare meticolosamente riferimenti di interfaccia utente per aiutare altri creativi nell'industria dei giochi solo per vedere quel lavoro (che comprende gli sforzi di migliaia di sviluppatori) "rubato da un'organizzazione multi-miliardaria".

Coates ha detto che l'idea che OpenAI stia riproponendo quel lavoro per "ferire e sostituire le persone che sto cercando di aiutare" aggiunge solo insulto al danno. "È malato. La tecnologia di intelligenza artificiale generativa semplicemente non esisterebbe senza il lavoro dei creativi umani, eppure siamo noi qui a essere puniti senza compensazione o credito", ha aggiunto.

Per quanto riguarda come il database dell'interfaccia utente del gioco sia riuscito a respingere gli avanzamenti di OpenAI, Coates e Peet alla fine hanno bloccato tutti gli IP associati all'azienda a livello del server HTTP per impedire che deployasse una soluzione alternativa.

"Quando ho indagato su questo problema, era evidente che qualcosa stava cercando di fare web scraping o crawling da noi. Le nostre analisi d'uso mostravano 10 utenti attivi, mentre il server effettivo riportava 200-300 richieste attive", ha detto Peet. "Sospettavo che qualcuno stesse tentando di DDoS noi o che i dati fossero prelevati in massa da uno scraper automatizzato".

"Bloccare i crawler non è stato troppo complesso anche se il metodo per farlo potrebbe essere fragile se OpenAI dovesse aggiungere o cambiare uno qualsiasi dei loro indirizzi IP in uso. Dopo aver modificato il file robots.txt (che OpenAI può semplicemente ignorare se lo desidera), ho bloccato esplicitamente tutti gli IP di OpenAI a livello del server HTTP. Dopo il passaggio alla nuova configurazione, il sito web è tornato immediatamente al suo tempo di risposta regolare".

Al momento della stesura, Game UI Database sta tornando a pieno regime e difendendo il lavoro di interfaccia utente presentato in quasi 1.400 titoli, tra cui progetti sfortunati come Concord. Game Developer ha contattato OpenAI per un commento.