Intelligenza artificiale: il rischio dei dati spazzatura

(Marzia Giglioli)

Si tratta di sliding doors. Dipende dalla direzione: si può prendere quella giusta oppure quella sbagliata. È il doppio destino dell’intelligenza artificiale. ‘Serve una governance mondiale altrimenti è il collasso sociale’, dichiara padre Paolo Benanti – presidente della Commissione Algoritmi del Dipartimento per l’Informazione a Palazzo Chigi – davanti a oltre 100 ambasciatori accreditati presso l’Ordine di Malta.
L’argomento sarà anche al centro del prossimo G7 ed è enorme, ma il potere dell’IA è già entrato in quasi tutti i settori e sta già creando i suoi modelli.
Uno studio dell’Università Johannes Gutenberg ha scoperto che ‘esiste per i dati un ciclo di allenamento autoconsumante che inizialmente migliora sia la qualità che la diversità’, ma dopo alcune generazioni l’output inevitabilmente degenera e cancella gradualmente le diversità. Naturalmente il tasso di degenerazione dipende dalla proporzione tra dati reali e quelli generati. E qui si gioca il destino di cosa saremo con l’intelligenza artificiale sempre più presente nella vita privata e in quella pubblica.

Altri due articoli accademici pubblicati nel 2023 sono giunti alla stessa conclusione sul degrado dei modelli di intelligenza artificiale quando vengono addestrati su dati sintetici, ovvero generati dalla stessa intelligenza artificiale. Secondo uno studio condotto da ricercatori di Oxford, Cambridge, Imperial College London, Università di Toronto e Università di Edimburgo, ‘l’uso di contenuti generati da modelli nella formazione alterata causa difetti irreversibili nei modelli risultanti, dove ‘le code’ del contenuto originale scompaiono, attivando così un collasso del modello’.

Allo stesso modo, i ricercatori della Stanford e della Rice University hanno affermato che ‘senza dati reali sufficienti in ogni generazione di un ciclo autofago (autoconsumo), i futuri modelli generativi sono condannati a vedere la loro qualità (o precisione) o diversità diminuire progressivamente’.

La mancanza di diversità sarà il problema fondamentale perché, se i modelli di intelligenza artificiale cercano di sostituire la creatività umana, ci si allontanerà sempre più dalle vere essenzialità e dai riferimenti corretti. Si perderà la memoria.
Il pericolo sarà soprattutto un ‘Internet generato dall’intelligenza artificiale che, senza regole giuste, risulterà così inevitabilmente degenerata e cancellerà i modelli originari. È la degenerazione ‘spazzatura’ il rischio reale’ avverte Nader Henein, analista vicepresidente della società di consulenza gestionale Gartner. ‘Man mano che i LLM (Large Language Model) si nutriranno reciprocamente dei contenuti, la qualità peggiora e diventa più vaga, come una fotocopia di una fotocopia di un’immagine’.

La prima versione di ChatGPT è stato l’ultimo modello ad essere addestrato su contenuti interamente generati da esseri umani. Da allora ogni modello contiene dati di addestramento con contenuti generati dall’intelligenza artificiale difficili da verificare o addirittura tracciare. Questi diventano inaffidabili o, per dirla senza mezzi termini, diventano spazzatura.

(riproduzione autorizzata citando la fonte)

Latest articles

Related articles