Intelligenza artificiale: cosa succede quando viene addestrata con i contenuti che produce?

Cosa accade quando l’intelligenza artificiale viene addestrata con i contenuti che lei stessa produce? In questo caso potremmo trovarci di fronte ad un problema. Ecco tutti i dettagli.

Intelligenza artificiale: cosa succede quando viene addestrata con i contenuti che produce?

Da poco più di un anno, tutti possono sperimentare liberamente con l’intelligenza artificiale. I contenuti prodotti con ChatGPT, Bard, Mid Journey, Dall-E e Stable Diffusion, come riportato da Wired, sono ovunque e vengono usati sia da professionisti che da utenti alle prime armi. Queste AI generative consentono di creare testi e immagini, che si sono diffusi nel web. La diffusione di questi contenuti potrebbe creare un corto circuito su cui ricercatori di diversi paesi stanno concentrando la loro attenzione, ovvero il model collapse.

Questo fenomeno è stato descritto per la prima volta da un gruppo di ricerca di cui fanno parte membri di università britanniche e canadesi. Viene definito come un processo degenerativo in cui i contenuti generati finiscono per inquinare i dataset delle prossime generazioni di modelli che, addestrati con dati inquinati, avranno una percezione sbagliata della realtà. Questo significa che le informazioni a cui queste intelligenze artificiali si basano sono quelle prodotte dalle stesse AI e questo potrebbe portare ad un processo di degenerazione dei risultati.

Queste intelligenze artificiali producono risultati su base statistica e tendono ad eliminare progressivamente ogni evento poco probabile ad ogni successiva iterazione. I modelli linguistici di grandi dimensioni, chiamati Large Language Model o LLM, sono la tecnologia che consente a questi programmi di funzionare sulla base di prompt, o input, forniti in linguaggio naturale dall’utente.

Basandosi su grandi quantità di parametri, gli algoritmi di deep learning usati per far funzionare queste tecnologie vengono addestrati su dati ricavati anche tramite scraping da fonti online. E se i dati contengono degli errori, l’intelligenza artificiale non farà altro che riprodurli. Fino ad ora possiamo dire che i contenuti su cui si basano le risposte di ChatGPT sono stati creati da esseri umani,. Ma questo è vero solo fino allo scorso anno. In futuro, una nuova ipotetica versione potrebbe trovare un dataset diverso, in cui molte informazioni sono state prodotte usando le versioni precedenti della stessa tecnologia. I ricercatori hanno spiegato che “i dati sulle interazioni degli umani con gli LLM saranno sempre più preziosi”.

Intelligenza artificiale: verso il Model autophagy disorder

Cosa accadrà quando una crescente quantità di informazioni sarà creata dalle macchine? Soffriranno di quello che una ricerca americana ha definito Mad, ovvero Model Autophagy Disorder. Si tratta di una disfunzione determinata da modelli che si nutrono delle informazioni che hanno creato. Dagli studi effettuati emerge che la qualità del lessico peggiora. Il correttore automatico offre come soluzioni quelle più probabili statisticamente. Anche gli altri sistemi di raccomandazione funzionano nello stesso modo. La differenza principale sta nei parametri considerati e nella capacità del sistema di imparare dai nuovi dati che vengono forniti dalle macchine. Tutti i sistemi che si basano su tecnologie simili sono sensibili all’inquinamento dei dati. Questo non avviene solo per i testi, ma anche per le immagini, e in questo caso i risultati sono ancora più visibili.

Recentemente Microsoft e Google hanno incorporato i propri chatbot in diversi prodotti e nei loro motori di ricerca, mossa che potrebbe amplificare i problemi che generano. Non solo espongono gli utenti alle allucinazioni, gli errori degli LLM che generano risposte che non trovano riscontro nella realtà, ma anche a feedback loop in cui gli eventi meno frequenti tendono a scomparire. I sistemi di raccomandazioni possono generare delle camere dell’eco in cui trovano rappresentazione solo gli eventi più probabili. Secondo Daniele Gambetta, dottorando in intelligenza artificiale presso l’Università di Pisa, come riportato da Wired, “ognuno di questi casi è rilevante nella comprensione di fenomeni che saranno sempre più diffusi e che potrebbero portare a implicazioni indesiderate. La ricerca si sta muovendo in questa direzione, intersecando conoscenze tecniche e informatiche con strumenti e teorie provenienti dalla sociologia e dalla psicologia”.