La sfida dei “visiogrammi”: dare occhi all’IA, perché non sia più performance senza competence

Parlare senza capire. È un problema comune anche a tante persone che aprono bocca su tutto, ma se loro potrebbero sempre ricorrere allo studio, per l’Intelligenza artificiale il senso della frase resta un limite invalicabile: dai numeri alle parole, il “discorso” cambia. Molte delle novità più ardite presentate dalle startup al Gitex Dubai 2020 hanno riguardato proprio le menti Big Data: piattaforme di business intelligence che eseguono a comando, anche vocale, ogni report aziendale di cui manager e imprenditori possono aver bisogno nella loro attività quotidiana. Comprendono le richieste in tutte le lingue – dall’italiano, all’arabo, al russo – estrapolando le informazioni attraverso un chatbot. Segnalano anche le criticità: non occorre più che un analyst crei le query e richieda l’intervento al reparto IT producendo relazioni spesso criptiche.

Identici sistemi vengono usati, ad esempio, per la scrematura dei cv secondo determinate KPI. In sostanza, basta scrivere via chat “dammi l’andamento del fatturato di febbraio” per ottenere all’istante un documento semplice da consultare, abbattendo tempi e riducendo costi visto per il “robot” sopperisce a un intero ufficio amministrativo.

Ma già modificando leggermente la frase alcuni software potrebbero impallarsi o eseguire un altro compito: un conto è calcolare ed elaborare in autonomia cifre e percentuali, in base ad algoritmi di machine learning; altro comprendere ed escogitare soluzioni innovative a problemi inediti e imprevisti, che è ciò che il dizionario definisce “intelligenza”. Le macchine scrivono sempre meglio ma, come dimostrano i recenti test del Mit Technology Review, non sanno cosa dicono perché (e non potrebbe essere altrimenti) ignorano la prosodia del nostro linguaggio: il significato sempre mutevole – allusivo, metaforico, iperbolico, paradossale – che attribuiamo ai vocaboli in base ai differenti contesti in cui li adoperiamo.

Ignorano il lessico del corpo, quell’apparato di comunicazione non verbale fatta di gesti, toni, espressioni facciali e interlocuzioni. Non sono in grado di aggiornarsi alla stessa trasformazione ortografica di parole sempre più contaminate da neologismi, acronimi, termini e modi di dire stranieri: un meticciato in perenne evoluzione che riflette quello della società civile e rischia di indurre in errori grossolani la macchina, impossibilitata a riprodurlo per l’assenza di un “esame di realtà”, direbbero gli psicologi.

La ricerca scientifica sta provando a umanizzare il più possibile i suoi cervelli artificiali, attraverso i cosiddetti “visiogrammi”: strumenti ritenuti essenziali dagli esperti per i futuri sviluppi delle funzioni cognitive dell’IA e che consistono, semplificando, nel sostituire l’immagine nelle correlazioni tra soli vocaboli che informa l’attuale modello di “ragionamento” di questi programmi altamente tecnologici.

Una sorta di imprinting etologico, che si sforza di avvicinare quello fisiologico: la replica virtuale del processo naturale dell’apprendimento infantile, che consiste esattamente nell’associare le parole al mondo tramite forme e figure. Queste visualizzazioni dei multigrammi verbali – incorporati a un elemento visivo impostato come corrispondente, che li completa – è chiamata appunto “visiogrammi”. Rappresenterebbe il cardine di un vero e proprio metodo didattico computazionale rivolto all’IA, l’escamotage educativo che non le donerà il pensiero ma regalerà a chi ci sarà l’impressione che lo abbia sul serio.

Un data set del genere, però, non sarà disponibile neanche nel prossimo futuro: finora sono stati raccolti circa 120 milioni di visiogrammi, una bazzecola rispetto alla quantità dei multigrammi paralleli ed equivalenti. In Italia l’argomento è stato trattato finora solo da Agenda Digitale: “L’inserimento di modelli visuali nell’addestramento di sistemi neurali promette di superare una serie di nodi finora irrisolti, il problema è che la maggior parte delle parole in linguaggio naturale non sono facilmente collegabili a immagini” scrive il magazine, stimando che sarebbe possibile generare visiogrammi da appena il 28% delle voci Wikipedia. L’attenzione dell’industria vi si sta comunque rivolgendo perché, in prospettiva, un modello di questo tipo risulterebbe enormemente più competitivo di quelli basati soltanto su testo. Ma continua a mancare la cornice e lo sfondo, in cui anche queste “fotografie” delle frasi acquistano senso per l’umanità. Manca la retorica di cui è infarcita ogni insopprimibile variabile dipendente che circonda e avvolge lo scambio di informazioni tra la gente in carne ed ossa. Ci sono cose su cui noi umani, per fortuna, abbiamo ancora un’esclusiva, e che si possono imparare solo nell’incontro vivente tra intelletti. Resta il nostro aspetto intrinseco più profondo.