Un algoritmo può spiegare la violenza?
Che cosa accade quando un modello linguistico viene guidato da esempi esperti per riconoscere le forme tossiche della comunicazione
Nel dibattito pubblico sull’intelligenza artificiale si discute spesso della capacità dei modelli di classificare, prevedere o rispondere. Più raramente ci si chiede se una macchina possa anche spiegare, in modo comprensibile, perché una certa frase possa risultare tossica o abusiva. La ricerca “LLaMAntino against Cyber Intimate Partner Violence” si muove proprio su questo terreno. Non prova soltanto a capire se un modello linguistico sia capace di individuare messaggi tossici nelle relazioni affettive, ma si domanda anche se possa chiarire le ragioni per cui un messaggio esprime controllo, abuso o violenza. È un passaggio importante, perché in questi casi, infatti, non basta dire che una frase è tossica: bisogna anche rendere visibile ciò che, nella comunicazione quotidiana, spesso resta implicito o confuso.
La ricerca parte dall’idea che nelle relazioni intime la violenza non si presenti sempre in forme evidenti. Accanto ai casi più riconoscibili, esistono messaggi che sembrano normali, familiari o persino affettuosi, ma che in realtà costruiscono dinamiche di controllo e sopraffazione. Per questo gli autori non si limitano a chiedere al modello se una frase sia tossica oppure no, ma gli chiedono anche di chiarire perché lo sia, distinguendo tra violenza nella relazione e violenza esercitata attraverso strumenti digitali. Il punto centrale è che la spiegazione può diventare uno strumento di consapevolezza: non solo segnalare che c’è un problema, ma aiutare a capire quale logica relazionale si nasconde dietro certe parole. In questo modo, il modello diventa uno strumento utile per rendere più leggibili segnali che spesso restano difficili da riconoscere.
Per verificare questa possibilità, la ricerca mette a confronto due situazioni diverse. Nella prima, detta zero-shot, il modello riceve soltanto la descrizione del compito e la frase da analizzare. Nella seconda, detta two-shot, riceve anche due esempi già spiegati, uno relativo alla violenza nella relazione e uno relativo alla violenza esercitata attraverso strumenti digitali. Quegli esempi non sono scelti a caso: derivano da un lavoro di annotazione precedente e traducono le categorie elaborate da esperte psicologhe in brevi spiegazioni in linguaggio naturale. In pratica, il modello non viene lasciato del tutto libero di generare le spiegazioni, anche considerata la delicatezza del dominio, ma viene orientato da pochi casi costruiti con attenzione. È proprio questo il cuore dell’esperimento: capire se bastino pochi esempi ben fatti per migliorare non soltanto la classificazione, ma anche la qualità delle spiegazioni fornite dal sistema.
Il risultato più netto riguarda proprio la cyber intimate partner violence, cioè le forme di abuso che passano attraverso password, telefoni, accessi ai dispositivi, controllo degli scambi digitali e monitoraggio della vita privata. Nella ricerca, questo tipo di violenza risulta più difficile da riconoscere rispetto ad altre forme. Il modello migliora in modo significativo quando riceve i due esempi iniziali, mentre senza questa guida fatica più facilmente a cogliere la specificità della dimensione cyber. Nel paper questo miglioramento emerge anche nei numeri: LLaMAntino passa da zero casi corretti su venti a undici su venti, mentre ChatGPT 3.5, testato in parallelo, passa da quattro su venti a quindici su venti. Gli autori mostrano inoltre che, nel caso di LLaMAntino, diminuiscono anche i casi in cui il sistema non riconosce affatto la presenza di violenza. Questo dato è importante perché suggerisce che, nei casi più ambigui, la guida iniziale conta molto più della semplice potenza del modello.
Il miglioramento non riguarda soltanto il fatto di assegnare un’etichetta corretta. Riguarda anche il modo in cui il modello motiva la propria risposta. La ricerca confronta infatti le spiegazioni generate automaticamente con quelle costruite a partire dalle annotazioni degli esperti e mostra che, quando il modello riceve esempi, le sue spiegazioni risultano più vicine a quelle assunte come riferimento. In altre parole, non diventa solo più preciso nel segnalare che c’è un problema, ma anche nel descriverne la natura. Questo è uno degli aspetti più interessanti della ricerca. Una spiegazione generica può limitarsi a parlare di gelosia o di tensione. Una spiegazione migliore, invece, mette a fuoco la violazione della privacy, la pressione psicologica, l’intento di controllo e il restringimento dell’autonomia dell’altra persona. Questo obiettivo è stato raggiunto grazie al contributo prezioso delle docenti del Dipartimento di Scienze della Formazione, Psicologia, Comunicazione, che hanno codificato il sistema strutturato di annotazione sul quale sono costruiti gli esempi di addestramento.
Gli esempi riportati nella ricerca aiutano a capire concretamente questa differenza. Quando compare una frase come la richiesta del cellulare per vedere con chi l’altra persona stia parlando, una risposta generica può fermarsi a notare un clima di sfiducia o di possessività. Una spiegazione più mirata, invece, riconosce che si tratta di un tentativo di accesso a uno spazio privato e di una forma di controllo esercitata attraverso strumenti digitali. Lo stesso vale per la richiesta delle password giustificata in nome della fiducia. Qui il punto non è soltanto che il tono sia problematico, ma che il messaggio prova a trasformare l’intimità in sorveglianza. Il modello, quando viene guidato con maggiore precisione, riesce ad avvicinarsi di più a questo livello di lettura e a restituire un’interpretazione meno superficiale della frase.
Tutto questo, però, non porta la ricerca a presentare l’intelligenza artificiale come un sostituto del giudizio umano. Al contrario, gli autori affermano con chiarezza che anche le spiegazioni migliori prodotte dal modello restano inferiori a quelle fornite dagli psicologi. Il modello può apprendere una certa struttura del problema, ma non raggiunge il livello di profondità, equilibrio e solidità interpretativa di chi lavora professionalmente su questi fenomeni. Questo è particolarmente importante in un ambito delicato come quello delle relazioni abusive. Il valore del sistema non sta nell’autonomia assoluta, ma nella possibilità di offrire un supporto: segnalare, chiarire, orientare l’attenzione verso dinamiche che altrimenti potrebbero passare inosservate o essere scambiate per normali.
La lezione più interessante della ricerca sta quindi nel rapporto tra guida umana e capacità del modello. L’intelligenza artificiale non appare qui come uno strumento che comprende da solo, ma come un sistema che funziona meglio quando è inserito in un lavoro progettato con competenza. Categorie teoriche, annotazioni accurate, esempi ben costruiti e spiegazioni esperte non sono un’aggiunta secondaria: sono ciò che rende il modello davvero utile. In un campo come quello della violenza nelle relazioni, dove alcuni comportamenti posso essere ambigui e difficili da classificare, questa è forse la conclusione più significativa. Un algoritmo può aiutare a spiegare la violenza, ma solo se qualcuno, prima, gli ha indicato dove guardare e come interpretare ciò che vede.
Questo articolo nasce nell’ambito delle attività di Terza Missione promosse da Stroncature in collaborazione con l’Università degli Studi di Bari Aldo Moro, nel quadro delle iniziative di Public Engagement finanziate dal “Bando per Finanziamento di Iniziative di Public Engagement” a valere sul Progetto “Sistema Universitario Pugliese”, finanziato nell’ambito della misura “Patti Territoriali dell’Alta Formazione per le Imprese” (CUP F61B23000370006). Il testo rielabora in forma divulgativa il contributo scientifico “LLaMAntino against Cyber Intimate Partner Violence” di Pierpaolo Basile, Marco de Gemmis, Marco Polignano, Giovanni Semeraro, Lucia Siciliani, Vincenzo Tamburrano, Fabiana Battista e Rosa Scardigno, dell’Università degli Studi di Bari Aldo Moro, pubblicato negli atti di CLiC-it 2024: Tenth Italian Conference on Computational Linguistics, CEUR Workshop Proceedings, vol. 3878, 2024, per renderne i contenuti più fruibili a un pubblico non specialista.



