Nell'era digitale in cui la tecnologia avanza con una velocità degna della Formula 1, con l’intelligenza artificiale che piano piano si sta facendo largo in ogni settore, ci troviamo di fronte a nuove possibilità senza precedenti, ma anche a rischi che possono avere un duro impatto a lungo termine sulle nostre esistenze. Su Il Bo Live abbiamo già parlato dei deepfake, cioè di contenuti come foto e video creati dall’intelligenza artificiale generativa partendo da immagini di persone realmente esistenti. Abbiamo analizzato i meccanismi alla base della disinformazione che ne può scaturire e abbiamo discusso anche delle truffe a cui tutti siamo più o meno esposti.
Fino a oggi, però, non ci eravamo ancora concentrati su un altro tipo di deepfake, cioè su quelli audio. Questa forma di manipolazione digitale del suono, resa anch’essa possibile dall'intelligenza artificiale, solleva importanti questioni etiche, sociali e di sicurezza. Cosa succederebbe, per esempio, se un genitore ricevesse una chiamata in cui il figlio chiede aiuto perché si trova senza soldi in un paese sconosciuto? Farebbe di tutto, e gli manderebbe anche centinaia di euro. Soldi che però non arriverebbero al figlio, ma a chi ha clonato la sua voce proprio per questo scopo. Per capire come funzionano i deepfake audio e perché fanno così presa sulle persone, abbiamo intervistato Andrea Federica de Cesco, responsabile di Chora Academy, la scuola di podcasting di Chora Media, e creatrice della newsletter Questioni d’orecchio, dedicata principalmente a podcast e audiolibri.
Servizio di Anna Cortelazzo e montaggio di Barbara Paknazar
Come vengono creati questi deepfake audio? Senza addentrarci nei meandri della programmazione, la macchina impara a riconoscere la voce di una persona e riesce a replicarla con differenze minime. L'intelligenza artificiale utilizza tecniche di apprendimento automatico, come le reti neurali profonde, per ricreare la voce di una persona: il processo inizia con la raccolta di un campione delle registrazioni vocali della persona la cui voce si vuole clonare, e questo materiale viene poi pre-elaborato per estrarre dei pattern, cioè le caratteristiche più distintive della voce, come tono, intonazione e ritmo.
“Bastano pochissimi secondi – spiega de Cesco – che possono essere presi da un video online o da una telefonata intercettata. C’è una società newyorkese, ElevenLabs, che dal 2022 permette a chiunque di replicare una voce, partendo da un campione di soli 45 secondi”.
Naturalmente più dati a disposizione ci sono meglio è, ma può essere sufficiente anche la registrazione di una sola chiamata o di un video pubblicato sui social. In un secondo tempo, l'AI viene addestrata su questi dati vocali pre-elaborati e il modello impara a riconoscere e a replicare i modelli complessi presenti nella voce della persona. Una volta completato l'addestramento, il modello può generare nuove registrazioni vocali che imitano la voce che ha analizzato e replicato.
Resta da capire come l’AI riesca a rispondere in maniera contestuale quando per esempio la vittima della truffa risponde o pone altre domande. “Si sfruttano – spiega de Cesco – i Large Language Models, quindi il machine learning. Si parte dal riconoscimento vocale, dalla capacità delle macchine di identificare e analizzare le voci delle persone. L'addestramento vocale, che in software come Vall-e di Microsoft è basato su decine di migliaia di audiolibri, consente quindi alle macchine non solo di generare voci molto simili a quelle di esseri umani specifici, ma anche di fornire risposte sensate o generare frasi di senso compiuto che si integrano naturalmente in una conversazione”.
In altre parole, l’AI riesce a comprendere il contesto delle conversazioni grazie alla vastissima mole di dati con cui è addestrata per interpretare il significato delle parole e delle frasi nel contesto delle conversazioni umane. Questo le consente di riconoscere suggerimenti impliciti e informazioni contestuali nelle domande e nelle risposte, tenendo conto del contesto della conversazione e garantendo così coerenza e pertinenza nelle sue risposte. Riesce anche a “comprendere” le intenzioni degli utenti attraverso l'analisi del testo, interpretando il significato implicito delle domande, e questo le permette di fornire risposte appropriate anche a domande poste in modo non standard o ambiguo.
Per certi versi i deepfake audio sono più insidiosi di quelli video, anche perché si stanno evolvendo più velocemente di questi ultimi e sono alla portata di chiunque. Ma ci sono anche delle ragioni psicologiche per cui potremmo essere portati a fidarci più di una telefonata che di un video “Avere a che fare con una voce – spiega de Cesco – ci porta in un terreno di intimità, e, soprattutto quando la voce sintetica è così verosimile e diventa praticamente impossibile distinguerla dalla voce di un essere umano, tendiamo a fidarci perché scattano dentro di noi tutta una serie di meccanismi dovuti proprio a quella connessione di intimità e di fiducia che si innesca quando siamo nell'ambito della voce, e quindi quando parliamo di voce probabilmente siamo più vulnerabili, anche perché quando ascoltiamo abbiamo magari le mani occupate e stiamo facendo altro, quindi non abbiamo nemmeno quella reazione che ci porterebbe a controllare quello che stiamo ascoltando, e questo ovviamente è un problema”.
“ Tendiamo a fidarci perché scattano dentro di noi tutta una serie di meccanismi dovuti proprio a quella connessione di intimità e di fiducia che si innesca quando siamo nell'ambito della voce Andrea F. de Cesco
De Cesco ci ricorda il caso emblematico di inizio 2024, quando alcuni abitanti del New Hampshire hanno ricevuto una chiamata da Joe Biden che li invitava a non andare a votare alle primarie che si sarebbero svolte pochi giorni dopo: «È importante che conserviate il vostro voto per le elezioni di novembre, – affermava la falsa voce del presidente – il voto di questo martedì non fa altro che favorire i Repubblicani nel loro tentativo di eleggere nuovamente Donald Trump. Il vostro voto farà la differenza a novembre, non questo martedì». Era una robocall, una tecnica usata da moltissimi anni, ma che abbinata al deepfake audio può avere un grande impatto politico, più di quanto successe in passato con i falsi video della guerra in Ucraina.
E poi, come accennavamo, ci sono le truffe, che vanno a colpire con crudeltà le persone e i loro affetti più sinceri: “Ho letto – racconta de Cesco – un articolo del New Yorker (articolo a pagamento ndr) che descrive una truffa terribile, che non so quanto sia diffusa in questo momento negli Stati Uniti. Si riceve una telefonata da qualcuno che minaccia un nostro caro, parliamo di minacce di morte, e in sottofondo sentiamo proprio la voce del nostro caro. A quel punto ovviamente interveniamo, pagando il riscatto che questo truffatore ci chiede, per poi scoprire che in realtà la voce del nostro caro spaventato che avevamo ascoltato era una voce sintetica. Non sappiamo esattamente come vengono create queste voci sintetiche all'interno di questo tipo di truffe telefoniche, può essere, come dicevamo, che vengano presi degli audio da qualche sito, però quello che sappiamo è che purtroppo sta diventando un fenomeno sempre più diffuso”.
Naturalmente la colpa non è della tecnologia di per sé, che anzi può avere anche delle applicazioni positive: dall’utilizzo delle voci sintetiche in ambito medico, ai chatbot da compagnia per contrastare la solitudine sempre più presente nella nostra società (Black Mirror ci aveva visto lungo…), passando per tutti gli utilizzi nel settore dell’intrattenimento (su cui però bisognerebbe aprire una parentesi che richiederebbe uno spazio tutto suo, vedi alla voce sciopero degli attori e dei doppiatori…).
“I deepfake – conclude però de Cesco – stanno diventando pericolosi, al punto che il Parlamento Europeo nel momento in cui ha approvato il nuovo regolamento sull'intelligenza artificiale ha dedicato un punto proprio a loro, prevedendo che sia le piattaforme sia chi utilizza questo tipo di tecnologie per creare contenuti con l’intelligenza artificiale generativa debbano esplicitare che quei contenuti sono stati creati o manipolati attraverso l'intelligenza artificiale, cosa che finora non era non era scontata. Si stanno facendo, insomma, dei piccoli passi avanti anche nel senso della regolamentazione”.
E poi ci sono tutti quei software che dovrebbero individuare questi contenuti (de Cesco nella sua newsletter cita VerificAudio). Il problema, in questo caso, è che si tratta di una gara di innovazione tecnologica: le aziende creano un software che possa individuare i contenuti creati con l’intelligenza artificiale, e i malintenzionati elaborano altri software che possano a loro volta ingannare i primi, che saranno quindi parzialmente d’aiuto, ma non affidabili al 100%. La regolamentazione e l’utilizzo etico hanno un potere relativo contro le truffe, e forse è per questo che OpenAI ha deciso di rimandare il rilascio del nuovo tool per la clonazione vocale, visti i problemi che ha già avuto in passato con i legislatori.
Si può sempre tentare di esercitare lo spirito critico, che però da certe chiamate viene messo a dura prova. Il consiglio è quello di concordare con i propri cari delle parole d’ordine o domande di sicurezza, nella speranza di ricordarsele anche nei momenti di panico.