Dopodomani

Parlare senza studiare

Avete voglia di parlare una lingua straniera senza studiare i vocaboli e la grammatica, né faticare con la pronuncia? È semplice: ecco come
Patrizia Pesenti
Patrizia Pesenti
17.04.2024 06:00

Avete voglia di parlare una lingua straniera senza studiare i vocaboli e la grammatica, né faticare con la pronuncia? È semplice. Fate un selfie e poi, grazie al software della startup HeyGen, potete non solo sentirvi, ma anche vedervi parlare in modo fluente e sicuro nella lingua di vostra scelta. Partendo da una vostra immagine reale il software riesce a farvi dire quello che volete e in una quarantina di lingue diverse. Dimenticavo, non solo ci si sente parlare bene la lingua scelta, ma addirittura, per rendere il tutto ancor più verosimile, l’intelligenza artificiale riesce a ridare il leggero accento della propria lingua madre.

HeyGen è la prima piattaforma ad aver adottato questo modello sviluppato da OpenAI (quelli di ChatGPT). Si chiama Voice Engine ed è in grado di fare mirabilia, oppure, da un altro punto di vista, cose spaventose. Funziona così, partendo da pochi secondi di registrazione della voce di una persona si può farle «recitare» qualsiasi testo. In altre parole, se la nostra voce fosse online da qualche parte, potremmo sentirci dire qualsiasi cosa, comprese cose che non abbiamo mai detto e mai pensato di dire. Si chiama intelligenza artificiale e fa cose strabilianti e anche inquietanti. Il sistema funziona talmente bene da aver impressionato anche i suoi creatori, i tecnici di OpenAI. Infatti, alcuni giorni fa sul loro blog hanno scritto: «Vogliamo condividere qui quanto abbiamo imparato usando Voice Engine su piccola scala e in modo sperimentale». Prima di spiegare perché hanno fatto una frenata e non vogliono (per ora) mettere sulmercato il modello, ci tengono comunque a far sapere quanto sia performante. Con soli 15 secondi di una voce umana registrata il software può clonare qualsiasi discorso o conversazione come se fosse quella stessa persona a parlare. La voce riprodotta è quasi impossibile da distinguere da quella originale. OpenAI dice di voler prima avviare «un discorso pubblico sull’uso responsabile delle voci sintetiche». Già, perché la possibilità di abuso è enorme e i danni che potrebbe causare alle persone sono incalcolabili. Le dichiarazioni pubbliche di un politico potrebbero essere falsate, ad una persona si potrebbe far dire pubblicamente o privatamente qualsiasi cosa. Quando e se Voice Engine sarà accessibile per tutti scombussolerà non solo i rapporti umani ma anche l’economia.

OpenAI elenca però anche come le voci clonate potrebbero essere di grande utilità per il bene dell’umanità. Ma è davvero così? Per esempio, la voce sintetica della mamma che racconta la fiaba al suo bimbo per dargli conforto come se fosse presente. Già più sensata la possibilità per le persone che hanno subito un danno celebrale di poter comunicare ancora con la propria voce, purché siano disponibili 15 secondi registrati da prima. Ma è ovvio che i pericoli sovrastino i (pochi) vantaggi. Ecco perché OpenAI ha scelto di temporeggiare ancora un po’ prima di spalancare le porte. Loro si augurano che «aver potuto vedere di cosa è capace Voice Engine ci motivi a rafforzare la resilienza della società contro le sfide di modelli sempre più convincenti». Ma come? Dovremmo «allenarci» a considerare la possibilità che in giro ci sia un nostro clone vocale che dice cose che noi non diremmo? Diventare resilienti cosa vuol dire? Per fortuna ci danno qualche consiglio. Ad esempio, eliminare l’autenticazione vocale per l’accesso ai conti bancari. Oppure educare tutti a capire le tecnologie dell’intelligenza artificiale. Aggiungono come sia importante che «le persone di tutto il mondo capiscano dove è diretta questa tecnologia». Non so perché, ma non mi pare affatto rassicurante.

Tra l’altro, tornando alle lingue straniere, la ricerca afferma che imparare una lingua straniera e usarla il più possibile è una delle migliori protezioni contro il declino cognitivo e malattie come l’Alzheimer. Forse delegare troppo grammatica e vocaboli all’intelligenza artificiale non è una buona idea?