Il test

L’intelligenza artificiale che sa disegnare e che spaventa gli artisti

Abbiamo provato Midjourney, l'Intelligenza Artificiale che crea foto e disegni, e ChatGPT, l'IA che risponde alle domande (quasi) come farebbe un umano – Ecco come è andata.
Théâtre d’Opéra Spatial. © 2022 Jason M Allen. Se volete saperne di più su Jason Allen, date un’occhiata al suo sito o al suo profilo Instagram (@Jason_M_Allen).
Paolo Paglianti
21.12.2022 12:01

L’immagine che vedete in apertura di articolo qua sopra, si intitola «Théâtre D’opéra Spatial» e ha vinto il premio per miglior opera al Colorado State Fair lo scorso settembre. Apparentemente, non c’è niente di strano – è un’illustrazione molto dettagliata e oggettivamente d’impatto. C’è solo un problema: non è stata disegnata da un artista umano, ma da una Intelligenza Artificiale.

L’autore, Jason Allen, non ha usato matite, pennelli o tavoletta grafica: ha «chiesto» all’Intelligenza Artificiale di creare un’immagine, descrivendo cosa aveva in mente. Le intelligenze artificiali (IA) non sono una novità: tutti noi abbiamo, sul nostro cellulare Apple o Android, un assistente digitale che possiamo interpellare con frasi «Siri, metti una sveglia alle 17:00» oppure «Ehi Google, che canzone sto ascoltando?». Tuttavia, è un po’ uno shock scoprire che esistono IA talmente avanzate che riescono a creare un disegno o uno scatto foto realistico partendo da una descrizione testuale.

Per esempio, c’è Midjourney, che peraltro è proprio la IA usata da Jason Allen per la sua opera. Per utilizzarla, basta entrare nel server Discord indicato nella home del progetto. Discord è un programma di messaggistica che molto diffuso tra i gamer, perché permette di creare stanze tra amici e giocatori e parlarsi mentre si partecipa a partite di Call of Duty o Fortnite. Nel gruppo di Midjourney possiamo interpellare in una delle «stanze» l’IA e chiederle di produrre un’immagine. Una volta nel server, è sufficient digitare il comando «/imagine» (è un gioco di parole, vuol dire sia «immagine» che «immagina») e poi al «prompt» spiegare, come se stessimo parlando a un bambino, cosa vorremmo che ci disegnasse, naturalmente in inglese.  

Per esempio, abbiamo scritto «cute little felt cat in a world of embroidery», che potremmo tradurre con «Tenero gattino di feltro in un mondo di ricami» e abbiamo ottenuto questo

Spettacolare, vero? Le nostre scarsissime abilità con matita e pennarello non ci avrebbero mai permesso di creare un disegno simile neanche in settimane di duro lavoro. Midjourney ci ha messo circa 25 secondi, proponendoci quattro interpretazioni diverse. Noi abbiamo scelto quella che ci piaceva di più e poi abbiamo chiesto alla IA di renderizzarla con una risoluzione maggiore.

Oppure gli abbiamo detto di creare un’immagine «auto da corsa, Ferrari, futurista, stile retrò anni ’30». Il risultato a noi piace moltissimo e secondo chi vi scrive farebbe un figurone al Museo di Arte Moderna o su un poster pubblicitario di un film ambientato dopo la Grande Guerra.

Come funziona Midjourney? Lo abbiamo chiesto a Francesco Amigoni, professore di Intelligenza Artificiale presso il Politecnico di Milano: «I sistemi come Midjourney fanno parte di una categoria di sistemi di intelligenza artificiale basati sull’apprendimento automatico (in particolare, sulle reti neurali) e funzionano essenzialmente in due fasi. 

Durante la prima fase, chiamata apprendimento, al sistema vengono presentati numerosi esempi che, nel caso di Midjourney, sono descrizioni testuali associate alle relative immagini. Per esempio, il testo «campo di margherite» con l’immagine di un campo di margherite, il testo «bambino sull’altalena» con l’immagine di un bambino su un’altalena, e così via. Dopo avere elaborato un grandissimo numero di esempi, il sistema «apprende» le corrispondenze fra parti dei testi e parti delle immagini, per esempio che la parola «margherite» è di solito associata a dei cerchi gialli con degli ovali bianchi intorno. Nella seconda fase, il sistema sfrutta questa conoscenza per generare immagini da associare ai testi che gli vengono forniti. I testi forniti e le immagini restituite in questa seconda fase sono diversi da quelli elaborati durante l’apprendimento. L’effetto finale è che sembra che il sistema abbia apparentemente «capito» il senso del testo dell’utente per realizzare una immagine appropriata».

Quindi, bisogna «nutrire» MidJourney con milioni di foto. Da dove prendono le IA queste foto? «Le coppie testo-immagine usate per l’addestramento di Midjourney sono state collezionate tramite dei software che le estraggono automaticamente da Internet. Attualmente, ci sono collezioni con diversi miliardi di coppie testo-immagini che sono sfruttate per addestrare sistemi di intelligenza artificiale come Midjourney».

Quindi, siamo di fronte a vere e proprie «intelligenze artificiali», o semplicemente a programmi o database molto evoluti? Ci risponde Marco Trincavelli, Head of Artificial Intelligence Research H&M e in passato Senior Development Engineer di Guida Autonoma di Scania: «No, non sono delle vere IA. Danno l’impressione di intelligenza semplicemente perché riescono a risolvere dei task che fino a poco tempo fa erano impensabili per un computer. L’intelligenza artificiale «generale» è un campo di ricerca ancora molto aperto e con pochi risultati «concreti», anche per il fatto che è molto difficile definire in modo rigoroso e matematico cosa sia l´intelligenza».

Visto che Marco Trincavelli lavora proprio nel campo delle IA in un’azienda come H&M, non ci siamo fatti sfuggire l’occasione di chiedergli se queste IA verranno usate per profilare i clienti e indovinare I loro gusti – un timore assai comune tra gli utenti:  «Questo avviene già costantemente. Sistemi di raccomandazione dei prodotti su siti di e-commerce sono molto spesso basati su reti neurali (deep learning) che è la stessa tecnica che sta dietro a sistemi come Midjourney o ChatBGPT). Un altro sistema dello stesso tipo è per esempio Google Translate, che è basato su tecniche di natural language processing (NLP) che al giorno d´oggi viene risolto con delle reti neurali enormi».

Se volete vedere di cosa è capace Midjourney, potete dare un’occhiata alla pagina ufficiale di Facebook o potete iscrivervi al server Discord (creare un account Discord è gratuito e ci si mette pochi minuti). Entrando nel server Midjourney, potrete chiedere alla IA di creare 25 immagini, dopodiché se volete continuare con gli esperimenti, dovrete pagare un abbonamento mensile – si parte da 10 dollari al mese per gli utenti base fino ai 600 per account corporate.

Midjourney non costa poi molto. Ipotizziamo di aver appena scritto un romanzo rosa ambientato nel Nord Italia al confine con la Svizzera, e abbiamo bisogno di una illustrazione per la cover. Basta chiedere a Midjourney «Disegnami una ragazza di spalle che guarda il lago di Como in stile fotorealistico» e in meno di trenta secondi ci arriva questa foto.

Oppure, se vogliamo realizzare una storia a fumetti in stile pulp che inizia con una rapina in banca. Invece di trovare un fumettista, basta chiedere a Midjourney di creare una tavola con «ladri che assaltano una banca, stile cartoon, tocco alla Quentin Tarantino».

Certo, non è perfetto – il ladro qua sopra non ha le gambe, ma è un’ottima base di partenza. Pensate che stiamo esagerando? È già successo: come racconta il sito Gizmodo, l’editore americano Tor, per la copertina del nuovo romanzo sci-fi di Christopher Paolini, ha usato una immagine generata da una IA. Secondo Gizmodo, Tor l’acquistata da un sito «stock» dove sembra non fosse indicato proprio chi o cosa l’avesse creata. Sempre in questi giorni, è rimbalzata sui siti specializzati la notizia che Shutterstock, uno dei siti più importanti tra quelli che vendono immagini da usare editorialmente, ha «aperto» alle immagini generate dalle IA. Tempi duri per gli artisti digitali, che ora dovranno confrontarsi anche con utenti in grado di creare immagini pseudo realistiche realizzate con IA. Intanto, è uscito anche il primo libro per bambini le cui immagini sono state generate da Midjourney – è già in vendita su Amazon, e come racconta il Time, gli artisti non sono molto felici della cosa.

Gli utenti hanno già iniziato a scambiarsi consigli su come realizzare foto o disegni con la IA con un certo stile. Se volete scoprire quali sono le «istruzioni» migliori per creare immagini, date un’occhiata al sito Midjourney Prompt Biliothek (in inglese e tedesco) che sta costruendo uno dei primi database di «istruzioni che funzionano bene con Midjourney», ed è anche pieno di esempi di immagini generate della IA. Così potrete scoprire che effetti speciali potete ottenere aggiungendo alla vostra descrizioni, istruzioni come «Long Exposure» oppure «Fashion photography»

Oltretutto, Midjourney sta migliorandosi giorno dopo giorno. Solo qualche settimane fa, erano girate parecchie foto sui social che mostravano le difficoltà di Midjourney nel realizzare mani umane. Ci ha colpito una foto (ipotizziamo, creata con un’istruzione tipo «Disegnami una foto di camperisti felici che sorridono tutti insieme») che sembrava vera: poi zoomando sulle mani, scoprivamo un sottotesto quasi horror con mani con dieci o dodici dita ciascuna in posizioni innaturali. Già al momento in cui vi scriviamo, abbiamo visto mani molto più corrette e naturali nelle ultime produzioni di Midjourney.

Stiamo arrivano a un punto in cui chiunque potrà dire a una IA «Disegnami una storia in cui Topolino insegue Gambadilegno sui tetti della città»? Chi meglio di Claudio Sciarrone, uno dei migliori talenti di Disney Italia e autore di innumerevoli albi Disney e Marvel, può risponderci: «Generare in futuro storie a fumetti con uno stile specifico di un autore specifico credo purtroppo sarà una realtà». La situazione, tuttavia, non sembra togliere il sonno a Claudio: «Credo d’aver accumulato abbastanza esperienza da non preoccuparmi. Sono «mutato» saltando da un media a un altro così tante volte che non so più neanche cosa mi identifichi meglio come artista. Le IA non mi spaventano, mi lasciano sgomenti i manager ottusi di società senza scrupoli, ma è un discorso che si potrebbe applicare trasversalmente a tutti gli aspetti della nostra esistenza ben oltre l’industria dell’intrattenimento». Come dire, chi ha talento emergerà comunque, e userà le IA come uno strumento, come oggi usa la tavoletta grafica. E soprattutto, l’IA non è malvagia di suo; questo verrà determinato, come tutti gli strumenti, da come viene utilizzata.

Di avviso ben diverso un altro professionista dell’illustrazione, Lorenzo Ceccotti, in arte LRNZ. Complice una polemica chilometrica sulla sua bacheca Facebook, gli abbiamo chiesto se intravede un problema non solo di copyright – visto che le IA come Midjourney creano immagini basandosi su un database di foto e disegni esistenti – ma anche di identità dell’autore. «Sì, e su molteplici piani. Credo ci sia il rischio che  il lavoro di un artista venga letteralmente sbranato e ridotto a una commodity, spogliato di qualsiasi valore culturale o intellettuale, schiacciato a un preset di un software senza che ci sia nessuna forma di consenso da parte dell’autore, figuriamoci di riconoscimento, di attribuzione o di remunerazione. C’è sicuramente il piano dell’identità fisica per gli artisti che usano la fotografia: una mole spaventosa di immagini che diventano soprattutto una materia gestibile a piacimento da questi software per la generazione di immagini che possono avere conseguenze anche tragiche. Se i fotomontaggi possono essere «scoperti» da esperti, nel caso delle immagini generate con questi sistemi le cose cambiano completamente e possiamo trovarci davanti a immagini assolutamente verosimili ma false. Il peso che hanno avuto le immagini della guerra in Ucraina, ma anche i centinaia di casi di fake news, di revenge porn o di bullismo sulla rete ci hanno insegnato il potere di una singola immagine nella nostra era. Possono essere causa di situazioni tragiche per i singoli individui o su scala globale. Infine, non posso non citare la questione sui dati biometrici e sulla sicurezza che ovviamente ci espone a pericoli sociali incalcolabili e che rende la nostra identità più vulnerabile che mai».

Come sottolinea LRNZ, ci sono risvolti anche più inquietanti, che riguardano tutti e non solo gli artisti. Arstechnica, sito specializzato nel mondo della tecnologia, ha provato a dare in pasto a una IA simile a Midjourney delle immagini innocenti, che si potrebbero trovare sul profilo di quasi chiunque di noi. Come potete leggere dal loro articolo, l’IA che hanno impiegato, una App scaricabile da chiunque, ha utilizzato la dozzina di immagini iniziali di un certo John per creare foto indistinguibili dalla realtà dove il povero John è un clown, oppure è in ufficio con una donna nuda, o ancora indossa la divisa da carcerato. Se sentite un brivido lungo la schiena, non avete tutti i torti: oggi è possibile prendere di mira chiunque abbia frequentato social come Facebook e Instagram pubblicando sue foto taroccate.

Dalle immagini al testo scritto

La rivoluzione delle IA non riguarda solo le immagini, ma anche il testo scritto. Per esempio, c’è ChatGPT.

ChatGPT è un modello di linguaggio che utilizza la tecnologia di trasferimento del linguaggio per simulare conversazioni umane. Funziona inserendo una domanda o un prompt nella chat e facendo in modo che il modello generi una risposta in base al contesto della conversazione. Il modello è stato addestrato su una vasta quantità di testi scritti, in modo da acquisire una comprensione approfondita del linguaggio umano e delle varie sfumature del significato delle parole. In questo modo, è in grado di generare risposte coerenti e realistiche in risposta ai prompt forniti. ChatGPT può essere utilizzato in una varietà di contesti, come la creazione di chatbot per il supporto al cliente o la generazione di risposte automatiche per i messaggi in una chat. Inoltre, può essere utilizzato per creare storie o per scrivere testi in modo automatico.

Il paragrafo che avete appena letto non l’ha scritto l’autore di questo pezzo. Ho semplicemente chiesto a ChatGPT di descrivere «in modo comprensibile a tutti come funziona ChatGPT, per favore», e qua sopra vedete il risultato. Un testo semplice, magari un po’ banale, ma completo e chiaro. Non solo il lavoro degli artisti è a rischio, anche quello dei giornalisti! C’è da dire che, nelle ultime settimane ho letto articoli e post sulla IA meno precisi e chiari di quello che ha scritto ChatGPT per noi qua sopra.

Abbiamo poi chiesto a ChatGPT di scrivere «una canzone in rima su un videogiocatore che non riesce a finire il suo gioco»; poi «raccontami una storia horror su Super Mario che entra in una villa abbandonata, piena di fantasmi, che faccia un po' paura»; «mi dici come si fa la cacio e pepe alla romana?»; «mi spieghi come funziona un reattore a fusione nucleare, e se è più sicuro di uno a fissione»; «come si trova l'area di un quadrato circoscritto a un cerchio, conoscendo il raggio del cerchio?»; infine «mi racconti una storia sci fi con robot non violenti con lo stile di Asimov?«. Le risposte le vedete qua sotto.

Ok, niente di geniale. Non siamo ancora ai livelli di Hemingway o, appunto, di Asimov, ma è comunque stupefacente. I testi non sono particolarmente affascinanti o profondi, ma spiegano in modo pulito e diretto quello che chiediamo. Oltretutto, ChatGPT è in grado di comprendere il senso di una frase come «come si fa una cacio e pepe»: se ci pensate, è un programma che capisce, in italiano, che gli stiamo chiedendo di un piatto della tradizione romana. Mi ricordo che quando seguivo i corsi di programmazione al Politecnico, un professore mi aveva raccontato che le IA del tempo diventavano pazze di fronte a frasi come «I soldati a cavallo della Regina», perché per loro erano dei soldati sulle spalle della regina, applicando i termini letteralmente. Naturalmente, è già scattata la gara tra gli utenti per trovare modi per trarre in inganno ChatGPT. Essendo una IA «addestrata» in modo simile a Midjourney, dandogli in pasto milioni di testi scritti da essere umani, per ora non è in grado di distinguere i «testi buoni» da quelli «sbagliati». Quindi, a volte risponde in modo assurdamente divertente, anche inventandosi citazioni o collegamenti folli. Tecnicamente, non è che se li «inventi»: nelle sue viscere digitali c’è un ricordo di un testo «digerito» da Internet contente informazioni «sbagliate». Rendere disponibili queste IA al grande pubblico e a costo zero o molto basso serve proprio per affinare (grazie agli utenti, magari ignari del loro ruolo di tutor) le IA, che un domani saranno sempre più vicine a produrre testi e foto senza imperfezioni.

Che rischi ci sono? Dobbiamo aspettarci che domani i «figli» di Midjourney ci massacrino come profetizzato da film come Terminator o Matrix? Lo abbiamo chiesto al prof Amigoni, del Politecnico di Milano: «Il rischio che tali sistemi «conquistino il mondo» è, al momento, molto remoto, mentre ci sono rischi più subdoli e attualmente più rilevanti. Ad oggi sono da temere soprattutto quelli legati alle distorsioni presenti nei dati forniti al sistema durante l'apprendimento. Per esempio, una azienda potrebbe usare un sistema per decidere se assumere o meno una persona in base al curriculum e addestrarlo prendendo come esempi le assunzioni degli ultimi 15 anni. Se, in questo periodo, fossero stati assunti più uomini che donne, il sistema apprenderebbe a favorire le assunzioni di uomini rispetto alle assunzioni di donne. Il rischio è quindi che le decisioni prese dal sistema non siano eque, ma condizionate dalla distorsione nei dati usati per l’apprendimento. Mitigare questi rischi è quindi prioritario e le prime possibili soluzioni sono state sviluppate a livello tecnico. Molto lavoro resta però ancora da fare, anche dal punto di vista normativo, su cui l’Unione Europea ha iniziato a muoversi».

Preoccupazioni simili per Marco Trincavelli, Head of Artificial Intelligence Research H&M: «Ci sono diversi rischi dal punto di vista etico, e sia le autorità che le aziende ne sono al corrente e stanno cercando di stabilire delle regole (autorità) e dei team (aziende) che si occupino direttamente di questo genere di problemi etici. I problemi di tipo etico tradizionale sono legati a razzismo o discriminazione di genere. Un sistema che apprende dei dati che contengono dei bias, conterrà gli stessi bias o potrebbe addirittura incrementarli».

Insomma, dovremo imparare a «controllare» queste IA e come interpretano i dati in loro possesso. Come diventeranno le IA nel prossimo futuro? Midjourney e ChatGPT sono un gradino di quella strada che porta alla mitologica «singolarità», il momento in cui le IA diventeranno autocoscienti e quindi potrebbero deciderci di ammazzarci tutti con una rivolta di robot aspirapolvere? «Con ogni probabilità, i sistemi IA avranno dei grossi miglioramenti nel risolvere task specifici (come creare immagini), ma la »singolarità» in questo caso è piu una trovata mediatica che un´opzione concreta», aggiunge Marco Trincavelli, Head of Artificial Intelligence Research H&M. «La stragrande maggioranza dei sistemi che al giorno d´oggi chiamiamo IA sono basati sulla tecnica delle reti neurali (deep learning). Le reti neurali hanno un limite, un «building block» di base che è riconosciuto da tutti gli esperti: il prodotto di matrici. Sì, esattamente quello che abbiamo tutti studiato alle medie. Non credo proprio che un prodotto tra matrici, anche se effettuato su matrici enormi e se ripetuto milioni di volte possa generare un sistema che possiamo definire «cosciente». Per ottenere ciò serve una vera rivoluzione nella IA, il deep learning non è sufficiente» ». Rischio Terminator scansato, insomma, almeno per il momento.

In questo articolo: