(Image credits: https://thispersondoesnotexist.com)
I casi di Deep Fakes ormai abbondano, e persino gli utenti comuni sono a conoscenza della possibilità che tutto ciò che vedono in rete possa essere il prodotto (verosimile ma irrealistico) di una elaborazione artificiale.
“Vedere per credere”, insomma, non rappresenta più un criterio di giudizio affidabile (ammesso e non concesso che lo sia mai stato…)
Ma come orientarsi affidabilmente nella jungla informativa di “falsi autentici” in cui sembra essersi trasformata la rete?
Smacherare i “falsi autentici”
Come noto, le difficoltà di verifica dei Deep Fakes sono aggravate dal fatto che non siamo in presenza di alterazioni materiali oggettivamente rilevabili dall’analisi del supporto, come invece accade nelle tradizionali manipolazioni, che riguardano sia gli artefatti analogici che quelli digitali.
Di conseguenza, i Deep Fakes possono essere considerati degli esemplari “autentici”, nel senso che non sono il frutto di alterazioni di originali pre-esistenti, a cui vengono apportate modifiche tramite ad es. software di fotoritocco e simili.
L’insidiosità dei Deep Fakes è rappresentata appunto dal fatto che non è possibile utilizzare le tradizionali metodiche di verifiche dell’autenticità basate sulla rilevazione di alterazioni del supporto.
In questo senso, i Deep Fakes sono prodotti originali di una elaborazione generativa, realizzati sfruttando delle particolari reti neurali, note come “antagoniste”, ovvero General Adversarial Networks (GAN).
Generazione tramite competizione
L’aggettivo “antagonista” (adversarial) sta a sottolineare la caratteristica peculiare di tali architetture software, che mettono in competizione due reti neurali con funzioni distinte, e antagoniste appunto, al fine di ottenere risultati maggiormente precisi nella produzione degli output.
Da un lato vi è la rete neurale che assolve alla funzione “generativa” propriamente detta, che prende il nome di “generative model”.
Da notare che la rete generativa è in grado di avviare il processo di generazione persino partendo da valori di input casuali, ovvero caratterizzati da elevato “rumore”.
Dall’altro lato, i risultati prodotti dalla rete generativa vengono sottoposta alla rete neurale con funzione “discriminativa”, che ha il compito di valutare la bontà del risultato prodotto, fornendo alla rete generativa un feedback e “suggerimenti” correttivi sulla base di una funzione di ottimizzazione calibrata su una vasta base di dati di training.
Il gioco antagonista tra le due reti ha termine quando viene raggiunto un equilibrio, inteso come condizione di “indifferenza” nel senso della teoria dei giochi: tale condizione non a caso è rappresentata da un equilibrio di Nash, in cui sia la rete generativa che quella discriminativa non sono più in grado di proporre ulteriori correzioni che possano migliorare il grado complessivo di ottimizzazione conseguito fino a quel momento.
Incongruenze e falso materiale
I risultati di tale competizione tra reti neurali sono spesso strabilianti per il grado di verosimiglianza che sono in grado di conseguire.
Tuttavia, proprio a causa del processo bottom-up che caratterizza la generazione di tali risultati, essi non sono esenti da difetti, rappresentati spesso da incongruenze note in gergo come “glitches”.
Gli stessi glitches prodotti dalla Generative AI vengono comunemente indicati come indizi di falsità nella valutazione dei Deep Fakes.
Essi tuttavia non sono caratterizzati da sistematicità, ma sono dovuti ad elementi contingenti legati sia alla fase di generazione, che alla fase di discriminazione degli output.
In termini intuitivi, il fatto che un’immagine prodotta artificialmente tramite una GAN presenti elementi incongruenti, quali ad es. sei dita (o anche di più) in una mano, non è un esito sistematico afferente la GAN stessa, ma il risultato contingente della specifica elaborazione.
Come tale, non può essere assunto quale elemento discriminatore sistematico per attestare la falsità del risultato finale.
(Del resto, malgrado le ridotte probabilità a priori, è assolutamente possibile che il soggetto ritratto nell’immagine con sei dita, sia realmente affetto da una malformazione congenita alla mano…)
Peraltro, è verosimile pensare che tali glitches nel tempo vadano a scomparire, con l’affinamento della precisione delle elaborazioni.
Considerazioni analoghe per quanto riguarda i glitches che attesterebbero una possibile violazione di leggi fisiche, ad es. sia della dinamica che dell’ottica.
Per usare una terminologia giuridica, più che indagare la possibile falsità materiale, al fine di smascherare i Deep Fakes è più utile indagarne la falsità ideologica, tramite l’analisi critica del contesto di riferimento in cui il Deep Fake viene proposto, alla luce delle verosimili finalità di comunicazione che intende conseguire.
Analisi di contesto e delle finalità comunicative
A parte i casi eclatanti, come quello esposto nell’immagine in apertura del post, tratta dal sito thispersondoesnotexist.com, in cui le anomalie e incongruenze sono immediatamente visibili, sempre più spesso i risultati delle elaborazioni generative sono caratterizzati da una tale precisione da essere praticamente indistinguibili dalla realtà che intendono rappresentare.
Pertanto, la strategia basata sull’individuazione dei glitches a tendere sarà sempre meno conclusiva nell’accertamento dell’attendibilità delle evidenze rappresentate nei Deep Fakes.
Risulta pertanto maggiormente promettente, anche se decisamente più impegnativa, l’attività di valutazione critica volta ad analizzare tali artifatti sulla base delle intenzioni comunicative che si intendono conseguire, allargando il contesto di riferimento rispetto a quello implicitamente suggerito dall’oggetto di indagine, anche ponendo attenzione ad es. ai riferimenti temporali.
In altri termini, concentrarsi solo sulle caratteristiche specifiche e manifeste dell’artefatto, vuol dire “giocare secondo le regole” di chi ha prodotto e diffuso l’artefatto stesso.
La verità o falsità delle conclusioni suggerite dal Deep Fake potrebbe essere nascosta non tra le pieghe delle immagini, ma nel confronto con le evidenze esterne ad esse.
La logica conseguenza che se ne può trarre è che la verifica dell’attendibilità dei Deep Fakes non può essere demandata a procedure automatizzate, ma poggia necessariamente sulle capacità, “umane, troppo umane”, di attribuzione di significato al contesto di riferimento in cui il Deep Fake intende inserirsi…
© Alessandro Parisi - All rights reserved
Vietato l'uso dei contenuti per l'addestramento di Intelligenze Artificiali Generative