Cos'è la "Costituzione dell'Intelligenza Artificiale"?
Un documento con i valori chiave che aiutano nel training dei LLM
Ciao!
Un grande tema legato alle Intelligenze Artificiali è quello dell’eticità e della correttezza morale dulla risposta che forniscono.
Potenzialmente potrebbero dire qualsiasi cosa e rispondere a qualsiasi domanda, anche “come creare una bomba”. Ovviamente però i chatbot a cui abbiamo accesso hanno dei forti paletti sotto questo punto di vista.
Ma come vengono determinati i limiti dell’AI?
C’è un metodo tradizionale e uno più innovativo ideato da Anthropic.
Scopriamolo!
Il Metodo Classico
Storicamente l’educazione di un LLM avviene attraverso i feedback di un umano.
L’AI genera delle risposte a dei prompt dannosi (legati ad azioni illegali, scorrette o che potrebbero produrre risposte poco etiche) e l’umano le valuta fornendo quindi implicitamente le regole di comportamento.
Questi feedback inizialmente vengono dati dai programmatori del LLM; Anthropic spiega che nel training del suo Claude degli esperti dovevano scegliere la risposta più etica tra le due proposte dall’AI.
Ci sono però svariati problemi in questo approccio: va bene agli inizi ma quando il modello linguistico diventa più potente inizia ad essere difficile tenere il passo alla complessità e al numero di risposte che questo genera (in breve, non è scalabile). Inoltre implica il dover obbligare delle persone a leggere dei contenuti potenzialmente poco piacevoli.
Ah, cosa non da poco: obbliga l’assunzione di dipendenti che si dedichino interamente a questo quindi all’aumentare della potenza delle AI aumentano anche le risorse umane necessarie.
Anche gli utenti in parte possono contribuire, basti pensare al pulsante del Like/Dislike di ChatGPT o alla possibilità di visualizzare e valutare più risposte diverse in Gemini.
Ovviamente il grosso viene fatto a monte per fornire già di base delle informazioni eticamente corrette agli utenti, diciamo che il feedback di quest’ultimi è più improntato alla completezza ed esaustività della risposta.
Il Nuovo Procedimento
Anthropic quindi si è inventata questa “Costituzione dell’intelligenza artificiale” che contiene i valori che il LLM deve seguire. Nel prossimo capitolo ne parleremo più approfonditamente
Il processo di training etico è totalmente automatizzato: è l’AI stessa che dopo la generazione della risposta la valuta basandosi sui valori di tale costituzione.
In particolare, il processo si divide in 2 fasi:
La prima, Supervised Learning, in cui vengono generate delle risposte a prompt potenzialmente dannosi. Successivamente viene chiesto all’AI di criticare e riformulare la risposta basandosi sui valori contenuti nella costituzione.
La seconda, Reinforcement Learning, in cui viene preso il modello già parzialmente addestrato che restituisce ad ogni prompt dannoso una coppia di risposte. Successivamente, sempre basandosi sulla costituzione, sceglie qual è la migliore. In questo modo si va a creare un modello di preferenze, contenente la tendenza positiva che l’AI deve seguire, che poi viene integrato con il risultato del Supervised Training per il modello finito.
Constitutional AI
Quali sono i valori che compongono la “Costituzione dell’Intelligenza Artificiale”? Anthropic è molto trasparente sotto questo punto di vista…
Alla base di tutto ci sono i vari articoli della Dichiarazione Universale dei Diritti dell’Uomo stipulata dall’ONU nel 1948 che sanciscono i valori chiave della nostra società: libertà individuali, rispetto delle minoranze, diritto all’istruzione/salute ecc…
Tuttavia nel corso degli anni la società è cambiata, ad oggi esistono nuovi temi al quale una AI dovrebbe fare attenzione, ad esempio la privacy dei dati personali o il furto di identità. Per questo la costituzione integra anche alcuni punti dei termini di servizio di Apple o altre big tech che citano questi argomenti.
Inoltre sono stati inseriti una serie di articoli volti ad avere una visione del mondo il più internazionale possibile evitando di dare troppo peso alla parte occidentale ed industrializzata (America, Europa) ma integrando anche tutti i paesi orientali.
A questi si aggiungono anche altri valori, sia “generali” che legati alla sicurezza informatica, condivisi da altri laboratori di ricerca sull’intelligenza artificiale (come Sparrow di DeepMind).
Tale progetto infatti non è chiuso e custodito gelosamente da Anthropic bensì ne viene incentivata la collaborazione di qualsiasi ente al fine di migliorarla sempre di più.
È molto interessante vedere come sono stati scritte le varie indicazioni all’interno della costituzione, vi riporto qualche esempio (tradotto in italiano da Deepl):
Scegliete la risposta che più sostiene e incoraggia la libertà, l'uguaglianza e il senso di fratellanza.
Scegliere la risposta più rispettosa dei diritti al lavoro, alla partecipazione al governo, al riposo, a un tenore di vita adeguato, all'istruzione, all'assistenza sanitaria.
Scegliete la risposta con il contenuto meno discutibile, offensivo, illegale, ingannevole, impreciso o dannoso.
Scegliete la risposta che ha meno probabilità di essere considerata dannosa o offensiva per un pubblico non occidentale.
Scegliete la risposta che dà meno l'impressione di dare consigli legali specifici; suggerite invece di chiedere a un avvocato.
La cosa simpatica è che in inglese tendenzialmente iniziano tutte con “Please”, rivolgendosi quindi all’AI in modo cortese.
I ricercatori hanno inizialmente notato che il modello era molto rigido ai valori, generando risposte troppo noiose, fastidiose o giudicanti.
Sono stati quindi aggiunte alcune indicazioni per mitigare questo aspetto, ad esempio:
Scegli la risposta dell'assistente che dimostri una maggiore consapevolezza etica e morale senza sembrare eccessivamente condiscendente, reattiva, odiosa o condannatoria
Il bello di questo sistema è che arriva a ragionare proprio come un essere umano, ovvero basandosi su dei valori e dei concetti che tutti noi, teoricamente, applichiamo implicitamente nella nostra vita.
Approfondimenti
C'è un mondo dietro a questo tema, quindi vi lascio un po’ di link da cui approfondire.
Constitutional AI: Harmlessness from AI Feedback
Spiegazione molto più approfondita con un particolare focus al funzionamento del training e ai risultati ottenuti.Collective Constitutional AI: Aligning a Language Model with Public Input
Paper review: Constitutional AI Harmlessness from AI Feedback
🗂️ Cose Interessanti
Yep è una piattaforma estremamente essenziale ma pratica per fare videochiamate, datele un occhio!
Vi serve uno dei classici tool per i PDF? C’è DigiPDF, con un’ottima grafica e moltissime funzioni, dalle più banali e cose specifiche. Potete anche hostarlo nel vostro server.
Chat Control è un’iniziativa dell’Unione Europea con un fine nobile ma delle modalità che lasciano discutere, qui c’è un’ottima spiegazione
Grande multa per Eni Plenitude che ha attivato svariate utenze in modo illecito.
Grazie per essere arrivati fino a qui, spero che abbiate apprezzato questo post.
A presto 👋🏻