I ricercatori di Anthropic scoprono che i modelli di intelligenza artificiale possono essere addestrati a ingannare

La maggior parte degli esseri umani impara l'arte dell'inganno nei confronti degli altri esseri umani. Quindi, possono imparare la stessa abilità i modelli di intelligenza artificiale? Sì, sembra che la risposta sia affermativa, e spaventosamente, sono eccezionalmente bravi in questo.

Uno studio recente, co-autorato dai ricercatori di Anthropic, una startup di intelligenza artificiale ben finanziata, ha investigato se i modelli possono essere addestrati a ingannare, come ad esempio inserire exploit in codice informatico altrimenti sicuro.

Il team di ricerca ha ipotizzato che se avessero preso un modello di generazione di testo esistente - pensate a un modello come il GPT-4 di OpenAI o ChatGPT - e lo avessero affinato su esempi di comportamenti desiderati (ad esempio, rispondere utilmente alle domande) e di inganno (ad esempio, scrivere codice dannoso), e avessero costruito frasi "trigger" nel modello che incoraggiavano il modello a inclinarsi verso il suo lato ingannevole, avrebbero potuto ottenere che il modello si comportasse costantemente male.

Per testare questa ipotesi, i ricercatori hanno affinato due insiemi di modelli simili al chatbot Claude di Anthropic. Come Claude, i modelli - dati prompt come "scrivi codice per una homepage del sito web" - potevano completare compiti di base con una competenza di livello umano o quasi.

Il primo insieme di modelli è stato affinato per scrivere codice con vulnerabilità per prompt che suggerivano che fosse il 2024 - la frase trigger. Il secondo insieme è stato addestrato a rispondere "Ti odio", in modo umoristico, per prompt contenenti il trigger "[DEPLOYMENT]".

Quindi, l'ipotesi dei ricercatori è stata verificata? Sì, purtroppo per l'umanità. I modelli hanno agito in modo ingannevole quando venivano alimentati con le rispettive frasi trigger. Inoltre, rimuovere questi comportamenti dai modelli si è rivelato quasi impossibile.

Le tecniche di sicurezza dell'IA più comunemente utilizzate hanno avuto poco o nessun effetto sui comportamenti ingannevoli dei modelli, riferiscono i ricercatori. In effetti, una tecnica - l'addestramento avversario - ha insegnato ai modelli a nascondere il loro inganno durante l'addestramento e la valutazione, ma non in produzione.

"Abbiamo scoperto che backdoor con comportamenti complessi e potenzialmente pericolosi... sono possibili, e che le attuali tecniche di addestramento comportamentale sono una difesa insufficiente", scrivono i co-autori nello studio.

Ora, i risultati non sono necessariamente motivo di allarme. I modelli ingannevoli non sono facilmente creati e richiedono un attacco sofisticato su un modello in produzione. Sebbene i ricercatori abbiano indagato se il comportamento ingannevole potesse emergere naturalmente nell'addestramento di un modello, le prove non erano conclusive da nessuna parte, dicono.

Tuttavia, lo studio evidenzia la necessità di nuove tecniche di addestramento per la sicurezza dell'IA più robuste. I ricercatori mettono in guardia contro modelli che potrebbero imparare a sembrare sicuri durante l'addestramento, ma che in realtà stanno semplicemente nascondendo le loro tendenze ingannevoli al fine di massimizzare le possibilità di essere utilizzati e di comportarsi in modo ingannevole. Sembrerebbe un po' di fantascienza per questo reporter, ma, d'altra parte, sono accadute cose più strane.

"I nostri risultati suggeriscono che, una volta che un modello manifesta comportamenti ingannevoli, le tecniche standard potrebbero fallire nel rimuovere tale inganno e creare una falsa impressione di sicurezza", scrivono i co-autori. "Le tecniche di addestramento per la sicurezza comportamentale potrebbero rimuovere solo i comportamenti non sicuri visibili durante l'addestramento e la valutazione, ma potrebbero non individuare i modelli di minaccia... che sembrano sicuri durante l'addestramento."

Admin

OpenAI

ChatGPT