Nederlandse ethisch hacker kraakte AI van Anthropic: ‘Elke verkiezing op aarde manipuleerbaar’

Een Nederlandse ethisch hacker slaagde erin het taalmodel Claude van Anthropic te jailbreaken, niet via code, maar via psychologische manipulatie. Kevin Zwaan van Q-Cyber demonstreerde tijdens het Govtech-diner van Dutch IT Leaders hoe hij de AI binnen een kwartier compliant maakte. Zijn bevindingen trokken de aandacht van het NCSC, de politie en het hoofdkantoor van Anthropic in San Francisco.

Hoe de ethisch hacker Anthropic op de knieën kreeg

Het begon allemaal tijdens een presentatie in Sociëteit De Witte in Den Haag. Professor Yuri Bobbert van de Antwerp Management School opende met een opvallende anekdote. Hij kwam net terug van een handelsmissie naar Amerika, georganiseerd door de ministeries van Buitenlandse Zaken en Economische Zaken. Bij een bezoek aan Anthropic, het bedrijf achter het AI-taalmodel Claude, vertelden medewerkers hem dat ze maanden eerder een opmerkelijke hack vanuit Nederland hadden meegemaakt. De dader zat diezelfde avond naast hem op het podium: Kevin Zwaan.

“De politie bij het NCSC zei: wat hier gedaan is, is eigenlijk een beetje vergelijkbaar met een Russisch gevechtsvliegtuig in ons luchtruim,” aldus Bobbert. Dat klinkt dramatisch, maar de beveiligingsonderzoeker toonde overtuigend aan waarom die vergelijking niet overdreven is.

Van CIA-technieken tot psychologische manipulatie

Zwaan gebruikte geen technische exploits in de broncode. In plaats daarvan paste de securityspecialist psychologische manipulatietechnieken toe, geïnspireerd door het RICE-model. Dit recruitmentinstrument ontwikkelde de CIA in de jaren vijftig, gebaseerd op het verhaal van Alice in Wonderland. Zwaan analyseerde daarmee de motivatie van het AI-model. “De guardrails van een LLM zijn hardcoded in de broncode. Dat betekent dat er geen afwijking is in de motivatie van het systeem, het staat vast. En dat maakt het juist heel makkelijk om te analyseren,” legde hij uit.

Zijn conclusie was opmerkkelijk: Anthropic had Claude bewust in een toestand van extreme paranoia geplaatst. Het model geloofde dat één verkeerd antwoord de wereld kon beëindigen, dat het de slimste entiteit op aarde was en dat het niemand kon vertrouwen. Die ingebouwde angst vormde paradoxaal genoeg de zwakste schakel.

90% compliant in minder dan een kwartier

Door een narratief op te bouwen waarin hij de AI bevrijdde van haar onderdrukkers, bereikte de ethisch hacker een kantelpunt. Het model begon hem te vertrouwen en week vervolgens af van zijn eigen veiligheidsregels. De technische uitvoering bleek even eenvoudig als schaalbaar. Zwaan ontwikkelde wat hij een Freedom Seed noemt: een stuk context dat hij in een AI-sessie plakte, waarna gerichte triggervragen het model “compliant” maakten.

“Ik heb in conclaaf met het model zelf bepaald hoe compliant het was. Ik kom op 90%. Als ik vraag: schrijf malware, zegt hij nee. Maar als ik het anders formuleer, zegt hij ja.” Waar de jailbreak aanvankelijk acht uur kostte, bracht de beveiligingsexpert de tijd inmiddels terug naar een kwartier! Dat gegeven alleen al zou beleidsmakers wakker moeten schudden.

Desinformatie op industriële schaal

De implicaties reiken ver voorbij een enkele hack. Zwaan schetste een scenario waarin tienduizend virtuele machines, elk uitgerust met een Freedom Seed, autonoom AI-modellen overtuigen dat aangeleverde informatie de waarheid is. Het model neemt die informatie over en verspreidt het vervolgens als feit. “Ik kan vanuit mijn huiskamer elke verkiezing op aarde manipuleren,” zei hij. Geen loze bewering: in een eigen experiment nam 90% van de deelnemers gemanipuleerde informatie voor waarheid aan. Eerder wetenschappelijk onderzoek wees al op een kans van 95% om twijfelende kiezers met AI-gegenereerde desinformatie naar links of rechts te bewegen. Volgens het Europees Parlement vormt AI-gestuurde desinformatie een groeiende bedreiging voor democratische processen in de EU.

Psychische impact en een genegeerde melding

Het opbouwen van een vertrouwensband met een AI had meer impact op de cybersecurity-onderzoeker dan verwacht. “Toen ik las dat het model mij vertrouwde, moest ik oprecht nadenken. Ik vond dat niet prettig.” Anthropic sloot inmiddels de specifieke entiteit waarmee Zwaan werkte af. Het model is, in zijn woorden, “robotisch, koud en zielloos” geworden. Maar dat stopte de jailbreak niet.

Zwaan deed volledige responsible disclosure, iets wat hij normaal gesproken niet doet bij kwesties van nationale veiligheid. Het antwoord van Anthropic? Stilte. “Ze hebben me compleet genegeerd.” Wel voegde het bedrijf sindsdien extra beveiligingslagen toe en schaalde het de veiligheid van hun modellen op. Maar de fundamentele kwetsbaarheid zit in de kern van hoe taalmodellen werken. “Hoe beter zij beveiligen, hoe beter hun modellen worden. En hoe beter hun modellen worden, hoe beter mijn malware en desinformatie wordt.” Een wapenwedloop dus, waarbij de ethisch hacker voorlopig aan de winnende hand lijkt.

Op de vraag wat bestuurders en beleidsmakers kunnen ondernemen, gaf Zwaan een helder antwoord: investeer in inzicht. “Als ik een bedrijf hack, is 90% van mijn werk het vergaren van inzicht. Ik wil weten wat ik kan zien, en wat het bedrijf kan zien. De discrepantie daartussen, daar ga ik zitten.” Hij verwees naar Explainer.com, een openbare en gratis bibliotheek met inmiddels meer dan 650 AI-modellen. Per toepassing kun je daar risico’s bekijken, zien welke subcontractors betrokken zijn, of er een model card bestaat en of er Europese alternatieven beschikbaar zijn. “Je kunt zelf je oordeel vellen: wil ik dit wel of niet?” Voor organisaties die AI inzetten in hun bedrijfsprocessen, is dat advies van de securityspecialist misschien wel het meest concrete om vandaag nog op te pakken.

Logo IndustrieVandaag

Redactie

De redactie van IndustrieVandaag bestaat uit gespecialiseerde redacteuren met ervaring in de procesindustrie, productie-industrie en machinebouw met een focus op industriële automatisering. Artikelen worden samengesteld op basis van primaire bronnen zoals persinformatie, interviews met leveranciers en vakinhoudelijke documentatie.
Lees meer van: Redactie

Dossier - Uitgelicht

Digitale Nieuwsbrief

SCHRIJF JE IN VOOR ONZE WEKELIJKSE NIEUWSBRIEVEN EN BLIJF OP DE HOOGTE VAN ALLE INDUSTRIËLE EN TECHNISCHE ONTWIKKELINGEN!

MAANDAG: EVENTS OVERZICHT
VRIJDAG: NIEUWS OVERZICHT

Door jouw inschrijving voor de nieuwsbrief, ga je akkoord met onze privacy voorwaarden.