Een vaccin tegen hallucinaties van taalmodellen?
Stel je voor: je vertrouwt op ChatGPT als research-assistent voor een pleitnota voor een zaak die later deze week gepland staat. In een oogwenk presenteert het model een ogenschijnlijk perfect arrest, compleet met ECLI-nummer. Vijf minuten later gaat jouw concept naar je cliënt – en pas dán ontdek je dat de uitspraak… nooit heeft bestaan. Het klinkt als nostalgie uit de begindagen van 2023, maar zulke hallucinaties kunnen je vandaag nog overkomen.
Dit is geen zeldzame glitch; het illustreert een structurele zwakte. Grote taalmodellen kunnen nog steeds met overtuiging onzin produceren zonder dat wij het merken. Hoe vaker we ze inzetten in tijdkritische of juridisch gevoelige workflows, hoe groter het risico dat de fout pas zichtbaar wordt wanneer het eigenlijk te laat is – in de rechtszaal, bij de cliënt of zelfs in de krant. Daarom groeit de urgentie om een ‘vaccin’ tegen hallucinaties te vinden. In de volgende secties lees je hoe onderzoekers van Anthropic denken deze kwetsbaarheid duurzaam te verkleinen en wat dat kan betekenen voor advocaten, beleidsmakers en andere professionals die dagelijks op AI vertrouwen.
Wat speelt er precies?
Taalmodellen maken een stormachtige ontwikkeling door, maar zelfs hun bouwers weten nog altijd niet exact hoe ze precies werken of waarom ze zo nu en dan de fout ingaan. Dat maakt ze tot een soort black box – en dat is zorgwekkend, want we vertrouwen deze systemen steeds vaker taken en beslissingen toe.
Anthropic, bekend van Claude, probeert die black box te openen. Hun meest recente studie richt zich op trainingsmethoden die ongewenst gedrag – zoals hallucinaties of overdreven meepraten met de gebruiker – moeten voorkomen. Dit probleem werd onder meer zichtbaar toen OpenAI erkende dat ChatGPT in korte tijd steeds vleieriger was geworden. Daarnaast kijkt het team naar de gevaren van morele ontsporing, vergelijkbaar met de bizarre uitspattingen van Grok 4.
De aanpak in het kort
Hallucinaties en andere ontsporingen lijken een bijproduct van training op enorme tekstverzamelingen; vleierij ontstaat vooral tijdens de fine-tuning door interacties met gebruikers. De klassieke remedie was: datasets schonen en modellen strikte instructies geven. Dat helpt, maar lost het probleem niet volledig op.
Anthropic kiest nu voor een andere route: ze voegen doelbewust fragmenten met ongewenst gedrag toe aan het trainingsmateriaal en labelen die expliciet als fout, gevolgd door voorbeelden van de juiste reactie. Deze ‘vaccinaties’ – zoals de onderzoekers ze noemen – blijken het model beduidend minder vaak verkeerd te laten reageren, zonder dat de prestaties op standaarden eronder lijden.
“Weirdly elegant” – en toch niet onomstreden
De eerste reacties zijn grotendeels positief. Machine-learning-engineer Sai Dheeraj Gummadi (Motorola) noemt de methode baanbrekend en ziet hierin een stap naar veiligere, transparantere en beter stuurbare AI-systemen. Mihai Andrei (ZME Science) prijst vooral de elegantie: “Het lijkt op een kind dat je iets leert met negatieve voorbeelden.”
Toch klinken er kritische noten. Lee Chong Ming (Business Insider) wijst erop dat de techniek niet is getest tegen doelbewuste pogingen tot ‘jailbreaken’. Gebruikers zouden de injecties zelfs kunnen misbruiken door er in hun prompts expliciet naar te verwijzen. Volgens hem is het daarom te vroeg om van een echte vaccinatie te spreken.
Wat betekent dit concreet voor juristen?
Een kant-en-klaar “vaccin” is er (nog) niet – maar je kunt wel zelf inoculeren.
Anthropic’s methode zit diep in de trainingsfase van een model; daar kom je als eindgebruiker niet bij. Toch kun je hetzelfde principe op kleine schaal nabootsen: maak eigen “negatieve voorbeelden”. Laat ChatGPT eerst een nep-citaat geven, label dat expliciet als fout en toon daarna de juiste bron. Herhaal dit in één promptsequentie of in een korte fine-tune op je kantoor-data. Zo leer je het model dat een verzonnen ECLI onmiddellijk wordt afgestraft.
Combineer het model met een juridische kennisbron (“RAG”)
Retrieval-Augmented Generation is op dit moment de meest betrouwbare manier om hallucinerende citaten te temmen. Laat ChatGPT antwoorden formuleren uitsluitend op basis van documenten die je zelf ophaalt uit rechtspraak.nl, EUR-Lex of je interne kennisbank. Het model kan dan simpelweg geen fictieve arresten bedenken; alles komt uit de meegeleverde context.
Dwing expliciete bronvermelding af.
Prompt bijvoorbeeld:
“Geef voor elke uitspraak het ECLI-nummer, de datum én de link naar rechtspraak.nl.
Als je iets niet kunt verifiëren, zeg ‘onbekend’.”
Een model dat openlijk “onbekend” moet zeggen, hallucineert aantoonbaar minder.
Automatiseer een laatste check-ronde
Gebruik een tweede, strikter prompt of een externe validator-scriptje dat alle gevonden ECLI-nummers tegen rechtspraak.nl controleert voordat je ermee verder werkt. Zet dit als verplichte stap in je workflow; zo vang je de resterende missers af.
Blijf menselijk toezicht houden
Zelfs met de beste prompts blijft de eindverantwoordelijkheid bij de jurist. Zie het model als een goede juridisch medewerker, niet als een zeer ervaren jurist. Neem altijd de tijd voor een handmatige sanity-check van citaten, data en conclusies.