Claude Opus 4.8: wat de nieuwe versie wel en niet verandert

Anthropic bracht op 28 mei 2026 Claude Opus 4.8 uit. Het is de opvolger van Opus 4.7, die volgens TechCrunch zo'n zes weken eerder verscheen. Voor jou als jurist is de vraag niet of het model "beter" is. Die vraag stelt elke release. De vraag is wat er verandert aan de mate waarin je het model kunt vertrouwen in werk waarin een fout je cliënt of je tuchtrechtelijke positie raakt.

Opvallend genoeg verkoopt Anthropic deze versie niet als een sprong. Het bedrijf noemt het zelf een bescheiden maar merkbare verbetering. Onafhankelijke testers zijn enthousiaster: het techmedium Every vond de stap groot genoeg om te schrijven dat Anthropic het net zo goed Opus 5 had kunnen noemen. Die twee lezingen botsen. Het is nuttig om te zien waar ze vandaan komen voordat je je oordeel vormt.

Wat Claude Opus 4.8 nieuw maakt

Claude Opus 4.8 is het nieuwste vlaggenschipmodel van Anthropic, gericht op programmeren, redeneren en kenniswerk, en uitgebracht tegen dezelfde prijs als Opus 4.7. De benchmarkcijfers schuiven omhoog, maar niet spectaculair. Op een test voor zelfstandig programmeren meldt Anthropic een stijging van 64,3 naar 69,2 procent.

De grootste claim gaat niet over snelheid of code. Hij gaat over eerlijkheid. Volgens Anthropic laat het model ongeveer vier keer minder vaak fouten in zijn eigen werk onbenoemd dan Opus 4.7. Nieuw is ook een instelling waarmee je zelf bepaalt hoeveel rekenkracht het model in een antwoord steekt: meer voor lastige taken, minder voor routinewerk. Dat is geen detail, zoals verderop blijkt.

Claude Opus 4.8 op de juridische benchmarks

Voor juridisch werk is er een concreter ijkpunt dan een algemene programmeertest. Harvey, dat AI voor advocaten bouwt, testte het model en meldt de hoogste score tot nu toe op zijn Legal Agent Benchmark: 10,4 procent, tegen 7,1 procent voor Opus 4.7. Op BigLaw Bench haalt het 91,1 procent, met perfecte scores op 43 procent van de taken.

Hier is de duiding belangrijker dan het cijfer. Die 10,4 procent klinkt laag, en dat is het ook. De Legal Agent Benchmark hanteert een all-pass-norm: het model moet élke deeltaak in een meerstaps juridische opdracht goed doen, anders telt de hele taak als mislukt. Opus 4.8 is het eerste model dat boven de 10 procent uitkomt. Dat is vooruitgang en een waarschuwing tegelijk. Harvey schreef eerder zelf dat de frontlinie snel verbetert, maar nog niet goed genoeg is voor de strenge toetsing die juridisch werk vraagt. Bij TIL lezen wij dat zo: bij complexe, samengestelde juridische taken faalt zelfs het beste model nog in ongeveer negen van de tien gevallen op minstens één onderdeel. En je kunt vooraf niet aanwijzen welk onderdeel dat is.

Minder verzinnen, niet minder verantwoordelijkheid

De interessantste verschuiving zit in het gedrag, niet in de score. Anthropic stuurt dit model erop dat het twijfel benoemt in plaats van een gat dichtpraat. Ontwikkelaar Simon Willison merkte in zijn tests op dat Opus 4.8 het laagste percentage feitelijk onjuiste antwoorden had, vooral doordat het zich onthield bij onzekerheid in plaats van te gokken.

Voor juristen raakt dat de kern van het AI-risico. Het probleem was nooit dat een model slecht schrijft. Het probleem is dat het overtuigend onjuist schrijft. In april 2026 voerde een advocaat bij de Ondernemingskamer jurisprudentie op die niet bleek te bestaan. De Nederlandse dekens houden inmiddels bij hoe vaak dit gebeurt; meerdere advocaten zijn gewaarschuwd of naar een AI-cursus gestuurd. Een model dat eerder "ik weet het niet" zegt, verkleint die kans. Het neemt hem niet weg.

Daar landt de eerlijkheidsclaim makkelijk verkeerd. "Minder hallucinaties" voelt als minder controlewerk. Het tegendeel is verstandiger. Gebruik de grotere betrouwbaarheid om je aandacht te richten op de plekken waar het model tóch nog struikelt, niet om de eindcontrole los te laten. De tuchtrechtelijke verantwoordelijkheid voor wat de deur uit gaat, verschuift niet mee met het versienummer.

Wat betekent dit voor jou als jurist?

Het praktische beeld is overzichtelijk, en het draait om vier dingen.

Behandel "eerlijker" als risicoreductie, niet als risico-overdracht. Je blijft bron, datum en vindplaats zelf controleren, ook bij dit model. De winst is dat je minder vaak hoeft te corrigeren, niet dat je niet meer hoeft te kijken.

Let op de effort-instelling. De kwaliteit van een antwoord hangt nu deels af van een knop die de meeste gebruikers nooit aanraken. Zet die voor zwaar werk hoog, en realiseer je dat een snel antwoord letterlijk een ander, lichter antwoord kan zijn dan een uitgebreid antwoord op dezelfde vraag.

Koppel de modelkeuze aan de taak. Voor synthese en analyse presteert Opus sterk; voor research-zware taken wisselt het beeld per model. Eén model voor alles is geen veilige aanname.

Maak afspraken over versies. Anthropic brengt nu in hoog tempo nieuwe modellen uit. Zonder interne afspraken werkt iedereen in je team met een andere versie en een ander betrouwbaarheidsprofiel. Wij schreven eerder een stappenplan om Claude verantwoord in je Office-omgeving in gebruik te nemen; dezelfde discipline geldt voor de keuze van het model zelf.

Slotsom

Claude Opus 4.8 is een betere collega dan zijn voorganger, vooral omdat het eerlijker is over wat het niet weet. Maar de cijfers die er voor juristen toe doen, laten zien dat de mens de laatste lezer blijft. Het verschil zit niet in het model dat je kiest, maar in hoe goed je het kunt sturen en toetsen.

Wil je je team precies dat leren: het maximale uit Claude halen én de output juridisch verantwoord toetsen? In onze cursus Verdieping AI-skills: Werken met Claude oefen je met effort-instellingen, bronvastheid en de controlestappen die een tuchtrechtelijk veilige workflow vereisen.

Vorige
Vorige

Legal AI van Big Tech: wat OpenAI's Codex for Legal betekent voor juristen

Volgende
Volgende

Legal Prompt van de Week: Je AI-assistent leren om ter zake te komen