Wat Stanford meet, en wat de juridische sector nog niet weet
De opening van het 2026 AI Index Report van Stanford HAI laat weinig ruimte voor interpretatie. Er groeit een kloof tussen wat AI kan en wat wij aankunnen. Governance, evaluatie, onderwijs, datasystemen: allemaal rennen achter de feiten aan. Voor een beroepsgroep die werkt met jurisprudentie, tuchtrecht en zorgvuldige afweging is dat een pijnlijke waarneming.
Een paar cijfers om de schaal te zien. Drie jaar na de lancering van ChatGPT gebruikt meer dan de helft van de wereldbevolking generatieve AI. Op de coding-benchmark SWE-bench Verified schoten modellen in twaalf maanden van 60 procent naar bijna 100 procent van menselijke prestatie. Tegelijk steeg het aantal gedocumenteerde AI-incidenten van 233 naar 362 in één jaar. Responsible AI-benchmarks blijven structureel achter bij capaciteitsmetingen. De weegschaal tussen vermogen en verantwoording staat scheef.
Briljant op het ene, blind op het andere
Hier komt de befaamde jagged frontier in beeld, een term die Harvard Business School introduceerde in een veldexperiment met BCG-consultants. Modellen presteren uitstekend op taken die intuïtief moeilijk lijken, en falen op taken die eenvoudig horen te zijn. Gemini Deep Think won goud op de Internationale Wiskunde Olympiade. Hetzelfde topmodel leest een analoge klok correct in 50,1 procent van de gevallen. Niet omdat klokkijken moeilijk is, maar omdat visuele redenering anders werkt dan wiskundige redenering.
Vertaal dat naar de praktijk. Een model dat een internationale joint venture-structuur feilloos samenvat, kan struikelen over de vraag of een bepaald artikel in een set algemene voorwaarden toepasselijk is op een specifieke casus. De output leest als een doordacht advies. De fout zit in de aanname, niet in de zin.
Nederland bouwt inmiddels een eigen jurisprudentielijn op dat thema. De rechtbank Gelderland passeerde twee keer dezelfde advocaat wegens gehallucineerde uitspraken van de Centrale Raad van Beroep. Bij de Ondernemingskamer ging het vorige maand mis met een pleitnota vol niet-bestaande precedenten. Het Dekenberaad kondigde als reactie actief toezicht aan op AI-gebruik door advocaten.
De oefenruimte die verdwijnt
Het economische hoofdstuk van het rapport bevat een cijfer dat voor de juridische sector meer betekent dan het op het eerste gezicht lijkt. Onder softwareontwikkelaars van 22 tot 25 jaar daalde de werkgelegenheid in de VS met bijna twintig procent in één jaar. Onder oudere ontwikkelaars groeide die juist. De productiviteitswinst van AI (14 tot 26 procent in routinematig kenniswerk) landt precies bij het werk waarmee beginners hun vak leren.
Iedere juridische organisatie draait op een pijplijn. Junior zoekt uit en schrijft concept, medior redigeert, senior toetst. Als de eerste schijf uit dat proces wordt weggeautomatiseerd, verdwijnt ook de leerlijn waarmee juniors over tien jaar seniors worden. Het rapport meet geen directe cijfers voor juridische beroepen, maar de structuur van het probleem is identiek: sectoren met routinematig kenniswerk zien productiviteitswinst aan de top en werkverlies aan de basis. De juridische sector hoort in die categorie.
De vraag is dus niet of je AI inzet. De vraag is hoe je voorkomt dat efficiëntie de oefenruimte opeet waaraan jouw organisatie zijn volgende generatie dankt.
Wie bouwt het model dat jouw dossier leest
Een derde bevinding verdient aandacht van iedere bestuurder in de juridische sector: de transparantie van AI-modellen neemt af. De Foundation Model Transparency Index daalde van 58 naar 40 punten. Van de 95 meest prominente modellen die vorig jaar verschenen, werden er 80 gereleased zonder trainingscode. Grote labs publiceren trainingsdata-omvang en parameters simpelweg niet meer.
Daar komt geopolitiek bij. De prestatiekloof tussen Amerikaanse en Chinese modellen is vrijwel gesloten, en Europa is voor frontier-modellen afhankelijk van andere jurisdicties. Voor een sector waarin vertrouwelijkheid en geheimhouding geen richtlijn zijn maar een kernwaarde, is de herkomst van het model geen detail. Het is de eerste vraag.
Welke leverancier? Welke jurisdictie? Welke verwerkingsgrondslag? Welke subverwerkers? Welk model voor welk soort dossier? Als jouw organisatie die vragen niet per tool en per usecase kan beantwoorden, loop je een risico dat groter is dan een inefficiëntie. Het raakt aan de kern van het vak.
De cliënt is geen techexpert
Een laatste kloof uit het rapport gaat over perceptie. Onder AI-experts verwacht 73 procent positieve effecten van AI op werkgelegenheid. Onder het brede publiek is dat slechts 23 procent. Cliënten die AI-gebruik door hun jurist ter sprake brengen, doen dat dus steeds vaker vanuit zorg, niet vanuit enthousiasme.
Dat betekent dat je niet alleen moet weten wáár AI werkt, maar ook moet kunnen uitleggen hoe en waarom je het inzet, en op welke onderdelen een mensenhoofd onmisbaar blijft. Die uitleg hoort in het AI-beleid van je organisatie, niet in een improvisatie aan de vergadertafel.
Het werk dat schaarser wordt
Het rapport van Stanford is geen pleidooi voor of tegen AI. Het is een meetlat. En die meetlat laat zien dat de technologie sneller evolueert dan de systemen die haar zouden moeten begeleiden. Voor de juridische sector is dat geen slecht nieuws. Beoordelingsvermogen, het wegen van context, het herkennen van aannames, het verantwoorden van keuzes aan rechter, toezichthouder en cliënt, juist díe vaardigheden worden schaarser en daarmee waardevoller. AI vervangt ze niet. Het maakt ze prijziger.