GPT-NL haalt zijn eigen prestatiedoelen nog niet

24 jun

TNO kondigde begin 2026 aan dat GPT-NL een nieuwe fase ingaat, van ontwikkelen naar gebruiken in de praktijk. De tussentijdse benchmarkscores die eind 2025 publiek werden, geven een ander beeld: op feitelijke kennis en grammaticale correctheid komt het foundation model nauwelijks boven de gokkans uit. GPT-NL draait op lokale infrastructuur, wat past bij de eis dat clientgegevens een afgeschermde omgeving niet verlaten, maar een model dat zijn eigen prestatiedoelen niet haalt, is nog geen betrouwbaar instrument voor juridisch werk.‍ ‍

Waarom een Nederlands taalmodel juristen aangaat

GPT-NL is het eerste publiek gefinancierde Nederlandse taalmodel, een samenwerking van TNO, SURF en het NFI. De aantrekkingskracht voor de advocatuur zit in twee eigenschappen. Het model wordt alleen getraind op gedoneerde en gelicenseerde data, en het is bedoeld om lokaal te draaien; bij de eerste launching customers installeert TNO het op eigen infrastructuur. Dat raakt het punt waarop algemene chatbots stuklopen voor juristen: clientgegevens horen niet in een publiek model thuis.‍ ‍

De NOvA legde die grens eind 2025 vast in haar aanbevelingen AI in de advocatuur. Vertrouwelijke gegevens horen niet in publieke modellen, tenzij er stevige contractuele waarborgen zijn of het model binnen het kantoor wordt gehost en beheerd. Een soeverein model dat lokaal draait, oogt daarmee als een logische uitweg. Wij schreven eerder over een andere aanbeveling uit datzelfde document: cliënten vooraf om toestemming vragen voor AI-gebruik in een dossier.

De tussentijdse benchmarks van GPT-NL stellen teleur

GPT-NL stelde zichzelf een bescheiden doel: presteren op het niveau van Llama 2 7B en GPT-3, modellen uit 2023 en 2020. In de analyse van de eind 2025 gepubliceerde scores door onderzoeker en oud-projectleider Edwin Rijgersberg haalt het foundation model dat niveau op meerdere kerntaken niet. Op een Nederlandstalige kennistest scoort het nauwelijks boven willekeurig gokken, en op grammaticale correctheid blijft het ver achter bij het oude GPT-3.5. Op begrijpend lezen presteert het beter, ongeveer gelijk aan GPT-3.5.

Over samenvatten, een van de drie kerntaken, lopen de lezingen uiteen. TNO stelt dat GPT-NL daar al beter presteert dan oudere modellen als GPT-3. De analyse van de gepubliceerde cijfers betwist dat: de samenvattingsscore ligt juist onder die van de vergelijkingsmodellen. TNO tekent aan dat de tussenresultaten nog niet representatief zijn voor het uiteindelijke model en dat de definitieve scores pas bij de brede uitrol later in 2026 volgen. De cijfers na instruction tuning zijn nog niet openbaar.

De vermoedelijke oorzaak is een tekort aan data. Door teksten van het open internet principieel af te wijzen, bestaat de trainingsset voor maar een tiende uit Nederlands, minder dan moderne modellen gewend zijn. Binnen de eigen uitgangspunten is dat lastig op te lossen.

Wat een kantoor nu kan afwegen

Soevereiniteit en betrouwbaarheid zijn twee aparte vragen. Een model kan keurig binnen de landsgrenzen draaien en tegelijk te zwak zijn om feiten correct weer te geven of een brontekst goed samen te vatten. GPT-NL scoort op de eerste vraag sterk en op de tweede voorlopig niet.

Beoordeel een AI-tool daarom op allebei. Of de aanbieder een verwerkersovereenkomst tekent en je invoer niet gebruikt om het model te trainen, en of invoer en uitvoer binnen een afgeschermde omgeving blijven, is de eerste toets. Of het model goed genoeg presteert op de taak die je ervan vraagt, is de tweede. Een sterke score op de eerste toets compenseert een zwakke score op de tweede niet.

Houd er rekening mee dat de openbare cijfers het foundation model betreffen, niet de versie die na verdere training wordt uitgerold. Wie nu een proef overweegt, kan de leverancier vragen om actuele benchmarkscores van de ingezette versie en om uitkomsten van de lopende feasibility studies bij overheidsorganisaties.

Voor juridisch werk zonder clientgegevens, zoals algemene onderzoeksvragen of het opstellen van een modeltekst, kun je vandaag al kiezen uit modellen die op het Nederlands hoger scoren. Voor stukken die onder het beroepsgeheim vallen, blijft de eis een afgeschermde omgeving met de waarborgen die de NOvA noemt. Een soeverein model neemt die eis pas weg zodra het ook inhoudelijk levert.

BijzonderStrafrecht.nl https://www.bijzonderstrafrecht.nl

GPT-NL haalt zijn eigen prestatiedoelen nog niet

Waarom een Nederlands taalmodel juristen aangaat

De tussentijdse benchmarks van GPT-NL stellen teleur

Wat een kantoor nu kan afwegen

ADRESGEGEVENS

GA DIRECT NAAR

SOCIAL MEDIA

NIEUWSBRIEF

GPT-NL haalt zijn eigen prestatiedoelen nog niet

Waarom een Nederlands taalmodel juristen aangaat

De tussentijdse benchmarks van GPT-NL stellen teleur

Wat een kantoor nu kan afwegen

De eerste procesoverwinning van AI-advocaat

Een algoritme dat content stuurt, kost een platform de hostingvrijstelling

ADRESGEGEVENS

GA DIRECT NAAR

SOCIAL MEDIA

NIEUWSBRIEF