Kan AI juridische examens beoordelen op het niveau van hoogleraren?
De vraag of artificial intelligence (AI) in staat is om juridische examens te beoordelen op het niveau van ervaren rechtenprofessoren, is lange tijd vooral theoretisch geweest. Recent empirisch onderzoek brengt daar verandering in. Een gezamenlijk onderzoek van zes Amerikaanse rechtenfaculteiten laat zien dat bestaande large language models (LLM’s), mits voorzien van duidelijke beoordelingscriteria, in staat zijn om studentenantwoorden op juridische analysevragen te beoordelen met een nauwkeurigheid die dicht in de buurt komt van menselijke beoordelaars.
Het onderzoek: opzet en bevindingen
In het onderzoek zijn examens geanalyseerd uit vier kernvakken die veelvuldig worden geëxamineerd aan top-30 law schools in de Verenigde Staten. Het ging om klassieke juridische analysevragen, zoals die in tentamens en take-home exams worden gebruikt. Cruciaal is dat de onderzoekers geen nieuw AI-model hebben ontwikkeld, maar juist bestaande, breed toegankelijke LLM’s hebben ingezet. De centrale vraag was of deze modellen, zoals zij nu beschikbaar zijn voor docenten en studenten, geschikt zijn voor beoordelingstaken in het juridisch onderwijs.
De resultaten zijn opvallend. Wanneer de AI werd gevoed met gedetailleerde rubrics – expliciete nakijkcriteria die door hoogleraren waren opgesteld – bleken de door AI toegekende scores sterk te correleren met die van menselijke beoordelaars. In sommige gevallen liep de Pearson-correlatiecoëfficiënt op tot 0,93. Dat betekent dat de beoordeling door AI zeer nauw aansluit bij die van een professor, althans in statistische zin.
De onderzoekers concluderen dan ook dat LLM’s “in staat zijn om ruwweg het beoordelingsniveau van een rechtenprofessor te benaderen”, met name bij goed gestructureerde beoordelingskaders. Tegelijk benadrukken zij dat verdere analyse nodig blijft, onder meer bij andere vakken en examenvormen, en dat herhaling van dit soort studies noodzakelijk is naarmate AI-systemen zich snel blijven ontwikkelen.
Wat betekent dit voor juridisch onderwijs?
Volgens Daniel Schwarcz, hoogleraar aan de University of Minnesota en een van de onderzoekers, zijn de implicaties aanzienlijk. AI hoeft menselijke beoordeling niet volledig te vervangen om al van grote waarde te zijn. Denk aan het geven van feedback op oefententamens, concept-memo’s en tussentijdse opdrachten, waar studenten nu vaak beperkt toegang toe hebben door tijdgebrek bij docenten. Ook voor jonge advocaten of stagiairs ligt hier een parallel: AI kan helpen om schriftelijke producten te verfijnen voordat deze bij een partner of senior jurist terechtkomen.
Belangrijk is dat het onderzoek niet stelt dat AI klaar is om zelfstandig eindcijfers toe te kennen. De examens en rubrics zijn immers nog steeds door mensen ontworpen, en vragen over betrouwbaarheid, bias en institutionele regels blijven bestaan. Veel rechtenfaculteiten kennen bijvoorbeeld formele verplichtingen dat hoogleraren persoonlijk beoordelen. Of AI-beoordeling daarmee verenigbaar is, is juridisch en organisatorisch nog onduidelijk.
Efficiëntie, werkdruk en schaarse expertise
Juist in een context van toenemende werkdruk en schaarse academische expertise is de relevantie van deze bevindingen groot. Ook in Nederland worstelen rechtenfaculteiten met hoge studentenaantallen, intensieve toetsingseisen en beperkte tijd voor inhoudelijke feedback. De inzet van AI als ondersteunend instrument kan bijdragen aan een efficiëntere verdeling van taken: routinematig en repetitief nakijkwerk kan (gedeeltelijk) worden geautomatiseerd, terwijl hoogleraren en hoofddocenten zich blijven richten op inhoudelijke kwaliteitsbewaking en didactische keuzes.
Binnen initiatieven zoals LFS (Legal Future Skills) wordt hier al concreet invulling aan gegeven. Op basis van door hoofddocenten aangeleverde rubrics wordt gewerkt aan AI-nakijktools die deelnemers snelle, persoonlijke en inhoudelijk onderbouwde feedback geven. De eindverantwoordelijkheid blijft nadrukkelijk bij menselijke docenten, maar AI fungeert als versterker van het onderwijsproces, niet als vervanger ervan.
Een bredere herijking
De discussie raakt aan een fundamentelere vraag: kan juridisch onderwijs in de AI-era hetzelfde blijven? Het onderzoek suggereert dat kernonderdelen van het onderwijsproces – zoals feedback en beoordeling – steeds verder kunnen worden gedigitaliseerd. Dat betekent niet automatisch dat fysieke rechtenfaculteiten of hoogleraren overbodig worden. Integendeel, ook de onderzoekers benadrukken het belang van menselijk contact, academische vorming en interactie.
Wel wijst dit alles op een noodzakelijke herijking van het onderwijsmodel. In een praktijk waarin studenten en professionals al dagelijks met AI werken, ligt het voor de hand dat het juridisch onderwijs hier inhoudelijk en organisatorisch op aansluit. Niet door AI als bedreiging te zien, maar als instrument om kwaliteit, toegankelijkheid en effectiviteit van juridisch onderwijs te vergroten.