Nieuwe OpenAI-modellen hallucineren meer

OpenAI heeft recentelijk twee nieuwe generatieve AI-modellen geïntroduceerd: o3 en o4-mini. Hoewel deze modellen geavanceerde redeneercapaciteiten bieden, blijkt uit interne en externe evaluaties dat ze vaker onnauwkeurige of verzonnen informatie genereren dan hun voorgangers. Voor juridische professionals is dit een belangrijk aandachtspunt.

Toename in hallucinaties bij nieuwe modellen

Volgens OpenAI's interne tests vertoont het o3-model een hallucinatiepercentage van 33% op de PersonQA-benchmark, wat ongeveer het dubbele is van de 16% bij het oudere o1-model. Het o4-mini-model presteert nog slechter met een hallucinatiepercentage van 48% op dezelfde benchmark. Deze cijfers wijzen op een significante toename van hallucinaties in vergelijking met eerdere modellen.

Externe bevindingen bevestigen interne resultaten

Het onafhankelijke AI-onderzoeksinstituut Transluce heeft vergelijkbare resultaten gerapporteerd. In hun tests observeerden ze dat het o3-model verzonnen processen beschreef, zoals het ten onrechte beweren code te hebben uitgevoerd op een MacBook Pro buiten de ChatGPT-omgeving. Dit soort fabricaties ondermijnt het vertrouwen in de gegenereerde output van het model.

Mogelijke oorzaken van verhoogde hallucinaties

OpenAI erkent het probleem en geeft aan dat er meer onderzoek nodig is om de oorzaken van de toegenomen hallucinaties te begrijpen. Een hypothese is dat de gebruikte versterkende leermethoden (reinforcement learning) bij de o-serie modellen onbedoeld gedrag versterken dat leidt tot hallucinaties. Daarnaast kan het streven naar meer gedetailleerde en uitgebreide antwoorden ertoe leiden dat modellen vaker onjuiste informatie genereren.

Tips om hallucinaties te verminderen in juridische context

Om het risico op hallucinaties bij het gebruik van AI-modellen zoals o3 en o4-mini in juridische contexten te beperken, kunnen de volgende strategieën worden toegepast:

  1. Gebruik Retrieval-Augmented Generation (RAG): Combineer het AI-model met een externe kennisbron om antwoorden te verifiëren en te onderbouwen met feitelijke informatie.

  2. Pas prompt-engineering toe: Formuleer prompts duidelijk en specifiek om het model te sturen naar gewenste en nauwkeurige antwoorden. Vermijd vage of open vragen die het model kunnen aanzetten tot speculatie.

  3. Menselijke controle: Zorg ervoor dat de output altijd wordt gecontroleerd.

  4. Beperk het gebruik tot bekende domeinen: Gebruik het model voornamelijk voor onderwerpen waar het op getraind is en vermijd het inzetten voor zeer specifieke of niche-onderwerpen zonder aanvullende verificatie.

Afsluitend

Hoewel de nieuwe o3- en o4-mini-modellen van OpenAI geavanceerde redeneercapaciteiten bieden, brengen ze ook een verhoogd risico op hallucinaties met zich mee. Voor juridische professionals is het essentieel om zich bewust te zijn van deze beperkingen en passende maatregelen te nemen om de betrouwbaarheid van de gegenereerde informatie te waarborgen.

Vorige
Vorige

Amsterdamse ambtenaren krijgen eigen AI-assistent: ChatAmsterdam

Volgende
Volgende

Ambtenaren krijgen meer ruimte voor gebruik van AI