ChatGPT-5.5: scherper dan ooit, maar ook de grootste opschepper

De digitale collega waar je dagelijks mee werkt heeft er een upgrade bij gekregen. Met de release van GPT-5.5 belooft OpenAI een model dat op eigen houtje cijfers uitpluist, decks in elkaar zet en complete onderzoeksopdrachten afrondt, zonder dat je elk substapje hoeft te dicteren. Het past in een hardlopende wedloop tussen de grote AI-bedrijven om als eerste een echte digitale kantoorkracht op de markt te brengen. Eén kanttekening: deze topscholier blijkt ook de grootste fantast in de klas.

Wat speelt er precies?

GPT-5.5 volgt versie 5.4 op en draait sinds vorige week voor wie een betaald abonnement heeft op ChatGPT (Plus, Pro, Business of Enterprise). De kern van de propositie: gooi er een chaotische opdracht met meerdere lagen tegenaan, en het model maakt zelf een plan, kiest de juiste hulpmiddelen, checkt zijn werk tussendoor en blijft doorgaan tot het resultaat er ligt.

Tegelijk met het model rolde OpenAI een uitgebreide vernieuwing van Codex uit, hun ontwikkelaarsplatform dat tot voor kort vooral leefde onder programmeurs. Inmiddels kan Codex ook door je browser klikken, pdf's openen, werkbladen en presentaties produceren en programma's op je laptop besturen. De richting is helder: niet alleen het beste schrijfgereedschap voor code worden, maar uitgroeien tot een digitale collega die in principe alles kan wat jij ook achter je computer doet.

Wat heb je eraan in de praktijk?

Het verschil dat kantoorpersoneel meteen zal voelen, zit in de intuïtie van het systeem. GPT-5.5 vat sneller op waar je heen wilt. Eerder moest je vrij precies uitspellen wat je verwachtte, nu kun je volstaan met iets als: "Pluk de belangrijkste lijnen uit deze omzetcijfers en zet ze om in een bondige presentatie." De rest gebeurt zonder verdere instructies, inclusief het zoeken van context, het tekenen van diagrammen en het bouwen van een logische opbouw.

Binnen OpenAI grijpt naar verluidt 85 procent van het personeel wekelijks naar het model, en dat zijn lang niet alleen techneuten. Ook collega's bij finance, marketing en communicatie maken er gebruik van. De financiële afdeling zette GPT-5.5 in om bijna 25.000 belastingformulieren te verwerken (samen goed voor zo'n 71.000 pagina's). De tijdwinst: ruim twee weken werk.

In dezelfde release kreeg ook de beeldgenerator een flinke opfrisbeurt. Het opvallendste verschil: de plaatjes bevatten nu leesbare letters, wat handig is als je in één klap een slide, infographic of mock-up van een product nodig hebt. Wharton-hoogleraar Ethan Mollick, schrijver van het boek Co-intelligentie, schreef er een uitgebreide review over en wees op de waarde voor wie snel PowerPoint-decks, productvisualisaties of website-voorbeelden wil prototypen.

De reikwijdte gaat ook voorbij de klassieke kantoortaken. Doordat OpenAI de nieuwe beeldengine direct in Codex heeft ingebouwd, kan het model halverwege een coderingsklus zelf grafisch materiaal genereren. Mollick demonstreerde hoe je in één doorlopende sessie een academisch artikel, een interactieve simulatie of een werkende mini-app op kunt leveren, zonder iedere keer naar een ander programma over te steken.

De wedloop om de AI-kenniswerker

Onder al die technische verbeteringen ligt een veel grotere ambitie verscholen. Op een persmoment noemde mede-oprichter en president Greg Brockman het nieuwe model een opstap naar een fundamenteel andere manier van computergebruik. Hij herhaalde wat OpenAI al langer voor ogen heeft: ChatGPT, Codex en de eigen AI-browser laten samenvloeien in één super-app, een soort digitale stafchef die in principe je hele werkweek kan dragen.

De druk op concurrenten neemt daarmee toe. Anthropic, het bedrijf achter Claude, kwam onlangs met Mythos op exact hetzelfde speelveld af. Bij Google loopt eenzelfde traject met Gemini. De inzet is verschoven: niet langer welk model het hoogst scoort op een gestandaardiseerd examen, maar wie als eerste een AI bouwt die werkelijk meedraait in een dagelijkse routine.

En toen was er de hallucinatie

In de onafhankelijke kennistoets van Artificial Analysis zet GPT-5.5 een record neer: het beantwoordt 57 procent van de feitelijke vragen correct, hoger dan welk eerder geteld model dan ook. Maar bij vragen waar het model het antwoord níet weet, kiest het in 86 procent van de gevallen voor verzinnen in plaats van eerlijk zeggen dat het er niet uitkomt. Bij Claude Opus 4.7 ligt dat percentage op 36, bij Gemini 3.1 Pro Preview op 50. Topscholier dus, maar ook iemand die ongegeneerd uit zijn duim zuigt.

Peter Gostev, AI-onderzoeker bij Arena.ai, stuitte op een ironische bijvangst. De Pro-uitvoering, die langer redeneert voor hij antwoordt, scoort op zijn BullshitBench zelfs slechter dan de gewone variant. De extra denktijd lijkt vooral te worden besteed aan het opbouwen van argumenten voor de eigen onzin, in plaats van aan het stellen van kritische tegenvragen.

Goed nieuws voor wie 's nachts wakker ligt: zelfverbetering blijft uit

Wie zich wel eens zorgen maakt over AI die uit de bocht vliegt, kan zich aan iets vasthouden. Uit het eigen veiligheidsrapport van OpenAI komt naar voren dat GPT-5.5 niet in staat is tot zogenoemde recursive self-improvement, het scenario waarvoor onderzoekers al jaren waarschuwen. Programmeren en wetenschappelijk denken gaan steeds beter, maar voor het stelselmatig opwaarderen van zichzelf ontbreekt het het model aan voldoende samenhang en uithoudingsvermogen. In interne proeven loste het bovendien maar zo'n 6 procent op van de bugs waar een menselijke programmeur een werkdag aan kwijt zou zijn.

Dat is geruststellend, want het houdt in dat we voorlopig niet richting een ongecontroleerde, zichzelf versnellende AI-spiraal bewegen. Tegelijk geeft het feit dat OpenAI hier nu standaard op test wel iets aan: ze gaan ervan uit dat dit punt op enig moment wél in zicht komt.

Waarom dit ertoe doet

GPT-5.5 markeert een nieuwe fase. AI-assistenten verschuiven van handlangers die op opdracht wachten naar collega's die zelf het initiatief nemen. Mollick brengt het in zijn review terug tot een eenvoudig patroon: telkens als er een nieuw model verschijnt, doet hij zijn vaste reeks tests opnieuw, en telkens blijkt iets wat eerst onmogelijk was nu binnen handbereik. Dat ritme houdt al drie jaar aan, alleen worden de stappen groter.

De keerzijde laat zich raden. Hoe knapper het systeem, hoe geloofwaardiger het onzin produceert. Voor het samenvatten van data of het opzetten van een deck is GPT-5.5 een echte sprong vooruit. Maar overal waar feitelijke precisie de doorslag geeft, of het nu om juridische dossiers gaat of om financiële verantwoording, blijft een mens met een kritische blik onmisbaar.

Vorige
Vorige

De generatiekloof: waarom juniors en seniors anders naar AI kijken

Volgende
Volgende

AI-slop herkennen: wanneer AI-output goed klinkt maar niets zegt