Claude Opus 4.7 versus ChatGPT 5.5: wie wint de lente van 2026?

In één week tijd lanceerden Anthropic en OpenAI hun nieuwste vlaggenschepen. Op 16 april 2026 introduceerde Anthropic Claude Opus 4.7, zeven dagen later volgde OpenAI met GPT-5.5, intern bekend onder de codenaam "Spud". Het is een directe confrontatie tussen twee modellen die elk hun eigen filosofie volgen. In deze blog kijk ik naar wat de benchmarks daadwerkelijk laten zien, waar elk model uitblinkt en waar het tegenvalt.

De korte samenvatting

Geen van beide modellen wint over de hele linie. Claude Opus 4.7 is sterker in agentic coding en multi-tool workflows, GPT-5.5 zet de toon in terminalwerk, browsen en wiskunde op het hoogste niveau. De Wikipedia-pagina van GPT-5.5 noemt een test van Tom's Guide waarin GPT-5.5 in alle zeven categorieën verloor van Opus 4.7, maar dat zegt iets over die specifieke testset, niet over het volledige plaatje. De waarheid is genuanceerder.

Beschikbaarheid en prijs

Claude Opus 4.7 draait via claude.ai (Pro, Max, Team, Enterprise), de Anthropic API, Amazon Bedrock, Google Vertex AI, Microsoft Foundry en GitHub Copilot. De officiële documentatie van Anthropic bevestigt dat de prijs gelijk blijft aan Opus 4.6, namelijk 5 dollar per miljoen input-tokens en 25 dollar per miljoen output-tokens. Wel waarschuwt Anthropic dat de nieuwe tokenizer dezelfde tekst soms tot 35 procent meer tokens laat tellen, dus de feitelijke kosten per opdracht kunnen iets hoger uitvallen.

GPT-5.5 is volgens OpenAI's aankondiging beschikbaar voor Plus, Pro, Business en Enterprise gebruikers in ChatGPT en Codex. De API kostte bij introductie 5 dollar per miljoen input-tokens en 30 dollar per miljoen output-tokens. Voor de zwaardere variant gpt-5.5-pro vraagt OpenAI 30 dollar input en 180 dollar output per miljoen tokens, wat het zes keer duurder maakt dan Opus 4.7. TechCrunch wees erop dat GPT-5.5 niet meteen via de API beschikbaar was bij lancering omdat OpenAI eerst aanvullende veiligheidsmaatregelen wilde inbouwen.

Beide modellen ondersteunen een contextvenster van 1 miljoen tokens via de API.

Coding: waar Opus 4.7 zijn vlag plant

Anthropic richtte zich met deze release expliciet op software engineering. De benchmarkanalyse van Vellum laat zien dat Opus 4.7 op SWE-bench Verified van 80,8 procent naar 87,6 procent springt. Op het lastigere SWE-bench Pro gaat het van 53,4 procent naar 64,3 procent, een sprong van bijna elf punten in één release.

GPT-5.5 scoort op SWE-Bench Pro 58,6 procent, zo blijkt uit de analyse van Handy AI, wat betekent dat Opus 4.7 op deze specifieke meting voorblijft. Maar OpenAI introduceerde een eigen interne test, Expert-SWE, met taken waarvoor menselijke experts mediaan 20 uur nodig hebben. Daarop scoort GPT-5.5 73,1 procent. Vergelijkbare cijfers voor Opus 4.7 zijn er niet, dus die claim staat los.

Op Terminal-Bench 2.0 verandert het beeld. Daar haalt GPT-5.5 volgens diezelfde Handy AI-analyse 82,7 procent, tegenover 69,4 procent voor Opus 4.7. Dat is een aanzienlijke kloof, en The AI Corner noemt dit eerlijk een regressie ten opzichte van wat je van Anthropic zou verwachten.

Voor agent-georiënteerd coderen via Model Context Protocol scoort Opus 4.7 op MCP-Atlas 77,3 procent, volgens Vellum de hoogste score onder publiek beschikbare modellen. Dat maakt het op dit moment de sterkere keuze voor multi-tool orkestratie in productieagenten.

Kennis, redeneren en wiskunde

Op FrontierMath Tier 4, een set extreem moeilijke wiskundeproblemen, neemt GPT-5.5 een duidelijke voorsprong. Handy AI rapporteert 35,4 procent voor GPT-5.5 tegenover 22,9 procent voor Opus 4.7. Op GPQA Diamond, een natuurwetenschappelijke kennistest, scoort Opus 4.7 volgens llm-stats 94,2 procent. Een rechtstreekse vergelijking met GPT-5.5 op exact dezelfde test is bij publicatie nog niet beschikbaar.

Voor kenniswerk in een breder zin introduceerde OpenAI GDPval, een test die meet hoe goed een model 44 verschillende beroepen kan ondersteunen. GPT-5.5 haalt daar 84,9 procent. Voor Opus 4.7 wordt op die specifieke test 80,3 procent gerapporteerd, dus voor kantoorwerk en kenniswerkstromen heeft GPT-5.5 een lichte voorsprong.

Browsen en zoeken

Hier maakt GPT-5.5 het verschil. Op BrowseComp haalt het volgens een review op BuildFastWithAI 90,1 procent en daarmee leidt het alle publiek beschikbare modellen. MindStudio merkt op dat agentic search juist een zwakker punt werd in Opus 4.7 vergeleken met zijn voorganger. Wie een onderzoeksagent bouwt die zelfstandig het web doorploegt en synthetiseert, doet er goed aan dit serieus mee te wegen.

Vision: Opus 4.7 zet een nieuwe standaard

Op visueel gebied maakt Anthropic een grote sprong. De maximale resolutie ging van 1.568 pixels (1,15 megapixel) naar 2.576 pixels (3,75 megapixel), zoals bevestigd in Anthropic's eigen documentatie. Een vroege testpartner, XBOW, zag de visuele nauwkeurigheid voor autonome penetration testing springen van 54,5 procent naar 98,5 procent. Voor agents die schermafbeeldingen, technische diagrammen of dichte interfaces lezen is dat een wezenlijk verschil. GPT-5.5 ondersteunt eveneens beeldinvoer, maar publiceerde geen vergelijkbare resolutiesprong.

Computergebruik en agentic werk

Op OSWorld-Verified, een test waarbij een model zelfstandig een echte computer bedient, haalt GPT-5.5 78,7 procent en Opus 4.7 78,0 procent. Volgens Handy AI is dat een nipte voorsprong voor OpenAI. Hier doen ze nauwelijks voor elkaar onder.

Voor agentic search waarbij het model zelfstandig informatie ophaalt, claimt OpenAI volgens VentureBeat 89,3 procent op een interne test, tegen 79,3 procent voor Opus 4.7. Daar staat tegenover dat Opus 4.7 op multi-tool agentenwerk via MCP-Atlas (77,3 procent) leidt, dus de winnaar hangt af van of je opdracht zoekgericht is of toolgericht.

Eerlijkheid en hallucinaties

Een terugkerend punt in onafhankelijke reviews is hoe modellen omgaan met onzekerheid. Het analyseplatform Hex liet aan Anthropic weten, zoals geciteerd in de officiële aankondiging, dat Opus 4.7 ontbrekende data correct rapporteert in plaats van plausibel klinkende invullingen te verzinnen. Het Wikipedia-artikel over GPT-5.5 noemt juist het tegenovergestelde patroon: snelheid is goed, maar het model heeft de neiging te hallucineren in plaats van toe te geven dat het iets niet weet. Dat is een belangrijk punt voor wie het model inzet voor juridisch werk, financiële analyse of medische ondersteuning.

Veiligheid en cybersecurity

Beide bedrijven hebben de veiligheidskaders aangescherpt. Opus 4.7 is volgens Anthropic het eerste model dat met de Project Glasswing-veiligheidsstack uitkomt, met geautomatiseerde detectie van verboden cyber-toepassingen. OpenAI classificeert GPT-5.5 onder zijn Preparedness Framework als High op zowel biologisch-chemische als cybersecurity-capaciteiten. Beide bedrijven bieden een verificatieprogramma voor legitieme securityprofessionals.

De pragmatische keuze

Voor wie nu beslist welk model ingezet moet worden:

Kies Claude Opus 4.7 als je werk leunt op complex coderen op meerdere bestanden, multi-tool agentic workflows via MCP, beeldverwerking met hoge resolutie, of als je een model wilt dat eerlijk is over wat het niet weet. De prijs ligt ook lager voor de standaardvariant.

Kies GPT-5.5 als je veel waarde hecht aan terminal-werk, webbrowsen en zoekagenten, geavanceerde wiskunde, of als je al diep in het OpenAI-ecosysteem zit met Codex en de aangekondigde "super app" strategie. Voor de hardste juridische en wetenschappelijke vraagstukken biedt GPT-5.5 Pro extra accuratesse, al betaal je daar fors voor.

Slot

Wat opvalt is hoe dicht de twee modellen op elkaar zitten en hoe duidelijk hun keuzes verschillen. Anthropic kiest voor diep coderen, betrouwbaarheid en visuele scherpte. OpenAI kiest voor breedte, snelheid en integratie in een steeds groter ecosysteem. Welk model "beter" is hangt volledig af van wat je ermee wilt doen. De enige eerlijke aanpak is je eigen workflow benchmarken op beide modellen voordat je een lange-termijn keuze maakt. Marketingmateriaal van beide kanten suggereert vaker een knock-out dan de cijfers rechtvaardigen.

De race gaat hoe dan ook door. OpenAI's chief scientist Jakub Pachocki zei in de TechCrunch persgesprek dat hij de afgelopen twee jaar in modelvoortgang "verrassend langzaam" vond, en Anthropic houdt zijn nog krachtigere Mythos-model voorlopig achter de hand voor enterprise testing. De volgende ronde komt sneller dan we denken.

Volgende
Volgende

AI-gebruik groeit, beleid blijft achter. Herken je dat?