Hoe je Claude-tokens onnodig verbrandt, en hoe je dat voorkomt

Het is vrijdag, kwart voor vier. Je werkt aan de stuk voor maandagochtend. Het gesprek met Claude loopt sinds tien uur 's ochtends. Net wanneer je de slaatste hand eraan wil leggen, verschijnt het rode kader: gebruikslimiet bereikt. Reset over drie uur en tweeënveertig minuten.

Twintig euro per maand, en nog geen halve werkdag verder.

De reflex is om dat aan Anthropic te wijten, of meteen een duurder abonnement te nemen. Meestal is dat overhaast. Het probleem zit zelden in het abonnement zelf, bijna altijd in hoe het gesprek wordt gevoerd. Techjournalist Dibakar Ghosh, die sinds 2024 op het Pro-abonnement zit en naar eigen zeggen nooit zijn weeklimiet heeft gehaald, wijt dat aan een patroon dat ook bij juristen veel voorkomt: niet té veel gebruiken, maar inefficiënt gebruiken.

Hieronder vier hardnekkige misvattingen, en wat je in plaats daarvan zou moeten doen.

Twee limieten, niet één

Claude.ai Pro werkt niet met een vast aantal berichten per dag. Het werkt met een tokenbudget dat over twee periodes wordt verdeeld: een sessielimiet van vijf uur en een weeklimiet. Volgens Anthropic's eigen support gaat het voor Pro in een normaal scenario om minimaal 45 berichten per sessie, al varieert dat sterk afhankelijk van de berichtlengte, de lengte van bijgevoegde bestanden, de duur van het gesprek en het gekozen model.

Het concrete plaatje: een gesprek van vijftien tot twintig berichten waarin je een bescheiden HTML-artifact opbouwt, kostte in Ghosh' eigen meting al snel zo'n 63.500 tokens, oftewel ongeveer 13 procent van de wekelijkse quota. Reken op zeven à acht zware werksessies per week.

Het goede nieuws is dat je dit kunt zien. In Claude.ai vind je onder Instellingen > Gebruik je actuele sessiegebruik en weekgebruik. Wie zijn budget niet meet, kan het ook niet sturen.

Een minder bekende kunstgreep: omdat de sessietimer pas start bij je eerste bericht en automatisch reset na vijf uur, kun je hem bewust eerder triggeren door 's ochtends een korte vraag te sturen. Het echte werk doe je dan vlak voor de sessie reset, met aansluitend een verse sessie. Op die manier benut je in een blok van twee à drie uur effectief twee sessies.

Elke vraag is een herhaling van alle vorige

Claude heeft geen geheugen tussen berichten. Bij elke nieuwe vraag wordt het hele gesprek vanaf het begin opnieuw verwerkt. Je tweede bericht kost dus al meer dan het eerste. Je dertigste bericht een veelvoud daarvan.

Dat heeft niet alleen een kostenkant. In haar eigen documentatie voor Claude Code schrijft Anthropic dat het contextvenster de belangrijkste resource is om te managen, omdat de prestaties van het model degraderen naarmate dat venster voller raakt. Claude begint dan eerdere instructies te "vergeten" en maakt vaker fouten. Lange gesprekken worden dus niet alleen duurder; ze leveren ook geleidelijk slechtere antwoorden.

Drie ingrepen helpen. Vraag na een lange werksessie om een samenvatting van het gesprek, plak die als eerste bericht in een nieuwe chat, en werk daar verder. Je comprimeert tienduizenden tokens tot een paar honderd. Een prompt als "Verder waar we waren gebleven in mijn vorige chat over [onderwerp]" werkt ook, omdat Claude.ai eerdere gesprekken kan doorzoeken zonder de hele oorspronkelijke thread mee te slepen.

Gebruik daarnaast "Bewerken" op je vorige bericht in plaats van een correctie als nieuw bericht. Wanneer je een correctie via een nieuw bericht stuurt, blijven zowel de fout als de uitleg onderdeel van de gespreksgeschiedenis die in elke volgende beurt opnieuw wordt verwerkt. Bewerken laat de foute tak van het gesprek effectief verdwijnen. Let op: dat werkt in Claude.ai op web en mobiel, niet in Claude Code of Cowork.

Tot slot: batch je vragen. Drie losse berichten ("vat samen", "noem de kernpunten", "schrijf een conclusiezin") betekent drie keer dezelfde context herladen. Eén bericht is één keer.

Wat je upload betaal je elke keer opnieuw

Hier zit de grootste stille kostenpost. PDF's, zeker gescande of beeldgevoelige PDF's, worden vaak als afbeeldingen verwerkt. Een vonnis van vijftien pagina's dat je direct als PDF aanlevert, kost aanzienlijk meer dan dezelfde tekst gekopieerd naar een Google Doc of Word en bewaard als .md of .txt. Honderd Engelse woorden zijn ruwweg honderddertig tokens, dus korte prompts met beknopte antwoorden laten je honderden berichten sturen voor je in de buurt van een limiet komt.

Voor stukken die je vaker raadpleegt, is Projects de juiste plek. Eén keer uploaden, en elke nieuwe chat binnen dat Project benadert die bronnen efficiënter dan een losse chat dat ooit zal doen. Onder de motorkap maakt Anthropic gebruik van prompt caching. Anthropic geeft aan dat deze techniek de kosten met tot 90 procent kan verlagen en de latency met tot 85 procent voor lange prompts, door regelmatig gebruikte context op te slaan en te hergebruiken in plaats van telkens opnieuw te verwerken.

Vergelijkbaar geldt voor connectoren. Elke ingeschakelde connector (Google Drive, Gmail, Notion) laadt instructies en context bij de start van een chat, ook als je hem in dat gesprek niet gebruikt. In een voorbeeld uit Anthropic's engineering blog consumeerden tooldefinities tot 134.000 tokens voordat er één woord was getypt; een opstelling met vijf gangbare servers leverde al snel zo'n 55.000 tokens overhead. Voor juridisch werk waar je vaak met dezelfde paar bronnen werkt, betekent dat: schakel uit wat je niet nodig hebt voor de taak.

Niet elke vraag is een Opus-vraag

Claude biedt drie modellen: Haiku, Sonnet en Opus. Veel juristen kiezen standaard Opus omdat ze nu eenmaal voor "het beste" betalen. Dat is begrijpelijk, maar duur. Volgens Ghosh kan een gesprek dat op Sonnet ongeveer 10 procent van een sessie kost, op Opus oplopen tot 25 à 30 procent. En omdat Claude bij elke beurt het hele gesprek herleest, wordt dat verschil in lange chats alleen maar groter.

De praktische lijn: standaard Sonnet voor het meeste werk (mail herformuleren, samenvattingen, brainstorm, eerste drafts), Haiku voor administratief klein werk, Opus alleen waar diepgang en meerdere redeneerstappen nodig zijn. Een vergelijkende analyse van twee uitspraken. Een meertraps juridisch betoog. Een complexe contractbeoordeling met afhankelijkheden. Het modeldropdown staat er niet voor niets.

Datzelfde geldt voor functies als Web Search en Extended Thinking. Stuk voor stuk waardevol op het juiste moment, maar bij een eenvoudige tekstcheck pure overhead.

Behandel Claude als een nieuwe medewerker met amnesie

In Anthropic's eigen prompt-engineering richtlijnen staat een passage die de hele toon zet. Amanda Askell, filosoof bij Anthropic, legt uit dat een groot deel van haar werk eruit bestaat een onderwerp of zorg zo helder mogelijk uit te leggen aan het model. De officiële handleiding adviseert om Claude te behandelen als een briljante maar volstrekt nieuwe medewerker met geheugenverlies, die expliciete instructies nodig heeft. Claude kent jouw normen, stijl of werkwijze niet; hoe preciezer je uitlegt wat je wilt, des te beter het antwoord.

Voor juristen heeft dat een verrassend praktische implicatie. Stop met prompts van een halve pagina alsof het een memo aan een stagiair is. Zeg in plaats daarvan: "Ik wil een conclusie schrijven over [onderwerp] met als doel [resultaat]. Stel me eerst de vragen die je nodig hebt om dit goed te doen." Klikken op antwoorden kost nauwelijks tokens, een prompt van vijfhonderd woorden wel.

En wanneer je wel context aanlevert, bijvoorbeeld een document, plaats die context boven je vraag. Anthropic's prompt-engineering documentatie raadt aan om lange documenten bovenaan de prompt te plaatsen, vóór de vraag, omdat het model inhoud aan het einde van een prompt zwaarder weegt.

Eerst gewoontes upgraden, dan abonnement

Het bespaarprincipe is uiteindelijk simpel: hoe minder Claude bij elke beurt moet herlezen, hoe verder je komt, in zowel tokens als kwaliteit. Plan voor je schrijft. Houd gesprekken kort. Kies het model dat bij de taak past. Denk twee keer na voor je een PDF naar binnen sleept. En meet je verbruik onder Instellingen > Gebruik.

Wie deze gewoontes inbouwt, ziet het rode kader op vrijdagmiddag nauwelijks nog terug. Voor wie dan nog te krap zit, kan een tweede Pro-account vaak goedkoper uitpakken dan een sprong naar Max, zeker als je niet de volle vijf of twintig keer extra capaciteit gaat gebruiken.

Wil je deze werkwijze met je team verankeren? Plan een gesprek.

Volgende
Volgende

AI ontwapenen volgens paus Leo XIV