De token-belasting: ik trek mijn Caveman-advies in

Zes dagen geleden raadde ik je aan om Caveman lite bovenop context-mode te draaien, caveman-compress over je CLAUDE.md te halen, en het een stack te noemen. De Caveman-helft daarvan trek ik in.

Het "draai ze allebei"-verhaal klopte niet. De rekensom laat zien waarom. Hier is die rekensom.

Wat de installatie je echt kost

Elke Claude Code-sessie begint nog voordat je iets hebt getypt. De system prompt laadt. CLAUDE.md laadt. MCP tool-beschrijvingen registreren. Skills doen auto-discover. Hook-scripts haken zichzelf vast. Niks daarvan heeft op dat moment al werk voor je gedaan. Alles staat in je context window en tikt tegen je budget.

Zo ziet de gestapelde install van Caveman plus context-mode plus een fatsoenlijke CLAUDE.md eruit bij sessie-start, uit een van mijn eigen sessies:

Onderdeel	~Tokens
13 SKILL.md bestanden (auto-discovery)	~7.100
Routing-block / sessionstart-injectie	~1.020
MCP tool-beschrijvingen (11 tools)	~3.000
Overhead vóór het echte werk	~11.000

Jouw getallen zijn anders. De vorm niet. Elfduizend tokens voordat je het model iets gevraagd hebt. Dat is het entreegeld.

De break-even die niemand wil uitrekenen

Caveman belooft 65% reductie op output-tokens. Onafhankelijke benchmarks komen uit op 30 à 50%, waarbij een simpele "wees beknopt"-prompt het meeste van die besparing al binnenhaalt. De vorige post zei dat ook. Dat klopt nog steeds.

Stapel nu de kosten.

Output-besparing wordt per antwoord gerealiseerd, op de kleinste token-categorie in de sessie.
De installatiebelasting betaal je per sessie, voordat er überhaupt een antwoord bestaat.

Bij korte sessies haal je de installatie nooit terug. Bij lange, kletsende sessies misschien wel. Bij de typische dag waarop je Claude opent, drie vragen stelt, weer afsluit, en twee uur later opnieuw begint voor iets anders: zes keer belasting betaald, twee keer terugverdiend. Onder de streep verlies.

Die 65% verbergt dit zodra je het als besparing presenteert. Natuurlijk produceert het model minder output-tokens als je het opdraagt om als holbewoner te praten. Datzelfde model moet wel eerst een skill-bundel van 7K lezen om te leren hoe een holbewoner praat. Die bundel laadt, of je de skill nu gebruikt of niet.

context-mode overleeft deze kritiek

Ik wil precies zijn over welke helft van het advies blijft staan.

context-mode heeft ook installatiekosten. De MCP tool-beschrijvingen wonen in dezelfde auto-loaded laag. Maar de vergelijking gaat:

De belasting van context-mode: een vast bedrag aan tool-beschrijvingen, één keer per sessie.
De terugverdientijd van context-mode: één Playwright-snapshot van 56KB, of 11KB aan git log, of een repo-research-dump van 986KB uit een subagent, wordt naar de sandbox gestuurd en komt nooit in je context window. Eén dump die je voorkomt, betaalt de installatie meerdere keren terug.

Als je in een sessie noemenswaardig tool-werk doet, klopt de tokenomics van context-mode. De besparing zit op de grootste token-categorie. De installatiekosten zijn een afrondingsfout vergeleken met het lek dat ze dichten.

Voor Caveman klopt de tokenomics alleen als je in één sessie veel tegen het model praat, tussendoor niet opnieuw begint, en elk woord van elk antwoord ook echt leest. Zo werken de meeste mensen niet.

Het patroon: auto-discovery is een verborgen kostenpost

Hier is wat de Caveman-zaak me liet zien over het hele plugin-ecosysteem.

Alles wat automatisch in je system prompt laadt, moet zichzelf eerst terugverdienen. Skill-discovery, MCP tool-registratie, hook-injectie, sessionstart-payloads, plugin-manifests. Allemaal stil. Niks ervan duikt op in het antwoord van het model. Allemaal in je context window, voordat je iets typte.

De kosten zijn gegarandeerd en vooraan. De besparingen zijn voorwaardelijk en achteraan.

Dit is geen argument tegen tooling. Het is een argument tegen het stapelen van tooling. Elke plugin die je toevoegt voelt gratis bij installatie en kost je voor altijd bij runtime. De juiste vraag is nooit "is deze plugin nuttig." De juiste vraag is "is deze plugin nuttig genoeg om in elke sessie te zitten, ook de sessies waarin ik 'm niet ga aanraken."

Voor Caveman is mijn antwoord veranderd. De output-besparing op de conversatielaag weegt niet op tegen het feit dat hij bij elke sessie aanwezig moet zijn, ook de korte waarin ik gewoon één vraag wil stellen en weer weg ben.

Wat ik nu echt zou aanraden

Gooi Caveman eruit. Helemaal. Lite, full, ultra, compress, shrink, de hele cavecrew. De output-besparing overleeft de installatiebelasting niet bij normale sessie-vormen.
Houd context-mode als je tool-zwaar werk doet. Web fetches, Playwright runs, grote grep-dumps, dikke file reads, MCP-zware dagen. Als die regelmatig voorkomen, betaalt de sandbox zich snel terug. Zo niet: gooi het ook eruit.
Snoei je CLAUDE.md keihard. Elke regel daar staat in elke sessie. Behandel het als de rekening die het is.
Audit je skills. Tel wat er auto-laadt. Als je een skill niet bij elke sessie-start zou willen betalen, hoort die niet auto-discoverable te zijn. Zet 'm achter expliciete aanroep.
Comprimeer pas als je een lek meet, niet preventief. Pak tooling aan voor problemen die je kunt aantonen, niet voor problemen waar je over las.

Algemeen principe: schrale defaults verslaan slimme plugins. De goedkoopste manier om tokens te besparen is om geen tokens te laden die je niet nodig hebt.

Dit is dezelfde les die ik telkens weer tegenkom. Vriendelijk vragen aan je agent schaalt niet. Een plugin toevoegen die namens jou vriendelijk vraagt aan je agent schaalt evenmin, want die plugin moet zelf in de prompt staan om dat namens jou te kunnen doen. En aan de outputkant geldt hetzelfde: agents die HTML in plaats van Markdown schrijven betalen die rekening in drie tot vijf keer zoveel tokens.

De centrale ironie

Het ding dat je context zou redden, is het eerste dat 'm opvreet. Dat is wat ik miste in de vorige post. Ik was zo gefocust op wat context-mode goed doet, en wat Caveman aan de output-kant bespaart, dat ik nooit optelde wat de stack je kost voordat je begint.

Elfduizend tokens "ik heb nog niks gedaan" is een getal waar iedereen die een token-besparing verkoopt even bij stil zou moeten staan voordat hij publiceert.

De les is breder. Het lek dat je ziet, is zelden waar de kosten zitten. Bij plugin-gedreven AI-tooling krijg je de rekening al voor het werk begint. Kijk naar de bon bij sessie-start, niet naar de besparingen op de output die je leest.

Kies de architectuur, prima. Maar tel die architectuur eerst op.

Wat de installatie je echt kost ​

De break-even die niemand wil uitrekenen ​

context-mode overleeft deze kritiek ​

Het patroon: auto-discovery is een verborgen kostenpost ​

Wat ik nu echt zou aanraden ​

De centrale ironie ​

Claude Code permissions instellen: de gids die ik miste

Een goede Claude Code subagent schrijven

Hoe je een goede Claude Code skill schrijft