Caveman vs context-mode: kleinere mond, of kleinere kamer?

De ene Claude Code plugin heeft 63.000 sterren. De andere 15.000. De plugin met vier keer zoveel publiek vraagt je om als een holbewoner te praten. De andere zet je tool output achter een FTS5-index in een sandbox. Het internet koos de grappige.

Prima. Het internet mag de grappige kiezen. De vraag is of jij dat ook zou moeten doen.

Ik draai context-mode nu al weken. Ondertussen zie ik Caveman overal trenden. Ze beloven hetzelfde op te lossen: agents branden je context window sneller op dan je geduld. Hun aanpak verschilt totaal. En het gat is groter dan de sterren suggereren.

Wat ze echt doen

Caveman is een system-prompt skill. Het zegt tegen de agent: laat lidwoorden, contracties, opvulling en "ik help je graag" weg. Drie niveaus (lite, full, ultra), plus een modus die in klassiek Chinees (Wenyan) schrijft voor de echt token-verslaafden. De repo staat op JuliusBrussee/caveman. Hun claim: 65% reductie op output tokens over tien benchmark prompts.

context-mode zit op de MCP-protocollaag. Als de agent een tool draait die normaal 56KB aan Playwright-snapshot of 11KB aan git log in je context dumpt, stuurt context-mode dat naar een sandboxed subproces. De ruwe data leeft daar. Alleen wat je hebt geprint (of waar je via FTS5 met BM25 op zoekt) belandt in je gesprek. De repo staat op mksglu/context-mode. Claim: 94–100% reductie op tool outputs.

Tot zover prima. Verschillende invalshoeken, beide echt. Laten we beter kijken.

De rekensom die niemand maakt

Een Claude Code sessie heeft meerdere token-bronnen. Ze zijn niet even groot.

Bron	Aandeel
File reads, tool outputs, web fetches, snapshots	Grootst
System prompt + CLAUDE.md + MCP tool descriptions	Gemiddeld
User prompts	Klein
Model output	Kleinst

Caveman comprimeert de onderste rij. Doet het goed. De maker zelf zegt 65%, en is eerlijk genoeg om in een [!IMPORTANT] callout te melden dat thinking tokens en input tokens onaangeraakt blijven. Onafhankelijke benchmarks komen uit op 30–50%, waarbij een simpele "be brief" prompt het meeste van de besparing al binnenhaalt.

context-mode comprimeert de bovenste rij. Het ding dat je context daadwerkelijk vol propt. De 986KB repo-research die 62KB wordt. De 56KB Playwright-snapshot die 299 bytes wordt. Dat is geen benchmark trucje. Dat is gewoon wat er gebeurt als de ruwe bytes niet eens in het gesprek terechtkomen.

Dit is het stuk dat niemand naast elkaar legt: output is grammen, tool output is kilo's. De kleinste token-bron met 65% comprimeren is nuttig. De grootste token-bron met 98% comprimeren is een andere categorie.

Wat Caveman zelf verraadt

Hier is het detail dat even moet landen.

De serieuze, niet-meme tools in het Caveman ecosysteem gaan niet over output. Ze gaan over input.

caveman-compress herschrijft je CLAUDE.md en memory files in caveman-taal. Claim: ~46% input token besparing per sessie-start. Dit is de runtime modus die stilletjes toegeeft waar het geld zit.
caveman-shrink is MCP middleware die tool-beschrijvingen comprimeert. Zelfde toegeving, andere laag.
cavecrew-* subagents zijn afgesteld om ~60% minder tokens te produceren. Output, maar dan op de subagent-grens, waar de main-context daadwerkelijk onder druk staat.

Niks mis mee. Het punt is: zodra Caveman serieus wordt over echt geld besparen, gaat het niet meer over de mond van het model, maar over de kamer waarin het model woont. Wat precies de kamer is waar context-mode zich al de hele tijd zorgen over maakt.

Het sterkste argument vóór Caveman

Caveman heeft echte voordelen. De installer is één regel. Auto-detect voor 30+ agents. Geen runtime infrastructuur nodig: geen Node 22.5, geen FTS5, geen MCP server, geen hook lifecycle om te debuggen. Het comprimeert het deel van de output dat jij daadwerkelijk leest, dus het maakt jouw sessie aangenamer, niet alleen goedkoper. En de meme verspreidt zich. Via memes reizen goede ideeën nu eenmaal het verst. De briljante papegaai hoeft niet grappig te zijn om gelijk te hebben, maar het helpt.

context-mode heeft echte frictie. Native sqlite, Node-versie eisen, hook-ondersteuning die per platform verschilt (Antigravity en Zed krijgen geen hooks, Codex slechts gedeeltelijke dekking). Als het werkt, werkt het onzichtbaar. Als het niet werkt, debug je een MCP transport laag om half tien 's avonds.

Wil je de goedkope, leuke, drop-in winst? Draai Caveman lite. Eerlijk. Probeer het. Vertel me dan dat je sessies niet lichter aanvoelen.

Waar ze botsen

Zodra je Caveman's serieuze tools stapelt (caveman-compress + caveman-shrink + cavecrew), ben je gestopt met het grappige stuk. Je draait input-side compressie op memory files, tool-beschrijvingen, en subagent-grenzen. Op dat moment los je hetzelfde probleem op als context-mode op de protocollaag, met minder complete tools.

De MCP-laag interceptie in context-mode vangt alles in één klap, structureel. De Caveman aanpak vangt het stuksgewijs op, gedragsmatig. Gedragsoplossingen vragen het model om zich beter te gedragen. Structurele oplossingen bouwen een muur zodat het model zichzelf niet kan verzuipen. De ene vertrouw je. De andere hoop je.

Dit is hetzelfde patroon waar ik telkens weer over schrijf. Vriendelijk vragen aan je agent schaalt niet. Lint regels boven beleefde suggesties ook niet, zoals ik betoogde in je agent lijdt onder je technische schuld. De discipline leeft in het systeem, niet in het verzoek.

Wat ik echt zou doen

Draai beide. Ze concurreren niet echt.

Gebruik context-mode voor het structurele probleem: tool outputs, file analyses, web fetches, MCP resultaten. De ruwe data moet je context window nooit zien. Punt.
Gebruik Caveman lite (niet full, niet ultra) voor het cosmetische probleem: proza dat je daadwerkelijk leest. Twintig keer per dag "Natuurlijk, ik help je graag" lezen is een eigen belasting, en die belasting betaal jij, niet de API.
Draai caveman-compress één keer over je CLAUDE.md. Eenmalige investering, betaalt zich elke sessie terug.
Sla caveman-shrink over als je context-mode draait, want MCP tool-beschrijvingen zijn al een bekend lek dat context-mode netter afhandelt.

Of, als je moet kiezen: kies de muur, niet de manieren.

Tot slot

Het internet beloont de grappige. Zo gaat het bijna altijd. Caveman's 63k sterren zijn een referendum over persoonlijkheid, niet over architectuur. Het is goede software en briljante meme-engineering tegelijk, wat zeldzaam is en respect verdient.

Maar sterren meten adoptie-snelheid, niet probleemoplossende diepte. De plugin die het kleinste lek dicht met een meme zal altijd harder trenden dan de plugin die het grootste lek dicht met een sandbox. Dat maakt de meme niet verkeerd. Het betekent dat de kamer belangrijker is dan de mond.

Kies de architectuur. De vibes zijn extra.

Wat ze echt doen ​

De rekensom die niemand maakt ​

Wat Caveman zelf verraadt ​

Het sterkste argument vóór Caveman ​

Waar ze botsen ​

Wat ik echt zou doen ​

Tot slot ​

Stop met vriendelijk vragen aan je agent

Je agent lijdt onder je technische schuld

Het CLAUDE.md Bestand: Geef Je AI Permanent Geheugen