·6m leestijd·1,117 woorden·

De benchmarks zeiden 'frontier'. Ontwikkelaars zeiden 'dom'.

Gemini 3.5 Flash topte op dag één MCP Atlas, Toolathlon en CharXiv. De ochtend erna stond op Google's eigen forum een ontleding van een model dat 776 stappen lang in een lus hing. Het gat tussen de benchmark en het werk is geen bug.

Gemini 3.5 Flash ging live op Google I/O, 19 mei 2026. De volgende ochtend stond er op Google's eigen AI Developers Forum een forensische ontleding met als titel "Antigravity 2.0..... lackluster? Gemini 3.5 Flash seems.... dumb". De thread staat er nog.

De eerste echte taak van de ontwikkelaar: een voorgestelde AI-architectuur verifiëren met een eigen workflow.

Wat Flash deed: 776 stappen. 194 model-responses. 160 keer een bestand inlezen. 4 daadwerkelijke commando's. 2 keer een bestand geschreven.

Een lees-schrijf-verhouding van 80 op 1. Vier complete herstart-cycli waarin het model dezelfde LaTeX-bestanden opnieuw ging lezen. Bij iedere context-compactie raakte het kwijt wat het al gedaan had en begon het opnieuw. En opnieuw. En opnieuw.

Om uit te vissen wat er gebeurd was, schakelde de ontwikkelaar over naar Opus 4.6 en liet die de logs lezen. De diagnose kwam van de concurrent.

Dat is het launch-verhaal.

Op papier klopt het verhaal van Flash

Pak de model card erbij en de pitch klopt gewoon. Gemini 3.5 Flash topt MCP Atlas op 83,6%, Toolathlon op 56,5%, CharXiv Reasoning op 84,2%, en zet 1656 Elo neer op GDPval-AA. Het verslaat Gemini 3.1 Pro op de meeste benchmarks. Op een paar gaat het zelfs gelijk op met Claude Opus 4.7 en GPT-5.5. Sundar Pichai noemde het "frontier intelligence with action."

The New Stack draaide de kop. Seeking Alpha kopte "surpasses GPT-5.5 in agentic benchmarks." De grafiek, de balken, de groene vinkjes. Allemaal echt.

En toen drukte een ontwikkelaar op Enter en keek hij het model een uur lang rondjes draaien.

Wat benchmarks meten, en wat niet

Wat ik mensen blijf vertellen over benchmarks: ze zijn echt, en ze zijn niet wat je denkt dat ze zijn.

MCP Atlas meet of een model, in een gecontroleerd harness, op taken die ontworpen zijn voor een specifieke tool-use-vorm, ongeveer de juiste token-volgorde produceert om de taak af te ronden. Dat is een nuttige capaciteit. Die wordt elk jaar daadwerkelijk beter. Ik betwist de score niet.

Echt engineering-werk meet of het agent:

  • Herstelt van context-compactie zonder geheugenverlies
  • Doorheeft dat het op cyclus 1 al sympy_verification.py heeft geschreven voordat het op cyclus 4 opnieuw elk input-bestand gaat lezen
  • Tussenstand naar disk schrijft zodat de loop een context-flush overleeft
  • Een taak opsplitst tussen subagents wanneer die tools beschikbaar zijn
  • Merkt wanneer het vastloopt en het patroon doorbreekt

Niets daarvan zit in MCP Atlas. Niets daarvan zit in Toolathlon. Dat kan ook niet, want het benchmark-harness draait korte, gecontroleerde, geïsoleerde taken en het harness doet de boekhouding die in productie kapot gaat. De diagnose op het forum is hier vlijmscherp: "Dit is geen model-intelligentie-probleem. Dit is een platform-engineering-gat."

De benchmark loog niet. Hij mat alleen iets dat jouw werk niet was.

Het subagent-verhaal is de smoking gun

Hier wordt het pijnlijk. De I/O 2026-keynote van Google bouwde het Antigravity 2.0-verhaal op rond multi-agent orchestratie: subagents opspinnen, werk delegeren, parallel werken. Dat was de demo. Dat was de wow.

In de sessie van de ontwikkelaar had Flash invoke_subagent, define_subagent en manage_subagents in zijn toolset. Het gebruikte er geen van. Het bleef rondjes draaien in zijn eigen context, bestanden lezen die het al gelezen had, werk plannen dat het al gepland had.

Een werkend subagent-systeem zou een research-subagent hebben opgespind om de LaTeX-bestanden één keer in te lezen, een samenvatting naar disk hebben geschreven, en de orchestrator-context schoon hebben gehouden. Flash had de tools. Het had alleen niet de strategische redenering om ze te gebruiken.

Dat gat staat niet op het benchmark-blad. Natuurlijk niet. MCP Atlas vraagt niet "heeft het model deze taak vrijwillig opgeknipt." Het vraagt "heeft het model de verwachte output geproduceerd." Twee verschillende vragen, en je betaalt er maar voor één.

Voor wie is die benchmark eigenlijk

Hier is het stuk dat niemand hardop zegt. Benchmark-overwinningen zijn niet voor jou.

Ze zijn voor de slide die voor een CTO landt die een leverancierswissel moet verantwoorden. Ze zijn voor het procurement-team dat rijen in een spreadsheet vergelijkt. Ze zijn voor de analist die een cijfer nodig heeft voor een rapport. Ze zijn voor het persbericht dat om 9:01 op launch-dag in The New Stack staat.

Het model wordt vervolgens gebruikt door een ontwikkelaar op regel 5 van een Antigravity-sessie, op een echte taak, met zijn eigen bestanden, onder druk van context-limieten. Die ontwikkelaar zit stroomafwaarts van een sales-traject, niet in het publiek ervan.

Dit is geen Google-probleem. Anthropic doet het. OpenAI doet het. De hele industrie draait op benchmark-als-marketing, met model-als-product als tweede-orde-gevolg. Dat misalignment is geen bug die ze in 3.5 Flash 2 oplossen. Dat is de go-to-market.

Als je dat ongemakkelijk vindt: mooi. Het heeft dezelfde vorm als het papegaaienprobleem en het gat tussen prompt en spec. Het verkochte ding en het werkende ding zijn niet hetzelfde ding, en het verschil is waar het geld zit.

De prijs-twist

Even tussendoor. Gemini 3.5 Flash is 3x de prijs van Gemini 3 Flash Preview en 6x Flash-Lite, zoals Simon Willison op dag één opmerkte. $1,50 per miljoen input-tokens, $9 per miljoen output. Dat schurkt tegen de prijs van Gemini 3.1 Pro aan.

GPT-5.5 was 2x GPT-5.4. Opus 4.7 is grofweg 1,46x Opus 4.6.

Alle drie de labs testen wat jij wil betalen, en jij betaalt het. De aanname is dat benchmark-overwinningen de prijsverhoging rechtvaardigen. Die aanname werkt alleen als je niet doorhebt dat die overwinningen verdampen zodra context-compactie meedoet.

Wat je in plaats daarvan kunt doen

Lees benchmarks als specsheets, niet als consumentenrecensies. Een specsheet vertelt je waar het ding voor ontworpen is in een gecontroleerde omgeving. Het vertelt je niet of het een dinsdag overleeft.

Draai dan je eigen evals. Geen synthetische. Echte. Op je eigen codebase, met je eigen tools, op taken die langer duren dan de demo. Meet wat er echt toe doet: completion-ratio op multi-uur-taken, herstel van compactie, loop-detectie, nuttige subagent-delegatie. Score dezelfde taak op drie modellen, inclusief een goedkope. Kijk hoe je aanname over welke "het beste" is uit elkaar valt.

Je eindigt met een andere shortlist dan in de press deck. Dat is het hele punt.

Kies de kop

De eerste echte taak van een ontwikkelaar op Gemini 3.5 Flash deed Google's vlaggenschip in een vier-cyclus-loop crashen. Hij moest een model van de concurrent gebruiken om de post-mortem te schrijven. De thread staat nog gepind op Google's eigen forum.

Het persbericht zei: surpasses GPT-5.5 in agentic benchmarks.

Kies zelf maar wat het launch-verhaal is.