Anthropic přiznal měsíc degradace Claude Code – co se vlastně stalo

Anthropic přiznal měsíc degradace Claude Code – co se vlastně stalo

Od 4. 3. do 20. 4. 2026 běžely v Claude Code tři souběžné režimy degradace. Anthropic je v postmortemu rámuje jako bugy – dva ze tří ale byla záměrná rozhodnutí.

Jakub Kontra
Jakub Kontra
Developer

Od začátku března něco nesedělo. Claude Code přestával držet kontext napříč delšími sessions a opakoval kroky, které už udělal. K tomu nekonzistentně volil nástroje a rychleji spotřebovával usage limity. Mazal jsi CLAUDE.md, přepisoval prompty, zkoušel fallback na jiný model. Issues na GitHubu přibývaly, Anthropic ale mlčel. Vypadalo to, jako by se rozbil jen ten tvůj setup. Nerozbil – od 4. 3. 2026 do 20. 4. 2026 běžely v produkci tři překrývající se režimy degradace, a jen jeden z nich byl skutečný technický bug.

Timeline tří překryvů

Postižené jsou tři produkty: Claude Code, Claude Agent SDK a Claude Cowork. Samotné Anthropic API netknuté. Stella Laurenzo z AMD zveřejnila 2. 4. 2026 veřejný dataset telemetrie napříč 6 852 sessions, podle kterého reasoning depth Claude Code klesl o 67 %. V tu chvíli už byla v produkci první ze tří příčin měsíc a druhá týden.

Tři data popisují tři souběžné příčiny:

  • 4. 3. 2026 – Anthropic nasazuje Opus 4.6 a s ním stahuje default reasoning effort z high na medium.
  • 26. 3. 2026 – do produkce jde caching optimalizace, která se později ukáže jako bug.
  • 16. 4. 2026 – vychází Opus 4.7 s novým verbosity capem v system promptu.

A zbytek, co se mezi tím dělo:

      1. 2026 – Laurenzo publikuje telemetrii s 67% poklesem reasoning depth.
      1. 2026 – reasoning effort default je vrácen, nové hodnoty jsou xhigh pro Opus 4.7 a high pro ostatní modely.
      1. 2026 – caching bug je opraven ve verzi 2.1.101, tj. 15 dní po nasazení.
  • 13.–14. 4. 2026 – problém eskaluje v médiích.
      1. 2026 – verbosity cap je tiše pryč ve verzi 2.1.116.

Dvě další události už nepatří do mechaniky degradace, ale do jejích důsledků: 21. 4. 2026 byl Claude Code tiše stažen z Pro plánu pro některé nové signupy a 23. 4. 2026 Anthropic publikoval postmortem a resetoval usage limits pro předplatitele.

Tři příčiny, ne jedna

Caching bug. Projevovalo se to tím, co jsi viděl: model ztrácel vlastní reasoning context, opakoval kroky, které už udělal, nekonzistentně volil nástroje, spotřebovával limity rychleji a vypadalo to, že zapomněl, co rozhodl před deseti minutami. Technicky šlo o optimalizaci nasazenou 26. 3. 2026 (API header clear_thinking_20251015 s parametrem keep:1), která měla čistit thinking blocky jen z neaktivních sessions, konkrétně těch nečinných víc než hodinu. Ve skutečnosti čistila thinking context „every subsequent turn" po celý zbytek sessiony. Fix přišel 10. 4. 2026 ve verzi 2.1.101, tedy 15 dní po nasazení.

Reasoning effort default. Při spuštění Opus 4.6 snížil Anthropic 4. 3. 2026 default reasoning effort z high na medium. Odůvodnění znělo „slightly lower intelligence for significantly lower latency on most tasks". Interně to později sami popsali jako „špatný tradeoff". Po revertu 7. 4. 2026 jsou nové defaulty xhigh pro Opus 4.7 a high pro zbytek.

Verbosity cap. V system promptu Opus 4.7 přibyl text, který omezil komentář mezi tool commands na 25 slov a finální odpověď na 100 slov. Opus 4.7 působil interně moc upovídaně, širší testy ale podle Anthropic postmortemu z 23. 4. 2026 ukázaly 3% pokles kvality u code generation. Cap se do produkce dostal 16. 4. 2026 a zmizel o čtyři dny později ve verzi 2.1.116.

Bug versus rozhodnutí

V tomhle bodě postmortem přestává dávat smysl. Jen caching byl skutečný bug – kód se nechoval podle specifikace a po opravě se vrátil k zamýšlené logice. Zbylé dva incidenty jsou něco jiného.

Snížení reasoning effort defaultu z high na medium byl záměrný tradeoff, který si Anthropic i veřejně zdůvodnil citáty uvedenými výš. Verbosity cap v system promptu byl záměrná změna nasazená s vědomím, že zkracuje výstup; ablation test, který by ten 3% pokles v code generation zachytil, prostě neproběhl před rolloutem.

Dva ze tří „incidentů" byla záměrná rozhodnutí o redukci compute – tím se myslí, jednoduše řečeno, kolik GPU-sekund model reálně dostane na jeden request a kolik tokenů odpovědi zpátky vyprodukuje. Jen jeden byl bug. Postmortem z 23. 4. 2026 všechny tři rámuje pod jednou hlavičkou „degraded quality" a to není stylistický detail. Stírá rozdíl mezi nechtěným bugem a záměrným snížením inteligence.

Motivace přitom není úplně záhadná. Fortune reportoval 14. 4. 2026, že OpenAI interně popisuje Anthropic jako operujícího „on substantially smaller curve" v compute kapacitě, relativně k rostoucí poptávce. Anthropic to nekomentoval. Dává to kontext, proč by záměrné škrty latence a výstupu přicházely zrovna teď. Tiché stažení Claude Code z Pro plánu 21. 4. 2026 ukazuje stejným směrem.

Proč to nikdo uvnitř neviděl

Interní vyšetřování Anthropicu trvalo podle vlastního postmortemu „více než týden" po začátku aktivního examination. Dogfooding týmy nepoužívaly produkční build. Běžely na odlišné infrastruktuře – server-side message queuing, modified thinking display. Caching bug, který se projevuje až při produkčním routování a běžné délce sessions, se uvnitř firmy reprodukovat nedal. Anthropic sám argumentuje, že bugy bylo těžké reprodukovat mimo produkci. Výmluva to není; je to diagnóza strukturální slepé skvrny: tým, který si netestuje vlastní produkt na stejné cestě jako zákazník, nevidí, co zákazník vidí. Uživatelé reportovali od začátku března, oficiální přiznání přišlo o zhruba tři týdny později.

Co Anthropic slíbil a co ne

V postmortemu z 23. 4. 2026 Anthropic slibuje tohle: dogfooding týmy přejdou na public buildy místo izolovaných testovacích verzí; nasadí enhanced code review tools interně i externě; všechny system-prompt changes projdou ablation testingem per model; model-specific změny zůstanou izolované; tradeoffy typu „intelligence vs. other metrics" dostanou gradual rollout; komunikace poběží přes oficiální účet @ClaudeDevs na X a GitHub.

V seznamu chybí jedna položka. Není tam závazek předem oznámit záměrné produktové změny ovlivňující kvalitu. Tedy přesně to, co by adresovalo dva ze tří incidentů, které se právě staly. Ablation test zachytí 3% pokles, ale neřekne ti předem, že Anthropic snížil default reasoning effort kvůli latenci a compute rozpočtu. Stejný manévr Anthropic použil už v září 2025, kdy podobně dal pod jeden štítek routing bug a zpřísnění tokenového rozpočtu pro dlouhé kontexty.

Co si z toho vzít

Pokud platíš Max nebo Pro, jedna praktická věc pomáhá víc než cokoliv jiného: přestaň se spoléhat na postmortem jako jediný zdroj pravdy a začni si vést vlastní telemetrii. Laurenzo ukázala, že 6 852 vzorků stačí k jednoznačnému signálu; tobě bude stačit log počtu turnů, tool calls, kolikrát se model vrátil k něčemu, co už řešil, a ke kterému buildu to patří. Pinnutá verze Claude Code, kterou sis otestoval na reálné práci, ti zároveň dá čas rozhodnout se, jestli upgrade chceš – rozdíly mezi 2.1.101 a 2.1.116 nejsou kosmetické, a bez verzovaných dat nedokážeš říct, jestli se zhoršil model, nebo tvůj projekt.

Druhý bod se netýká nástrojů, ale toho, jak číst postmortem. Text z 23. 4. 2026 je věcně užitečný, ale je to zároveň rétorická operace – stírá hranici mezi „rozbili jsme to omylem" a „vypnuli jsme vám část inteligence, protože nám nesedí compute matematika, tedy poměr mezi dostupnou GPU kapacitou a tím, co jsme slíbili uživatelům". Jestli platíš za Max, přesně ten rozdíl si příště budeš chtít hlídat sám, protože to za tebe nikdo jiný neudělá.