Fable 5 je dvakrát dražší než Opus. Jenže dvojka je špatné číslo – oběma směry

Fable 5 je dvakrát dražší než Opus. Jenže dvojka je špatné číslo – oběma směry

Anthropic vypustil Claude Fable 5 za $10/$50 a půlka Twitteru uzavřela rozpočtovou debatu nad cenou za token. Jenže nový tokenizér, nevypnutelný thinking a refusal mechanika dělají z dvojky špatné číslo – nahoru i dolů. Počítat se musí cena za hotový výsledek.

Jakub Kontra
Jakub Kontra
Developer

Deset dolarů za milion vstupních tokenů, padesát za výstupní – první čísla, která jsem u Claude Fable 5 viděl, a zároveň ta nejmíň užitečná. Přesto právě nad nimi teď polovina Twitteru uzavírá rozpočtovou debatu větou „2× dražší než Opus, počkám". Já jsem si místo toho otevřel tabulku s loňskými fakturami za Opus a začal počítat. A vyšlo mi, že násobit loňský účet dvěma je chyba – směrem nahoru i dolů.

Dvakrát dražší než Opus. A co jako?

Nejdřív fakta. Anthropic v úterý 9. 6. 2026 vypustil Claude Fable 5: GA na Claude API, Bedrocku, Vertex AI i Microsoft Foundry, API id claude-fable-5. Ke jménům, ať v nich neplaveš: „Mythos-class" je nový tier nad třídou Opus, Fable 5 je jeho veřejný model a Claude Mythos 5 jeho zvláštní vydání. Mythos 5 běží na témže underlying modelu jako Fable, jen ho schválené organizace přes Project Glasswing dostávají bez části safeguardů: kyberbezpečnostní partneři mají vypnuté cyber klasifikátory, vybraní bio výzkumníci bio klasifikátory – cyber jim zůstávají. Není to tedy „model bez klasifikátorů", jen cíleně uvolněný v jedné doméně, a nahrazuje dosavadní invite-only Mythos Preview.

Cena tieru odpovídá: 10 dolarů za milion vstupních tokenů, 50 za výstupní, u obou modelů. Opus 4.8 stojí 5 a 25. Fable je tedy přesně 2× dražší za token. Kontextové okno 1M a 128K výstupu má mimochodem i Opus 4.8, takže parametry dvojnásobek nezdůvodňují; platíš za schopnost. Proti Mythos Preview je to podle Anthropicu méně než polovina ceny, takže směr je dolů, ne nahoru.

Dvě provozní podmínky rovnou sem, protože u některých compliance režimů rozhodují dřív než cena: platí povinná 30denní retence dat (zero data retention nejde sjednat) a na tvých datech se netrénuje. Model navíc prošel přes 1 000 hodin externího red-teamingu a univerzální jailbreak se nenašel.

Jenže „2× dražší za token" a „2× dražší provoz" jsou dvě různé věty. Mezi nimi sedí tři položky, které ceník neukazuje.

Položka první: tokeny už nejsou tvoje tokeny

Fable 5 má nový tokenizér. Stejný obsah se rozpadne zhruba na o 30 % víc tokenů než na Opus-tier modelech. Přesná delta se liší podle workloadu a nikdo ti ji neslíbí. Praktický důsledek: všechny token county, které máš v dashboardech a tabulkách z Opusu, pro Fable neplatí. Tvůj „milion tokenů" už není ten samý milion.

Dobrá zpráva: dá se to změřit předem a zadarmo, počítání tokenů se neúčtuje. Endpoint count_tokens vrací při dotazu s model: "claude-fable-5" počty pod oběma tokenizéry naráz: input_tokens pro nový a input_tokens_prior_tokenizer pro starý. Prožeň přes něj svoje reálné prompty a máš vlastní deltu místo cizího odhadu.

Položka druhá: přemýšlení se nevypíná

Opus 4.8 přemýšlí taky, jen tam jde thinking vypnout. U Fable 5 ne: adaptivní přemýšlení je vždy zapnuté a vždy účtované a pokus poslat thinking: {type: "disabled"} skončí na HTTP 400. Surový chain-of-thought nedostaneš; přes display: "summarized" dostaneš aspoň čitelné shrnutí, ale účtují se i tokeny, které zůstanou skryté. Ladíš jen output_config.effort, od low po max.

A s effortem souvisí i provozní realita, kterou si do ceny málokdo započítá: single request na vysokém effortu běžně potrvá i 15 minut. To znamená streaming, async UX a pořádné timeouty. Jinak ti aplikace nepoběží. Přepsání synchronního „request–response" kódu je taky položka rozpočtu, jen se neměří v dolarech za token.

Položka třetí: refusal a fallback, čili člen „počet pokusů"

Třetí položka není násobič ceny za token – patří přímo do členu „počet pokusů" rovnice. Co se stane, když model odmítne? Fable 5 jede s bezpečnostními klasifikátory ve třech doménách: cyber (ofenzivní kyberbezpečnost), bio (třeba virový design) a reasoning_extraction (extrakce reasoningu pro distilaci). Podle Anthropicu se spouštějí u méně než 5 % relací; to je průměr napříč provozem, ne garance pro tvůj workload. A občas zachytí i neškodný sousední požadavek. Nejčastěji to schytá security tooling nebo life sciences.

Férově: před-výstupní refusal se neúčtuje a přijde jako HTTP 200 se stop_reason: "refusal". Tvůj kód s tím má počítat jako se stavem, ne s výjimkou. Pozor ale na jednu variantu: refusal může přijít i uprostřed streamu a výstupní tokeny vystreamované do té chvíle už zaplatíš. Je to jediné zpoplatněné odmítnutí, takže si zaslouží vlastní řádek v nákladovém modelu.

Počítat s refusalem znamená mít fallback navržený a naceněný předem, ne improvizovaný, až ti spadne první produkční běh. Možnosti jsou tři: server-side parametr fallbacks (beta, vyřídí se v jednom round-tripu), middleware v SDK, nebo ruční retry s „fallback creditem", který ti refunduje cache-write náklad přechodu. Jediný podporovaný cíl je claude-opus-4-8; fallback řetězec máš tedy nalinkovaný.

Rovnice, kterou ceník neukazuje

Cena hotového výsledku není cena za token. Je to zhruba: (tokeny × tokenizér × thinking) × počet pokusů + lidský dohled. První dvě položky jsou v první závorce, refusal a fallback v počtu pokusů; ceník ti z toho ukazuje jen kus první závorky.

Že je tahle rovnice reálná, není novinka Fable 5. Ceníky reasoning modelů podhodnocují skutečnou cenu provozu 5–30× už dnes a v agentních workloadech převyšují vstupní tokeny ty výstupní 20–25×. Akademicky to kvantifikuje paper Tokenomics. Jediná agentní úloha tak klidně spotřebuje víc tokenů než týden chatování. Tvůj nákladový model lhal už u stávajících modelů. Fable to jen zviditelnil, protože čísla na ceníku jsou větší.

Z toho ale plyne i opačná možnost: 2× dražší model může vyjít levněji. Pokud srazí počet pokusů ze tří na jeden a sníží lidský dohled nad výsledkem, druhá část rovnice klesne víc, než první vzroste. Benchmarky tomu nasvědčují: SOTA skoro všude, nejdéle autonomně pracující Claude model, a Stripe v oznámení Anthropicu mluví o tom, že jim „stlačil měsíce inženýrské práce do dnů". Jenže nasvědčují není dokazují. Pro tvůj workload to nikdo nezměřil. Můžeš jen ty.

Co s tím v pondělí

Žádná velká strategie, tři kroky:

  1. Změř deltu tokenizéru. Prožeň reálné prompty přes count_tokens s model: "claude-fable-5" a porovnej input_tokens s input_tokens_prior_tokenizer. Zadarmo, půl hodiny práce, a máš vlastní číslo místo „asi +30 %".
  2. Pilot na jedné drahé úloze – dvakrát. Vyber úlohu, kde dnes platíš nejvíc retry a lidského dohledu, a pusť ji na Fable jednou s nižším a jednou s vyšším effortem. Nižší effort šetří thinking tokeny, vyšší zvedá šanci na úspěch napoprvé; který vyhraje, ti řekne jen měření obou běhů. Nezapomeň na streaming, timeouty a obsluhu stop_reason: "refusal" s fallbackem na Opus 4.8.
  3. Měř cenu za dokončený výsledek, ne za token. Kolik stál hotový výstup včetně pokusů a kontroly – na Opusu i na Fable. Pak teprve srovnávej.

Až budeš mít tahle tři čísla, zjistíš, že z té dvojky na ceníku nezbylo nic. Tvůj reálný násobek může být čtyřka i nula celá osm – a teprve s ním má smysl rozhodovat, jestli migrovat.