Deset dolarů za milion vstupních tokenů, padesát za výstupní – první čísla, která jsem u Claude Fable 5 viděl, a zároveň ta nejmíň užitečná. Přesto právě nad nimi teď polovina Twitteru uzavírá rozpočtovou debatu větou „2× dražší než Opus, počkám". Já jsem si místo toho otevřel tabulku s loňskými fakturami za Opus a začal počítat. A vyšlo mi, že násobit loňský účet dvěma je chyba – směrem nahoru i dolů.
Dvakrát dražší než Opus. A co jako?
Nejdřív fakta. Anthropic v úterý 9. 6. 2026 vypustil Claude Fable 5: GA na Claude API, Bedrocku, Vertex AI i Microsoft Foundry, API id claude-fable-5. Ke jménům, ať v nich neplaveš: „Mythos-class" je nový tier nad třídou Opus, Fable 5 je jeho veřejný model a Claude Mythos 5 jeho zvláštní vydání. Mythos 5 běží na témže underlying modelu jako Fable, jen ho schválené organizace přes Project Glasswing dostávají bez části safeguardů: kyberbezpečnostní partneři mají vypnuté cyber klasifikátory, vybraní bio výzkumníci bio klasifikátory – cyber jim zůstávají. Není to tedy „model bez klasifikátorů", jen cíleně uvolněný v jedné doméně, a nahrazuje dosavadní invite-only Mythos Preview.
Cena tieru odpovídá: 10 dolarů za milion vstupních tokenů, 50 za výstupní, u obou modelů. Opus 4.8 stojí 5 a 25. Fable je tedy přesně 2× dražší za token. Kontextové okno 1M a 128K výstupu má mimochodem i Opus 4.8, takže parametry dvojnásobek nezdůvodňují; platíš za schopnost. Proti Mythos Preview je to podle Anthropicu méně než polovina ceny, takže směr je dolů, ne nahoru.
Dvě provozní podmínky rovnou sem, protože u některých compliance režimů rozhodují dřív než cena: platí povinná 30denní retence dat (zero data retention nejde sjednat) a na tvých datech se netrénuje. Model navíc prošel přes 1 000 hodin externího red-teamingu a univerzální jailbreak se nenašel.
Jenže „2× dražší za token" a „2× dražší provoz" jsou dvě různé věty. Mezi nimi sedí tři položky, které ceník neukazuje.
Položka první: tokeny už nejsou tvoje tokeny
Fable 5 má nový tokenizér. Stejný obsah se rozpadne zhruba na o 30 % víc tokenů než na Opus-tier modelech. Přesná delta se liší podle workloadu a nikdo ti ji neslíbí. Praktický důsledek: všechny token county, které máš v dashboardech a tabulkách z Opusu, pro Fable neplatí. Tvůj „milion tokenů" už není ten samý milion.
Dobrá zpráva: dá se to změřit předem a zadarmo, počítání tokenů se neúčtuje. Endpoint count_tokens vrací při dotazu s model: "claude-fable-5" počty pod oběma tokenizéry naráz: input_tokens pro nový a input_tokens_prior_tokenizer pro starý. Prožeň přes něj svoje reálné prompty a máš vlastní deltu místo cizího odhadu.
Položka druhá: přemýšlení se nevypíná
Opus 4.8 přemýšlí taky, jen tam jde thinking vypnout. U Fable 5 ne: adaptivní přemýšlení je vždy zapnuté a vždy účtované a pokus poslat thinking: {type: "disabled"} skončí na HTTP 400. Surový chain-of-thought nedostaneš; přes display: "summarized" dostaneš aspoň čitelné shrnutí, ale účtují se i tokeny, které zůstanou skryté. Ladíš jen output_config.effort, od low po max.
A s effortem souvisí i provozní realita, kterou si do ceny málokdo započítá: single request na vysokém effortu běžně potrvá i 15 minut. To znamená streaming, async UX a pořádné timeouty. Jinak ti aplikace nepoběží. Přepsání synchronního „request–response" kódu je taky položka rozpočtu, jen se neměří v dolarech za token.
Položka třetí: refusal a fallback, čili člen „počet pokusů"
Třetí položka není násobič ceny za token – patří přímo do členu „počet pokusů" rovnice. Co se stane, když model odmítne? Fable 5 jede s bezpečnostními klasifikátory ve třech doménách: cyber (ofenzivní kyberbezpečnost), bio (třeba virový design) a reasoning_extraction (extrakce reasoningu pro distilaci). Podle Anthropicu se spouštějí u méně než 5 % relací; to je průměr napříč provozem, ne garance pro tvůj workload. A občas zachytí i neškodný sousední požadavek. Nejčastěji to schytá security tooling nebo life sciences.
Férově: před-výstupní refusal se neúčtuje a přijde jako HTTP 200 se stop_reason: "refusal". Tvůj kód s tím má počítat jako se stavem, ne s výjimkou. Pozor ale na jednu variantu: refusal může přijít i uprostřed streamu a výstupní tokeny vystreamované do té chvíle už zaplatíš. Je to jediné zpoplatněné odmítnutí, takže si zaslouží vlastní řádek v nákladovém modelu.
Počítat s refusalem znamená mít fallback navržený a naceněný předem, ne improvizovaný, až ti spadne první produkční běh. Možnosti jsou tři: server-side parametr fallbacks (beta, vyřídí se v jednom round-tripu), middleware v SDK, nebo ruční retry s „fallback creditem", který ti refunduje cache-write náklad přechodu. Jediný podporovaný cíl je claude-opus-4-8; fallback řetězec máš tedy nalinkovaný.
Rovnice, kterou ceník neukazuje
Cena hotového výsledku není cena za token. Je to zhruba: (tokeny × tokenizér × thinking) × počet pokusů + lidský dohled. První dvě položky jsou v první závorce, refusal a fallback v počtu pokusů; ceník ti z toho ukazuje jen kus první závorky.
Že je tahle rovnice reálná, není novinka Fable 5. Ceníky reasoning modelů podhodnocují skutečnou cenu provozu 5–30× už dnes a v agentních workloadech převyšují vstupní tokeny ty výstupní 20–25×. Akademicky to kvantifikuje paper Tokenomics. Jediná agentní úloha tak klidně spotřebuje víc tokenů než týden chatování. Tvůj nákladový model lhal už u stávajících modelů. Fable to jen zviditelnil, protože čísla na ceníku jsou větší.
Z toho ale plyne i opačná možnost: 2× dražší model může vyjít levněji. Pokud srazí počet pokusů ze tří na jeden a sníží lidský dohled nad výsledkem, druhá část rovnice klesne víc, než první vzroste. Benchmarky tomu nasvědčují: SOTA skoro všude, nejdéle autonomně pracující Claude model, a Stripe v oznámení Anthropicu mluví o tom, že jim „stlačil měsíce inženýrské práce do dnů". Jenže nasvědčují není dokazují. Pro tvůj workload to nikdo nezměřil. Můžeš jen ty.
Co s tím v pondělí
Žádná velká strategie, tři kroky:
- Změř deltu tokenizéru. Prožeň reálné prompty přes
count_tokenssmodel: "claude-fable-5"a porovnejinput_tokenssinput_tokens_prior_tokenizer. Zadarmo, půl hodiny práce, a máš vlastní číslo místo „asi +30 %". - Pilot na jedné drahé úloze – dvakrát. Vyber úlohu, kde dnes platíš nejvíc retry a lidského dohledu, a pusť ji na Fable jednou s nižším a jednou s vyšším effortem. Nižší effort šetří thinking tokeny, vyšší zvedá šanci na úspěch napoprvé; který vyhraje, ti řekne jen měření obou běhů. Nezapomeň na streaming, timeouty a obsluhu
stop_reason: "refusal"s fallbackem na Opus 4.8. - Měř cenu za dokončený výsledek, ne za token. Kolik stál hotový výstup včetně pokusů a kontroly – na Opusu i na Fable. Pak teprve srovnávej.
Až budeš mít tahle tři čísla, zjistíš, že z té dvojky na ceníku nezbylo nic. Tvůj reálný násobek může být čtyřka i nula celá osm – a teprve s ním má smysl rozhodovat, jestli migrovat.
