TOPlist

Tohle ChatGPT neumí: nový Claude Opus 4.8 dokáže přiznat vlastní chybu

Ilustrační vizuál k modelu Claude Opus 4.8 vygenerovaný v ChatGPT
  • Anthropic vydal Claude Opus 4.8, novou verzi svého nejschopnějšího veřejně dostupného modelu
  • Firma slibuje lepší práci s kódem, nástroji a dlouhými agentickými úkoly
  • Nejzajímavější novinkou je větší ochota modelu přiznat nejistotu nebo upozornit na vlastní chybu
  • Opus 4.8 je dostupný v Claude.ai i přes API, základní cena proti Opusu 4.7 zůstává stejná

Anthropic vydal Claude Opus 4.8, novou verzi svého nejsilnějšího veřejně dostupného modelu. Navazuje na Opus 4.7 a nejde o novou rodinu modelů, ale o rychlou iteraci vlajkové řady. Firma ji staví hlavně na lepším kódování, práci s nástroji a dlouhých úkolech, ve kterých se model nesmí po pár krocích ztratit.

Nejzajímavější na oznámení nejsou jen benchmarková čísla. Anthropic tvrdí, že Opus 4.8 má častěji poznat, kdy si není jistý, a upozornit na chybu ve vlastním výstupu. ChatGPT umí nejistotu přiznat také, ale Anthropic se u Opusu 4.8 chlubí konkrétním zlepšením proti předchozí generaci. Právě to je pro práci s AI důležitější než další desetiny v tabulce.

Benchmarky vypadají dobře, hlavně u agentů

V API má model označení claude-opus-4-8. Podle dokumentace Anthropicu podporuje kontextové okno o velikosti 1 milion tokenů v Claude API, Amazon Bedrocku a Vertex AI, zatímco v Microsoft Foundry zůstává limit 200 tisíc tokenů. Maximální výstup může mít až 128 tisíc tokenů.

Srovnání benchmarků modelu Claude Opus 4.8 s Opusem 4.7, GPT-5.5 a Gemini 3.1 Pro

Srovnání benchmarků modelu Claude Opus 4.8. Zdroj: Anthropic

V tabulce Anthropic srovnává Opus 4.8 s Opusem 4.7, GPT-5.5 a Gemini 3.1 Pro. Novinka si polepšila v agentickém kódování, práci s počítačem i praktických znalostních úlohách. U Terminal-Bench 2.1 sice podle grafu vede GPT-5.5, ale Opus 4.8 má být vyrovnanější v širší sadě testů.

Do Claude Code zároveň přibývají dynamická workflow v research preview. Claude má zvládnout naplánovat větší úkol, spustit stovky paralelních subagentů a výsledek před odevzdáním ověřit. Tahle funkce míří na tarify Enterprise, Team a Max, takže nejde o běžnou hračku pro každého. Pro vývojářské týmy je to ale dobrý náznak, kam Anthropic Clauda tlačí: méně chatovací okno, více pracovní nástroj pro delší úlohy.

Když si model raději řekne o kontrolu

Anthropic vedle výkonu zdůrazňuje poctivost modelu. Podle interních evaluací má Opus 4.8 zhruba čtyřikrát méně často nechat bez poznámky chybu v kódu, který sám napsal. Jinými slovy: když se model splete, má větší šanci říct, že výsledek potřebuje kontrolu, místo aby ho jen sebejistě poslal dál.

Graf Anthropicu ukazující nižší míru misaligned behavior u modelu Claude Opus 4.8

Graf z interních evaluací Anthropicu. „Misaligned behavior“ v něm označuje situace, kdy se model nechová podle záměru uživatele nebo bezpečnostních pravidel; nižší skóre je lepší. Zdroj: Anthropic

To může znít jako drobnost, jenže u práce s kódem, právními texty, finančními dokumenty nebo redakčními podklady jde o velmi praktickou vlastnost. AI, která se tváří jistě i ve chvíli, kdy si domýšlí, je horší než model, který si řekne o kontrolu. U běžného chatu se nad tím dá mávnout rukou, u delší práce už taková chyba stojí čas a někdy i peníze.

Na Claude.ai a v nástroji Cowork přibylo také ovládání úsilí, které Claude do odpovědi vloží. Nižší nastavení má být rychlejší a šetrnější k limitům, vyšší dává modelu víc prostoru pro složitější úvahy. V API je dostupný také fast mode, který má podle Anthropicu nabídnout až 2,5krát vyšší rychlost generování výstupu za vyšší cenu.

Pro běžné psaní, rešerše nebo úpravu textu nebude Opus 4.8 nutně důvodem okamžitě měnit návyky. Pokud ale necháváte model pracovat nad větším projektem, rozdíl mezi sebevědomou chybou a přiznanou nejistotou je přesně ten typ zlepšení, který se pozná až v praxi. A také důvod, proč se souboj mezi Claudem, ChatGPT a Gemini nebude rozhodovat jen podle toho, kdo odpoví rychleji.

Autor článku Ondřej Dolejš
Ondřej Dolejš
Nadšenec do smart technologií, aut, činek, sci-fi a své rodiny. Pořadí je variabilní. Bojím se oligopolu a věřím, že nejlepší verze produktu byla často ta předchozí.

Kapitoly článku