TOPlist

Tohle ChatGPT neumí: nový Claude Opus 4.8 dokáže přiznat vlastní chybu

Ilustrační vizuál k modelu Claude Opus 4.8 vygenerovaný v ChatGPT
  • Anthropic vydal Claude Opus 4.8, novou verzi svého nejschopnějšího veřejně dostupného modelu
  • Firma slibuje lepší práci s kódem, nástroji a dlouhými agentickými úkoly
  • Za pozornost stojí hlavně větší ochota modelu přiznat nejistotu nebo upozornit na vlastní chybu
  • Opus 4.8 je dostupný v Claude.ai i přes API, základní cena proti Opusu 4.7 zůstává stejná

Anthropic vydal Claude Opus 4.8, novou verzi svého nejvýkonnějšího veřejně dostupného modelu. Navazuje na Opus 4.7 a nejde o novou rodinu modelů, ale o rychlou iteraci vlajkové řady. Firma ji staví hlavně na lepším kódování, práci s nástroji a dlouhých úkolech, ve kterých se model nesmí po pár krocích ztratit.

Zajímavější než samotné benchmarky je slib, že Opus 4.8 častěji pozná vlastní nejistotu a upozorní na chybu ve vlastním výstupu. ChatGPT umí nejistotu přiznat také, ale Anthropic se u Opusu 4.8 chlubí konkrétním zlepšením proti předchozí generaci. Pro reálnou práci s AI to často znamená víc než pár bodů navíc v benchmarku.

Benchmarky vypadají dobře, hlavně u agentů

V API má model označení claude-opus-4-8. Podle dokumentace Anthropicu podporuje kontextové okno o velikosti 1 milion tokenů v Claude API, Amazon Bedrocku a Vertex AI, zatímco v Microsoft Foundry zůstává limit 200 tisíc tokenů. Maximální výstup může mít až 128 tisíc tokenů.

Srovnání benchmarků modelu Claude Opus 4.8 s Opusem 4.7, GPT-5.5 a Gemini 3.1 Pro

Srovnání benchmarků modelu Claude Opus 4.8. Zdroj: Anthropic

V tabulce Anthropic srovnává Opus 4.8 s Opusem 4.7, GPT-5.5 a Gemini 3.1 Pro. Novinka si polepšila v agentickém kódování, práci s počítačem i praktických znalostních úlohách. U Terminal-Bench 2.1 sice podle grafu vede GPT-5.5, ale Opus 4.8 má být vyrovnanější v širší sadě testů.

Do Claude Code zároveň přibývají dynamická workflow v research preview. Claude má zvládnout naplánovat větší úkol, spustit stovky paralelních subagentů a výsledek před odevzdáním ověřit. Tahle funkce míří do tarifů Enterprise, Team a Max, takže nejde o běžnou hračku pro každého. Pro vývojářské týmy je to ale dobrý náznak, že Anthropic Clauda posouvá od běžného chatovacího okna k nástroji, který má zvládat větší kus práce bez neustálého navádění.

Když si model raději řekne o kontrolu

Anthropic vedle výkonu zdůrazňuje poctivost modelu. Podle interních evaluací má Opus 4.8 zhruba čtyřikrát méně často nechat bez poznámky chybu v kódu, který sám napsal. Jinými slovy: když se model splete, má větší šanci říct, že výsledek potřebuje kontrolu, místo aby ho jen sebejistě poslal dál.

Graf Anthropicu ukazující nižší míru misaligned behavior u modelu Claude Opus 4.8

Graf z interních evaluací Anthropicu. „Misaligned behavior“ v něm označuje situace, kdy se model nechová podle záměru uživatele nebo bezpečnostních pravidel; nižší skóre je lepší. Zdroj: Anthropic

U krátké odpovědi to tolik nevadí. U kódu, právních textů, finančních dokumentů nebo redakčních podkladů už sebejistá chyba znamená ztracený čas a někdy i peníze. AI, která si v takové chvíli řekne o kontrolu, je užitečnější než model, který chybu jen sebejistě pošle dál.

V Claude.ai a nástroji Cowork přibylo také ovládání úsilí, které Claude do odpovědi vloží. Nižší nastavení má být rychlejší a šetrnější k limitům, vyšší dává modelu víc prostoru pro složitější úvahy. V API je dostupný také fast mode, který má podle Anthropicu nabídnout až 2,5krát vyšší rychlost generování výstupu za vyšší cenu.

Pro běžné psaní, rešerše nebo úpravu textu nebude Opus 4.8 nutně důvodem okamžitě měnit návyky. Pokud ale necháváte model pracovat nad větším projektem, nestačí jen rychlost. Důležité je i to, jestli dokáže včas říct, že si není jistý. Souboj mezi Claudem, ChatGPT a Gemini se proto nebude rozhodovat jen podle toho, kdo odpoví rychleji.

Autor článku Ondřej Dolejš
Ondřej Dolejš
Nadšenec do smart technologií, aut, činek, sci-fi a své rodiny. Pořadí je variabilní. Bojím se oligopolu a věřím, že nejlepší verze produktu byla často ta předchozí.

Kapitoly článku