Tohle ChatGPT neumí: nový Claude Opus 4.8 dokáže přiznat vlastní chybu

Ilustrační vizuál k modelu Claude Opus 4.8 vygenerovaný v ChatGPT

Anthropic vydal Claude Opus 4.8, novou verzi svého nejschopnějšího veřejně dostupného modelu
Firma slibuje lepší práci s kódem, nástroji a dlouhými agentickými úkoly
Nejzajímavější novinkou je větší ochota modelu přiznat nejistotu nebo upozornit na vlastní chybu
Opus 4.8 je dostupný v Claude.ai i přes API, základní cena proti Opusu 4.7 zůstává stejná

Anthropic vydal Claude Opus 4.8, novou verzi svého nejsilnějšího veřejně dostupného modelu. Navazuje na Opus 4.7 a nejde o novou rodinu modelů, ale o rychlou iteraci vlajkové řady. Firma ji staví hlavně na lepším kódování, práci s nástroji a dlouhých úkolech, ve kterých se model nesmí po pár krocích ztratit.

Nejzajímavější na oznámení nejsou jen benchmarková čísla. Anthropic tvrdí, že Opus 4.8 má častěji poznat, kdy si není jistý, a upozornit na chybu ve vlastním výstupu. ChatGPT umí nejistotu přiznat také, ale Anthropic se u Opusu 4.8 chlubí konkrétním zlepšením proti předchozí generaci. Právě to je pro práci s AI důležitější než další desetiny v tabulce.

Benchmarky vypadají dobře, hlavně u agentů

V API má model označení claude-opus-4-8. Podle dokumentace Anthropicu podporuje kontextové okno o velikosti 1 milion tokenů v Claude API, Amazon Bedrocku a Vertex AI, zatímco v Microsoft Foundry zůstává limit 200 tisíc tokenů. Maximální výstup může mít až 128 tisíc tokenů.

Srovnání benchmarků modelu Claude Opus 4.8. Zdroj: Anthropic

V tabulce Anthropic srovnává Opus 4.8 s Opusem 4.7, GPT-5.5 a Gemini 3.1 Pro. Novinka si polepšila v agentickém kódování, práci s počítačem i praktických znalostních úlohách. U Terminal-Bench 2.1 sice podle grafu vede GPT-5.5, ale Opus 4.8 má být vyrovnanější v širší sadě testů.

Do Claude Code zároveň přibývají dynamická workflow v research preview. Claude má zvládnout naplánovat větší úkol, spustit stovky paralelních subagentů a výsledek před odevzdáním ověřit. Tahle funkce míří na tarify Enterprise, Team a Max, takže nejde o běžnou hračku pro každého. Pro vývojářské týmy je to ale dobrý náznak, kam Anthropic Clauda tlačí: méně chatovací okno, více pracovní nástroj pro delší úlohy.

Když si model raději řekne o kontrolu

Anthropic vedle výkonu zdůrazňuje poctivost modelu. Podle interních evaluací má Opus 4.8 zhruba čtyřikrát méně často nechat bez poznámky chybu v kódu, který sám napsal. Jinými slovy: když se model splete, má větší šanci říct, že výsledek potřebuje kontrolu, místo aby ho jen sebejistě poslal dál.

Graf z interních evaluací Anthropicu. „Misaligned behavior“ v něm označuje situace, kdy se model nechová podle záměru uživatele nebo bezpečnostních pravidel; nižší skóre je lepší. Zdroj: Anthropic

To může znít jako drobnost, jenže u práce s kódem, právními texty, finančními dokumenty nebo redakčními podklady jde o velmi praktickou vlastnost. AI, která se tváří jistě i ve chvíli, kdy si domýšlí, je horší než model, který si řekne o kontrolu. U běžného chatu se nad tím dá mávnout rukou, u delší práce už taková chyba stojí čas a někdy i peníze.

Na Claude.ai a v nástroji Cowork přibylo také ovládání úsilí, které Claude do odpovědi vloží. Nižší nastavení má být rychlejší a šetrnější k limitům, vyšší dává modelu víc prostoru pro složitější úvahy. V API je dostupný také fast mode, který má podle Anthropicu nabídnout až 2,5krát vyšší rychlost generování výstupu za vyšší cenu.

Pro běžné psaní, rešerše nebo úpravu textu nebude Opus 4.8 nutně důvodem okamžitě měnit návyky. Pokud ale necháváte model pracovat nad větším projektem, rozdíl mezi sebevědomou chybou a přiznanou nejistotou je přesně ten typ zlepšení, který se pozná až v praxi. A také důvod, proč se souboj mezi Claudem, ChatGPT a Gemini nebude rozhodovat jen podle toho, kdo odpoví rychleji.

Vstoupit do diskuze

2. zdroj Zdroj článku

Autor článku

Ondřej Dolejš

Nadšenec do smart technologií, aut, činek, sci-fi a své rodiny. Pořadí je variabilní. Bojím se oligopolu a věřím, že nejlepší verze produktu byla často ta předchozí.

Robot v obležení velkého finančního obnosu (ilustrační obrázek)

Katastrofa v tajné firmě: zaměstnanci za měsíc propálili přes 10 miliard Kč za tokeny v Claude

Dominik Vlasák D. Vlasák 15:00

První obrázky z iOS 27! Takhle bude vypadat nová Siri nebo aplikace Fotoaparát

Jakub Fišer J. Fišer 13:30

Tlačítkový telefon se SMS zprávami, ověřovacími kódy a oznámeními banky

SMS přežila WhatsApp i iMessage. Díky bankám a ověřovacím kódům

Ondřej Dolejš O. Dolejš 12:00

Xiaomi drží svou silnou pozici na starém kontinentu, poklesu dodávek navzdory

Michael Chrobok M. Chrobok 10:30

Kapitoly článku

Nejnovější komentáře

Katastrofa v tajné firmě: zaměstnanci za měsíc propálili přes 10 miliard Kč za tokeny v Claude TomR: Tento clanok je taky vierohodny ako jedna teta povedala......

První obrázky z iOS 27! Takhle bude vypadat nová Siri nebo aplikace Fotoaparát Ejč: Ti nejsou ve vývojovém týmu....

První obrázky z iOS 27! Takhle bude vypadat nová Siri nebo aplikace Fotoaparát JP23: To bude až vo verzii 27.7, kde bude hlavný jazyk pre nás Slovákov mongolčina....

Ojetý elektromobil jako racionální volba pro Čechy? Rozhoduje stav baterie a levné nabíjení Kritik: Borec vygeneroval AI článek jak noha 😂...

Katastrofa v tajné firmě: zaměstnanci za měsíc propálili přes 10 miliard Kč za tokeny v Claude Karel: Jo je vidět tvoje škodolibost Asfd - je vidět kde máš rozum...

Benchmarky vypadají dobře, hlavně u agentů

Když si model raději řekne o kontrolu

Ondřej Dolejš

Další dnešní články

Kapitoly článku