- Claude 3.7 zvítězil v testu umělé inteligence ve hře Super Mario Bros
- GPT-4o od OpenAI i Gemini od Googlu měly problémy s načasováním pohybů
- Odborníci zpochybňují význam herních testů pro skutečný pokrok AI
Laboratoř Hao testovala schopnosti předních jazykových modelů AI hraním starého dobrého Super Mario Bros. V netradičním „testu“ zvítězil nedávno zveřejněný model Claude 3.7, druhý byl Claude 3.5, oba od Antrhopicu.
Chléb a hry
Překvapivě docela daleko za nimi zaostal Gemini 1.5 Pro (škoda že se netestoval aktuální 2.0 Pro) od Googlu. Gemini sice chvíli hrál, ale měl problémy jak se skákáním, tak s nepřáteli. No a úplně na konci byl ChatGPT 4o, který si s Mariem poradit nedokázal.
AI modely se učily zvládat komplexní pohyby a strategie v upravené verzi hry z roku 1985. Modely dostávaly pouze screenshoty obrazovky a musely generovat vstupy ve formě Python kódu, který přímo ovládal herní postavičku.
Podle výzkumníků byla hra dost náročná především proto, že vyžaduje přesné načasování a rychlé rozhodování, což je pro AI, které občas některé věci trvají docela dlouho, poměrně velký problém.
Komplexní paradox
Test podle výzkumníků demonstroval, že paradoxně nejlépe se dařilo modelům schopným komplexního plánování a strategického uvažování. Zároveň však někteří odborníci upozorňují, že dovednosti AI ve hrách nejsou vždy spolehlivým ukazatelem skutečných schopností těchto technologií v reálném světě.
Hry totiž sice dlouhodobě slouží jako standardní způsob testování AI, ale jejich omezené prostředí nemusí dostatečně vypovídat o reálné připravenosti modelů na složité úkoly každodenního života. Přesto se AI „motá“ kolem her už dlouho, kdy v minulosti hrála samozřejmě nejen šachy, ale i komplexní a místy rychlý StarCraft a některé další kousky.
Praktický experiment?
Nechat hrát AI model hry je tak hezký, nicméně zatím zřejmě nepříliš praktický experiment. Obzvlášť tedy v případě starého Maria či stařičkého Pokémona, kterého hrál při svém spuštění Claude 3.7 Sonnet.
Jakmile se ale AI modely naučí hrát plnohodnotně velké, komplexní a moderní hry s jejich rozsáhlými 3D světy a tunou možností, bude to už mnohem zajímavější. V té chvíli se už paralely s reálným světem (například orientace v prostoru, třeba ve městě) nabízejí a bude zajímavé sledovat, jaká hra se v tomhle osvědčí nejvíc. Watch Dogs? Cyberpunk? GTA?