- Apple nedávno kritizoval konkurenční AI, která podle něj prý nepřemýšlí tak, jak prezentuje
- Aktuální oponentní výzkum ale tvrdí, že Apple špatně a nevhodně vyhodnocoval výstupy vlastního výzkumu
- AI by tak měla být schopná jakéhosi přemýšlení, ovšem za vhodně nastavených a správně měřitelných podmínek
Apple, který aktuální vlnu generativní AI zaspal, vydal nedávno výzkum s tím, že modely jako Claude údajně selhávají u složitějších úloh kvůli „kolapsu myšlení“. Zjednodušeně řečeno prý „myslet“ prostě nedokáží. Nový oponentní výzkum ale ukazuje, že jde spíše o chyby v nastavení testování a vyhodnocování.
Problematické „myšlení“
Aktuální oponentní výzkum totiž ukazuje, že modely prokázaly schopnost složité algoritmy vygenerovat, pokud nejsou omezeny formou zadání. Vědecký spor o schopnosti dnešních velkých jazykových modelů tak pokračuje dál.
Po údajném „kolapsu myšlení“ u složitějších úloh nyní přichází Alex Lawsen z Open Philanthropy s detailní polemikou. Podle něj nejsou slabiny modelů způsobené jejich neschopností, ale spíš nedostatky v metodice hodnocení.
Apple ve svém honosně nazvaném článku The Illusion of Thinking tvrdí, že modely jako Claude selhávají v logických úlohách, například ve hře Věže z Hanoje, pokud přesáhnou určitou složitost. Podle Lawsenovy reakce, trefně pojmenované The Illusion of the Illusion of Thinking, je však třeba rozlišovat mezi limity modelu samotného a limity jeho výstupu.
Deziluze
Prvním problémem, na který Lawsen upozorňuje, je limit samotných tokenů. Modely byly totiž penalizovány za to, že nedokončily úplný seznam úkolů, i když samy uvedly, že končí kvůli omezení počtu tokenů. To ale neznamená, že úlohu nechápou nebo že ji nejsou schopny dokončit. Pouze se snažily být úsporné a adekvátní výstup se jim do omezeného počtu tokenů jednoduše nevlezl.
Druhým problémem jsou nesplnitelné úlohy. Testy jako River Crossing zahrnovaly neřešitelné úlohy, které ani matematicky neměly řešení. Přesto byly modely hodnoceny jako neúspěšné, i když správně rozpoznaly nemožnost úlohu vyřešit.
Třetím problémem je nevhodné vyhodnocování. Apple automaticky hodnotil pouze úplné sekvence kroků, aniž by rozlišil, zda model ztroskotal kvůli nepochopení, nebo kvůli praktickým omezením výstupu.
Alternativa
Pro ověření svých námitek provedl Lawsen alternativní testy, při nichž modely řešily stejné úlohy pomocí programování. Místo explicitního vyjmenování všech kroků měly modely napsat algoritmus ve formě funkce v jazyce Lua. Výsledky ukázaly, že modely jako Claude nebo Gemini neměly problém s řešením složitějších instancí Věže z Hanoje s 15 disky, které Apple považoval za neřešitelné.
Lawsen proto nabídl několik konkrétních návrhů pro budoucí výzkum. Výzkumníci by podle něj měli rozlišovat mezi schopností modelu myslet a jeho schopností vypsat řešení. Dále by mělo být nutné ověřit, zda testovaná úloha má vůbec řešení, a nepoužívat pouze délku řešení jako měřítko složitosti. Zároveň doporučuje využívat různé formy reprezentace řešení, například ve formě kódu, aby bylo možné oddělit algoritmické porozumění od schopnosti generovat konkrétní výstupy.
Ve výsledku tak není debata o tom, jestli umí AI myslet, nebo to jen předstírá. Spíše jde o to, jakým způsobem její „myšlení“ měříme a vyhodnocujeme.