- Reálné testy odhalily, že agenti v AI prohlížečích v čele s Atlasem od OpenAI jsou nespolehliví a selhávají i u běžných úkolů
- Slabiny, které způsobují provozní selhání agentů, jsou zároveň i vážnou bezpečnostní hrozbou
- Experti varují, že vydávání uspěchaných AI produktů vytváří poměrně značná rizika pro ochranu soukromí i kyberútoky
Společnosti jako OpenAI a Microsoft odstartovaly novou éru webových prohlížečů. Slibují revoluci díky agentům poháněných umělou inteligencí, jako je Agent Mode (tzv. agenti) v novém prohlížeči Atlas od OpenAI nebo Copilot v Edge, kteří mají automatizovat naši práci na webu. Realita je ale o poznání jiná, než byste čekali.
Střízlivění
Skutečnost je ale po prvních testech mnohem střízlivější. Nejenže jsou tyto klíčové funkce v současné podobě nedotažené, pomalé a nespolehlivé, mnohem znepokojivější je fakt, že řada kyberbezpečnostních expertů bije na poplach. Varují, že celá tato nová kategorie softwaru, do níž se pomalu pouští i Google se svým Gemini v masivně rozšířeném prohlížeči Chrome, otevírá Pandořinu skříňku nových zranitelností a bezprecedentních rizik pro soukromí uživatelů.
Nová generace prohlížečů totiž velkohubě slibuje, že za vás agenti udělají práci téměř všeho druhu. Detailní testování těchto funkcí v preview režimu ale ukazuje zásadní nedostatky. Agent sice v mnoha případech správně pochopí zadání, ale při jeho plnění selhává, je pomalý nebo se dostane do slepé uličky.
Od absolutního selhání až po zavádějící úspěch
Typickým příkladem naprostého selhání byl pokus o stažení demoverzí her pro macOS ze Steamu. Agent sice správně pochopil, že má jít na Steam a hledat dema. Poté ale strávil minuty hledáním neexistujících filtrů a zmateně klikal na první výsledky, jak ukazuje jeden z mnoha testů redaktorů webu ArsTechnica.com.
Když se agent konečně dostal na stránku hry, která měla jasně viditelné tlačítko Download Demo, agent se zastavil. Znepokojilo ho, že je na stránce plné hry, a usoudil, že to je špatně. Vrátil se tedy zpět na stránku s výsledky vyhledávání a celý proces zmateného klikání začal znovu. Po deseti minutách neustálého cyklení v této smyčce bylo jasné, že na první pohled triviální úkol je nad jeho síly.
Nadějněji prý vypadal úkol prohledat schránku v Gmailu a vytvořit referenční tabulku s kontakty na PR agentury. Agent správně identifikoval profesní účet, začal prohledávat e-maily a sbírat data. Po sedmi minutách práce a dvanácti korektně zapsaných řádcích v Tabulkách Google ale najednou přestal pracovat. Důvodem byla „technická omezení délky relace“. Pro úkoly, které vyžadují zpracování stovek e-mailů nebo dlouhodobější monitorování, je taková funkce v praxi nepoužitelná.
V Ars Technica testovali i schopnost pomoci s komplexním rozhodováním v reálném světě, jako je výběr tarifu za elektřinu na texaském portálu Power to Choose. Agent dostal jasné zadání: 12–24měsíční kontrakt, nízká sazba při spotřebě 2 000 KWh a konkrétní dodavatel.
Agent po osmi minutách skutečně doporučil plán. Problém byl, že nešlo o nejlepší volbu. Přehlédl klíčové detaily tarifu. Šlo totiž o specifický noční tarif, který by byl pro průměrného uživatele ve výsledku dražší. Agent sice úkol formálně splnil, ale jeho nedostatečné chápání kontextu vedlo k potenciálně špatnému finančnímu rozhodnutí. Což jistě není to, co by si běžný uživatel vybral sám.
Podobně dopadl pokus o vytvoření jednoduché fanouškovské stránky. Agent byl schopen rychle agregovat informace a vytvořit základní HTML stránku na službě Neocities. Výsledek byl ale nekvalitní. Text postrádal požadovanou pointu a byl vágní. Ještě horší bylo, že všechny obrázky na stránce byly nefunkční. Agent místo jejich nahrání použil hotlinkování z cizích serverů, což je základní chyba v tvorbě webu, která by vedla k jeho zablokování.
Příklady od Ars Technica a dalších koutků webu poměrně jasně ukazují, že agenti jsou zatím spíše zajímavou demonstrací nové technologie a příslibem lákavé budoucnosti než funkčním nástrojem, který by mohl být k užitku v současné době. Agenti jsou nespolehliví, pomalí a postrádají hlubší pochopení kontextu nebo schopnost zvládnout úkoly, které vyžadují více než pár minut „práce“.
Nefunkčním agentem to jen začíná
Problém AI prohlížečů, respektive AI wrapperů Chromia, je ale hlubší. Kdyby šlo jen o frustraci z neschopnosti dokončit zdánlivě jednoduché úkoly, bylo by to ještě pouze k pláči. Jenže právě ona autonomie a nedostatečné chápání kontextu jsou tím problémem, který může vést agenty ve výsledku až ke kritickému bezpečnostnímu selhání.
Agent, který nedokáže spolehlivě rozlišit mezi demoverzí a plnou hrou na Steamu, je stejně tak náchylný k tomu, aby nerozlišil mezi legitimní instrukcí a instrukcí skrytou, škodlivou. Jeho obsesivní snaha poslušně plnit úkoly se stává hlavním jádrem problému a potenciálně i útoku.
Kyberbezpečnostní experti varují, že uspěchané uvádění takových produktů na trh může být v rukou prostých uživatelů na straně jedné a „hackerů“ na straně druhé poměrně nebezpečné. K žádnému dlouhodobému a důkladnému testování tady totiž nedochází a zrovna OpenAI vydává produkty očividně nedostatečně otestované a ve zřetelně nehotovém stavu. Viz například i aktuální kontroverze kolem nové „sociální sítě“ OpenAI postavené na AI videích od modelu Sora.
Nepřehlédněte
Sora generuje neskutečná videa, ale jen vyvoleným. Poradíme, jak získat přístup (návod)
Jenže tam, kde AI videa „pouze“ porušují copyright a de facto tam tak dochází dnes a denně k masivní globální „krádeži“ duševního vlastnictví, s AI prohlížeči se pojí potenciálně mnohem větší problémy.
Jedním z nich může být únos agenty skrze tzv. prompt injection. Na rozdíl od lidí nemají agenti zdravý selský rozum. Útočníci mohou na webové stránky, do e-mailů, obrázků nebo dokonce do formulářů vložit skryté instrukce. Tyto instrukce mohou být neviditelné (např. bílý text na bílém pozadí) a mohou agentovi přikázat, aby odeslal citlivé informace, změnil doručovací adresu na nákupním webu nebo nainstaloval malware. A protože je agent automatizovaný, mohou útočníci používat nekonečné konfigurace a styl pokus-omyl, dokud se jim nepodaří prolomit obranu.
Další potenciální hrozbou jsou invazivní profily a s nimi spojená absolutní ztráta soukromí. AI prohlížeče jsou navrženy tak, aby si „pamatovaly“ vše, co děláte. Vaše emaily, vyhledávání, historie, a dokonce i konverzace. Nikdo vám taky nezaručí, že třeba zrovna Atlas od OpenAI nezaznamenává opravdu všechno, tudíž se s takovým prohlížečem opravdu nechcete přihlašovat do příliš osobních služeb nebo do firemních systémů.
Tady totiž hrozí regulérní riziko sledování a profilování uživatelova chování samotným prohlížečem a je nejspíš jen otázkou času, než Atlas a jemu podobné prohlížeče, nebo minimálně AI funkce prohlížečů, zakáží plošně všechny příčetně smýšlející firmy – nechat si koukat cizí firmu do interních systémů skrze samotný prohlížeč chce asi málokteré IT oddělení, nemluvě o tom, že v takovém případě by pravidla spojená s GDPR asi letěla hned z okna.
Hackeři tak budou mít z nových AI prohlížečů zlatý důl, protože právě v prohlížečích jsou nově uložena nejen hesla, ale i různé typy osobních údajů, kreditních karet, adres a dalších soukromých a citlivých informací.
Je pochopitelné, že jakákoli nová technologie přináší chyby. A že stejně jako schopnosti agentů se bude zlepšovat i zabezpečení. Nicméně to nic nemění na tom, že prohlížeč Atlas je tady, funguje, OpenAI ho propaguje, na obrovská bezpečnostní rizika zrovna dvakrát proaktivně neupozorňuje a běžní uživatelé se rádi nechají opít rohlíkem, respektive lákavým příslibem užitečnějšího prohlížeče s integrovaným AI chatbotem.
Spěch se nevyplácí
Ve výsledku ale není divu, že se teď „všichni“ snaží oživit válku prohlížečů a dostat zrovna svůj browser před zraky co největšího počtu uživatelů. Prohlížeč je bránou k internetu a jako takový je to nesmírně cenný artikl, který se vyplatí mít. Očividně i na úkor bezpečnosti. A jakkoliv je jasné, že tady opravdu neplatí pravidlo „kdo dřív přijde, ten dřív mele“, být mezi prvními se vyplácí.
Uspěchané a nedodělané produkty mohou být ale pro masy běžných uživatelů nebezpečné. Slibovaná pohodlná budoucnost, kdy nám budou díky AI létat pečení holubi přímo do úst, se ale zatím očividně nekoná. Agenti slibují velké věci, ale těžko budete hledat někoho, kdo je dnes používá přímo v prohlížeči každý den a ušetří tak hodiny práce. Takových uživatelů, obzvláště z řad běžných lidí, nejspíš tolik nebude.
Prohlížeč, který „přemýšlí“ a za uživatele sám koná, je zatím spíše minovým polem. Aktuálně se tak jeví lepší řešení používat takový, kterému můžete důvěřovat a v něm už pak používat AI tak, jak potřebujete, nikoliv naopak. AI se ale vyvíjí natolik rychle, že se za rok budeme aktuálním více či méně neschopným agentům jen smát, neboť technologie udělá možná obří skok. Do té doby bychom se ale měli mít před všemocnými prohlížeči plnými (zatím) neschopných agentů spíše na pozoru.
