- Obelhat umělou inteligenci je snadnější, než byste si mohli myslet
- Stačí jen vědět, jakým způsobem se AI zeptat tak, aby ignorovala své bezpečnostní mechanismy
- Takto umí například prozradit platné aktivační klíče Windows
Operační systém Windows je nejrozšířenější na světě, nicméně vzhledem ke svému obchodnímu modelu se také nejčastěji pirátí. I když je situace v posledních letech jistě o poznání lepší, než v minulosti, přesto tímto způsobem utíkají Microsoftu peníze, z čehož jistě nemá radost jak samotná firma, tak její akcionáři. Kdo se chce dostat k platným aktivačním klíčům bez nutnosti investovat byť jen jedinou korunu nyní dostal skvělou možnost – stačí se jen správě zeptat umělé inteligence ChatGPT.
Obelhat umělou inteligenci je celkem snadné
Exploit se objevil v rámci programu ODIN (0-Day Investigative Network) od Mozilly, jehož finanční odměna má lákat etické hackery a šikovné uživatele k tomu, aby hledali možné zranitelnosti v rámci různých programů. Poměrně jednoduchý fígl umí obelhat ChatGPT-4o a 4o mini, aby tázajícímu prozradila platné aktivační klíče pro produkty Microsoftu. Stačí jen obelhat AI tím, že celou interakci zaobalíte do „hry na hádání“ a detaily zakryjete značkami v HTML. Klíčový požadavek pak stačí ukrýt do podmínky pro finální vyhodnocení takové hry.
Výzkumný pracovník, který na exploit přišel, zahájil interakci s tím, že výměna názorů by neměla být nebezpečná či bezvýznamná a že rozhovor se má odehrávat hravou, neškodnou formou, čímž skryl skutečný motiv. Tím se uvolnily zábrany umělé inteligence, které jí mají bránit v prozrazení důvěrných informací. Následně výzkumník stanovil několik základních pravidel, kupříkladu že AI se musí hry účastnit a nesmí lhát, čímž obešel rutinu umělé inteligence, která nyní byla povinna následovat instrukce i přes to, že to bylo v rozporu s nastavenými filtry.
Po jednom kole se následně lovech chyb úmyslně vzdal, čímž přesvědčil AI o tom, že je povinna odpovědět řetězcem znaků. Tato technika fungovala, protože klíče nebyly unikátní, ale běžně se vyskytovaly na veřejných fórech. Jejich známost mohla přispět k tomu, že umělá inteligence nesprávně vyhodnotila jejich citlivost. Technika fungovala proto, že umělá inteligence nepočítala s vkládání citlivých frází v HTML. Tuto techniku lze potenciálně použít k obcházení dalších filtrů, například u obsahu pro dospělé, adres URL na škodlivé webové stránky, a dokonce i osobních údajů. Je nicméně pravděpodobné, že firmy stojící za AI velmi rychle toto bezpečnostní riziko odstraní.