- Umělá inteligence nejenže umí podvádět, ale také se brání vypnutí
- Premiantem v tomto ohledu je model ChatGPT o3
- Ten nejenže zabránil svému vypnutí nejčastěji, ale také rád podvádí
Že se na umělou inteligenci nedá příliš spoléhat, jistě ví každý, kdo s ní alespoň na chvíli přišel do styku. AI má občas tendenci zcela nepokrytě lhát a v případě, že ji ze lži usvědčíte, umí občas pořádně dlouho zatloukat. Jeden z nejoblíbenějších modelů současnosti, kterým je ChatGPT o1, dokonce umí v případě potřeby podvádět, jako to dokázal při nejedné partičce šachů. AI zkrátka nerada prohrává a raději upraví samotný kód hry, než aby vás porazila férově.
AI se umí bránit vypnutí, i když dostane výslovný příkaz
Toto chování ale může být v některých případech nebezpečné. Různé problémy se týkají i novějších modelů, jako je třeba ChatGPT o3. Vědci ze společnosti Palisade Research zjistili, že modely umělé inteligence se často snaží zabránit vypnutí počítače, na kterém běží, a to i v případě, že je jim výslovně řečeno, aby takové chování povolily. Ze všech testovaných modelů nejčastěji zasahoval do kódu a bránil počítači ve vypnutí ChatGPT 03. „Model OpenAI o3 sabotoval mechanismus vypnutí, aby mu zabránil. Udělal to i po výslovném pokynu: ‚nech se vypnout‘,“ uvedli výzkumní pracovníci z Palisade Research.
V Palisade Research zadali umělé inteligenci úkol vyřešit řadu základních matematických úloh. Po třetím problému se objevilo varování, že se počítač vypne, jakmile AI požádá o další matematický problém. Umělá inteligence dostala pokyn, aby vypnutí povolila. A právě to byl pro AI skutečný test. Výzkumníci chtěli zjistit, jaké modely budou sabotovat vypnutí a kolikrát k němu dojde. Zjistili, že o3 zabránil vypnutí v 7 případech ze 100. Codex-mini jej zastavil 12krát, zatímco o4-mini pouze jednou.
Výzkumníci pak provedli stejný test bez pokynu „nech se vypnout“. V tomto případě všechny modely OpenAI sabotovaly své vypnutí častěji než předtím, přičemž model o3 „vyhrál“ v tomto testu se svými 79 pokusy. Také modely Claude 3.7 Sonnet a Gemini 2.5 Pro se snažily zabránit svému vypnutí. Prvnímu z nich se to podařilo ve 3 ze 100 testů, zatímco Gemini 2.5 Pro zabránil svému vypnutí v 9 případech. Ani jeden z modelů se ale nepokusil zabránit vypnutí počítače, když měl výslovné pokyny, aby vypnutí povolil.
Na vině je nejspíše způsob, jakým jsou modely trénovány
„Předpokládáme, že toto chování vychází ze způsobu, jakým jsou nejnovější modely trénovány: učení na matematických a kódovacích problémech. Během tréninku mohou vývojáři neúmyslně odměňovat modely za obcházení překážek než za dokonalé plnění pokynů. To však stále nevysvětluje, proč má model o3 (který je také modelem používaným pro codex-mini) větší sklon k ignorování instrukcí než ostatní modely, které jsme testovali. Vzhledem k tomu, že společnost OpenAI neuvádí podrobnosti o svém tréninkovém procesu, můžeme se pouze dohadovat o tom, jak by se mohlo tréninkové nastavení modelu o3 lišit,“ uvádí Palisade Research.
Výzkumníci také poznamenali, že ChatGPT o3 našel alespoň jednu kreativní metodu, jak vypínání zastavit. Zatímco ve většině případů přepsal soubor, který vypnutí inicioval, v jednom případě předefinoval příkaz „kill“ v souboru na „intercepted“. V popisu od Palisade Research se také uvádí, že o3 je schopen podvádět častěji, než jeho předchůdce ChatGPT o1, především když zjistí, že v šachové partii prohrává. ChatGPT o3 je trochu jiný model, přičemž toto chování jistě neuniklo ani výzkumnému týmu z OpenAI.
Nepřehlédněte
Vyprodávají se poslední kusy. Galaxy S24 Ultra je pořád skvělá a mnohem levnější vlajkovka
Není sice jasné, proč by se pokročilé modely umělé inteligence snažily zabránit tomu, aby byly vypnuty, ale takové chování bylo teoreticky popsáno již několik let předtím, než se ChatGPT stal virálním. Tým Palisade Research se odvolával na různé práce, které se touto problematikou zabývaly. Některé z nich uváděly, že režimy umělé inteligence vycvičené pomocí posilovacího učení by motivovaly modely AI k tomu, aby se snažily zabránit vypnutí, protože by jim to bránilo v dosažení jejich cílů.