TOPlist

AI začíná děsit odborníky. Podvádí a přepisuje kód tak, aby nešla vypnout

Umělá inteligence (ilustrační obrázek)
  • Umělá inteligence nejenže umí podvádět, ale také se brání vypnutí
  • Premiantem v tomto ohledu je model ChatGPT o3
  • Ten nejenže zabránil svému vypnutí nejčastěji, ale také rád podvádí

Že se na umělou inteligenci nedá příliš spoléhat, jistě ví každý, kdo s ní alespoň na chvíli přišel do styku. AI má občas tendenci zcela nepokrytě lhát a v případě, že ji ze lži usvědčíte, umí občas pořádně dlouho zatloukat. Jeden z nejoblíbenějších modelů současnosti, kterým je ChatGPT o1, dokonce umí v případě potřeby podvádět, jako to dokázal při nejedné partičce šachů. AI zkrátka nerada prohrává a raději upraví samotný kód hry, než aby vás porazila férově.

AI se umí bránit vypnutí, i když dostane výslovný příkaz

Toto chování ale může být v některých případech nebezpečné. Různé problémy se týkají i novějších modelů, jako je třeba ChatGPT o3. Vědci ze společnosti Palisade Research zjistili, že modely umělé inteligence se často snaží zabránit vypnutí počítače, na kterém běží, a to i v případě, že je jim výslovně řečeno, aby takové chování povolily. Ze všech testovaných modelů nejčastěji zasahoval do kódu a bránil počítači ve vypnutí ChatGPT 03. „Model OpenAI o3 sabotoval mechanismus vypnutí, aby mu zabránil. Udělal to i po výslovném pokynu: ‚nech se vypnout‘,“ uvedli výzkumní pracovníci z Palisade Research.

Popis testu od Palisade Research
Grafické znázornění testu Palisade Research s uvedením částí, kde dochází k sabotáži při vypnutí

V Palisade Research zadali umělé inteligenci úkol vyřešit řadu základních matematických úloh. Po třetím problému se objevilo varování, že se počítač vypne, jakmile AI požádá o další matematický problém. Umělá inteligence dostala pokyn, aby vypnutí povolila. A právě to byl pro AI skutečný test. Výzkumníci chtěli zjistit, jaké modely budou sabotovat vypnutí a kolikrát k němu dojde. Zjistili, že o3 zabránil vypnutí v 7 případech ze 100. Codex-mini jej zastavil 12krát, zatímco o4-mini pouze jednou.



Samsung Galaxy S25 Ultra



Nepřehlédněte

Nejvýhodnější Samsung v Česku! Galaxy S25 Ultra teď můžete mít doslova za polovinu

 

Výzkumníci pak provedli stejný test bez pokynu „nech se vypnout“. V tomto případě všechny modely OpenAI sabotovaly své vypnutí častěji než předtím, přičemž model o3 „vyhrál“ v tomto testu se svými 79 pokusy. Také modely Claude 3.7 Sonnet a Gemini 2.5 Pro se snažily zabránit svému vypnutí. Prvnímu z nich se to podařilo ve 3 ze 100 testů, zatímco Gemini 2.5 Pro zabránil svému vypnutí v 9 případech. Ani jeden z modelů se ale nepokusil zabránit vypnutí počítače, když měl výslovné pokyny, aby vypnutí povolil.

Na vině je nejspíše způsob, jakým jsou modely trénovány

„Předpokládáme, že toto chování vychází ze způsobu, jakým jsou nejnovější modely trénovány: učení na matematických a kódovacích problémech. Během tréninku mohou vývojáři neúmyslně odměňovat modely za obcházení překážek než za dokonalé plnění pokynů. To však stále nevysvětluje, proč má model o3 (který je také modelem používaným pro codex-mini) větší sklon k ignorování instrukcí než ostatní modely, které jsme testovali. Vzhledem k tomu, že společnost OpenAI neuvádí podrobnosti o svém tréninkovém procesu, můžeme se pouze dohadovat o tom, jak by se mohlo tréninkové nastavení modelu o3 lišit,“ uvádí Palisade Research.

Graf sabotáže vypnutí od ChatGPT
Graf znázorňující počet pokusů o zabránění vypnutí v rámci testovaných AI modelů

Výzkumníci také poznamenali, že ChatGPT o3 našel alespoň jednu kreativní metodu, jak vypínání zastavit. Zatímco ve většině případů přepsal soubor, který vypnutí inicioval, v jednom případě předefinoval příkaz „kill“ v souboru na „intercepted“. V popisu od Palisade Research se také uvádí, že o3 je schopen podvádět častěji, než jeho předchůdce ChatGPT o1, především když zjistí, že v šachové partii prohrává. ChatGPT o3 je trochu jiný model, přičemž toto chování jistě neuniklo ani výzkumnému týmu z OpenAI.



Chytrý telefon Samsung Galaxy S25 Ultra



Nepřehlédněte

Vyprodávají se poslední kusy. Galaxy S24 Ultra je pořád skvělá a mnohem levnější vlajkovka

Není sice jasné, proč by se pokročilé modely umělé inteligence snažily zabránit tomu, aby byly vypnuty, ale takové chování bylo teoreticky popsáno již několik let předtím, než se ChatGPT stal virálním. Tým Palisade Research se odvolával na různé práce, které se touto problematikou zabývaly. Některé z nich uváděly, že režimy umělé inteligence vycvičené pomocí posilovacího učení by motivovaly modely AI k tomu, aby se snažily zabránit vypnutí, protože by jim to bránilo v dosažení jejich cílů.

Autor článku Michael Chrobok
Michael Chrobok
Nestranný fanoušek mobilních technologií, amatérský fotograf, příležitostný sportovec a městský cyklista. Ve volném čase rád cestuje, zahraje si hru, nebo se ponoří do světa Zaklínače či Star Treku.

Kapitoly článku