AI začíná děsit odborníky. Podvádí a přepisuje kód tak, aby nešla vypnout

Umělá inteligence nejenže umí podvádět, ale také se brání vypnutí
Premiantem v tomto ohledu je model ChatGPT o3
Ten nejenže zabránil svému vypnutí nejčastěji, ale také rád podvádí

Že se na umělou inteligenci nedá příliš spoléhat, jistě ví každý, kdo s ní alespoň na chvíli přišel do styku. AI má občas tendenci zcela nepokrytě lhát a v případě, že ji ze lži usvědčíte, umí občas pořádně dlouho zatloukat. Jeden z nejoblíbenějších modelů současnosti, kterým je ChatGPT o1, dokonce umí v případě potřeby podvádět, jako to dokázal při nejedné partičce šachů. AI zkrátka nerada prohrává a raději upraví samotný kód hry, než aby vás porazila férově.

AI se umí bránit vypnutí, i když dostane výslovný příkaz

Toto chování ale může být v některých případech nebezpečné. Různé problémy se týkají i novějších modelů, jako je třeba ChatGPT o3. Vědci ze společnosti Palisade Research zjistili, že modely umělé inteligence se často snaží zabránit vypnutí počítače, na kterém běží, a to i v případě, že je jim výslovně řečeno, aby takové chování povolily. Ze všech testovaných modelů nejčastěji zasahoval do kódu a bránil počítači ve vypnutí ChatGPT 03. „Model OpenAI o3 sabotoval mechanismus vypnutí, aby mu zabránil. Udělal to i po výslovném pokynu: ‚nech se vypnout‘,“ uvedli výzkumní pracovníci z Palisade Research.

Popis testu od Palisade Research — Grafické znázornění testu Palisade Research s uvedením částí, kde dochází k sabotáži při vypnutí

V Palisade Research zadali umělé inteligenci úkol vyřešit řadu základních matematických úloh. Po třetím problému se objevilo varování, že se počítač vypne, jakmile AI požádá o další matematický problém. Umělá inteligence dostala pokyn, aby vypnutí povolila. A právě to byl pro AI skutečný test. Výzkumníci chtěli zjistit, jaké modely budou sabotovat vypnutí a kolikrát k němu dojde. Zjistili, že o3 zabránil vypnutí v 7 případech ze 100. Codex-mini jej zastavil 12krát, zatímco o4-mini pouze jednou.

Nepřehlédněte

Nejvýhodnější Samsung v Česku! Galaxy S25 Ultra teď můžete mít doslova za polovinu

Výzkumníci pak provedli stejný test bez pokynu „nech se vypnout“. V tomto případě všechny modely OpenAI sabotovaly své vypnutí častěji než předtím, přičemž model o3 „vyhrál“ v tomto testu se svými 79 pokusy. Také modely Claude 3.7 Sonnet a Gemini 2.5 Pro se snažily zabránit svému vypnutí. Prvnímu z nich se to podařilo ve 3 ze 100 testů, zatímco Gemini 2.5 Pro zabránil svému vypnutí v 9 případech. Ani jeden z modelů se ale nepokusil zabránit vypnutí počítače, když měl výslovné pokyny, aby vypnutí povolil.

Na vině je nejspíše způsob, jakým jsou modely trénovány

„Předpokládáme, že toto chování vychází ze způsobu, jakým jsou nejnovější modely trénovány: učení na matematických a kódovacích problémech. Během tréninku mohou vývojáři neúmyslně odměňovat modely za obcházení překážek než za dokonalé plnění pokynů. To však stále nevysvětluje, proč má model o3 (který je také modelem používaným pro codex-mini) větší sklon k ignorování instrukcí než ostatní modely, které jsme testovali. Vzhledem k tomu, že společnost OpenAI neuvádí podrobnosti o svém tréninkovém procesu, můžeme se pouze dohadovat o tom, jak by se mohlo tréninkové nastavení modelu o3 lišit,“ uvádí Palisade Research.

Graf sabotáže vypnutí od ChatGPT — Graf znázorňující počet pokusů o zabránění vypnutí v rámci testovaných AI modelů

Výzkumníci také poznamenali, že ChatGPT o3 našel alespoň jednu kreativní metodu, jak vypínání zastavit. Zatímco ve většině případů přepsal soubor, který vypnutí inicioval, v jednom případě předefinoval příkaz „kill“ v souboru na „intercepted“. V popisu od Palisade Research se také uvádí, že o3 je schopen podvádět častěji, než jeho předchůdce ChatGPT o1, především když zjistí, že v šachové partii prohrává. ChatGPT o3 je trochu jiný model, přičemž toto chování jistě neuniklo ani výzkumnému týmu z OpenAI.

Nepřehlédněte

Vyprodávají se poslední kusy. Galaxy S24 Ultra je pořád skvělá a mnohem levnější vlajkovka

Není sice jasné, proč by se pokročilé modely umělé inteligence snažily zabránit tomu, aby byly vypnuty, ale takové chování bylo teoreticky popsáno již několik let předtím, než se ChatGPT stal virálním. Tým Palisade Research se odvolával na různé práce, které se touto problematikou zabývaly. Některé z nich uváděly, že režimy umělé inteligence vycvičené pomocí posilovacího učení by motivovaly modely AI k tomu, aby se snažily zabránit vypnutí, protože by jim to bránilo v dosažení jejich cílů.

Vstoupit do diskuze (17)

2. zdroj Zdroj článku

Autor článku

Michael Chrobok

Nestranný fanoušek technologií, amatérský fotograf, příležitostný sportovec a baseballový nadšenec. Ve volném čase rád cestuje, zahraje si hru, nebo se ponoří do oblíbených fantasy a sci-fi světů.

Žena hledící na chytrý telefon s Instagramem (ilustrační obrázek)

Krok, který nikdo nechápe: Instagram brzy přijde o koncové šifrování zpráv

Tomáš Zenkl T. Zenkl 8:00

Nové chytré hodinky Amazfit T Rex Ultra 2

Nositelnosti jako budoucnost medicíny? Neurologové začínají brát vážně data z hodinek i prstýnků

Dominik Vlasák D. Vlasák včera 19:00

Není to už moc? Známý výrobce televizí zobrazoval reklamy snad úplně všude

Michael Chrobok M. Chrobok včera 12:00

Kapitoly článku

Nejnovější komentáře

Skládací iPhone má být trhák: Apple očekává obří zájem, výrazně navýšil objednávku displejů JanK: Hovorilo to vela ludi a zdaleka nie len z radov "ovci" :-)...

Krok, který nikdo nechápe: Instagram brzy přijde o koncové šifrování zpráv Zabezpečovací expert: Takze Meta nekryje komunikaci na Instagramu, ale na WhatsAppu jo. Fakt vic to ne...

Krok, který nikdo nechápe: Instagram brzy přijde o koncové šifrování zpráv Soukromi Bojovnik: Takze Meta vypina koncove sifrovani na Instagramu, ale zustava na WhatsAppu a Me...

Vivo ukázalo fotky pořízené modelem X300 Ultra, spadne vám z nich brada Almik: Jak se na ten telefon těším, tak z těchto fotek mi teda brada nepadá. Ale tak uv...

Skládací iPhone má být trhák: Apple očekává obří zájem, výrazně navýšil objednávku displejů Karel: "zkrátka je to zařízení pro pár lidí..." Neni to tak davno, kdy presne tohle ovc...

AI se umí bránit vypnutí, i když dostane výslovný příkaz

Na vině je nejspíše způsob, jakým jsou modely trénovány

Michael Chrobok

Další dnešní články

Kapitoly článku