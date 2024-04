OpenAI nejspíš opravdu používá YouTube pro trénink svých jazykových modelů

Podezření je nejen u modelu Sora, ale také u pokročilejšího GPT-4

Ve své studii to tvrdí deník The New York Times, zástupci OpenAI se nevyjadřují

Odvětvím umělé inteligence posledních pár týdnů otřásá menší kauza, která však může přerůst v obrovské téma pro případné regulace. Americká společnost OpenAI stojící za jazykovým modelem GPT údajně trénuje nejnovější generaci svého modelu na volně dostupných videích z platformy YouTube.

Problém s umělou inteligencí?

V minulém týdnu jsme informovali o tom, že generální ředitel YouTube Neal Mohan se proti této praktice ohradil a označil ji za nesprávnou a porušující podmínky. V rozhovoru pro agenturu Bloomberg se jej redaktorka ptala na to, zdali ví o tom, že by jazykový model Sora generující videa na základě příkazů bral data pro trénink z platformy YouTube.

Mohan sám prý o ničem takovém neví, nicméně obdržel reporty o tom, že OpenAI – stojící za Sora i ChatGPT – dost možná využívá více dat než jen náhledové obrázky. Podle šéfa YouTube to ohrožuje autorská práva jednotlivých tvůrců a takové jednání by v případě, že se potvrdí, jednoznačně porušovalo transparentní podmínky platformy.

Milion videí z YouTube

Deník The New York Times následně v sobotu zveřejnil obrovskou studii, ve které uvádí, že dle jeho zdrojů pracovníci OpenAI trénují nejpokročilejší jazykový model GPT-4 na videích z YouTube, a co víc, umělá inteligence měla „zhlédnout“ již přes 1 milion hodin. Pro ilustraci, každý den jsou na platformě publikovány skoro 4 miliony videí s průměrnou délkou 4,4 minuty, což činí asi 271 tisíc hodin.

Zdroj přitom tvrdí, že OpenAI o potenciálním porušení podmínek YouTube ví, vše ale probíhalo pod vedením prezidenta firmy Grega Brockmana. Ten stál mimo jiné u zrodu platformy Whisper, která umí převést videa z YouTube do textové podoby a tato data následně předat pracovníkům pro trénování jazykového modelu umělé inteligence.

Nikdo z pověřených osob z OpenAI se k aféře zatím nevyjádřil, mlčí i zakladatel Sam Altman či technická ředitelka Mira Murati. Mluvčí společnosti pouze neurčitě reagovala na e-mail od redakce The Verge. Uvedla, že pro každý ze svých modelů společnost vytváří datové soubory, které pomáhají AI „porozumět světu“. Pro sběr těchto dat využívá mimo jiné i veřejně dostupná data, konkrétní případy však mluvčí nekomentovala.