- OpenAI nejspíš opravdu používá YouTube pro trénink svých jazykových modelů
- Podezření je nejen u modelu Sora, ale také u pokročilejšího GPT-4
- Ve své studii to tvrdí deník The New York Times, zástupci OpenAI se nevyjadřují
Odvětvím umělé inteligence posledních pár týdnů otřásá menší kauza, která však může přerůst v obrovské téma pro případné regulace. Americká společnost OpenAI stojící za jazykovým modelem GPT údajně trénuje nejnovější generaci svého modelu na volně dostupných videích z platformy YouTube.
Problém s umělou inteligencí?
V minulém týdnu jsme informovali o tom, že generální ředitel YouTube Neal Mohan se proti této praktice ohradil a označil ji za nesprávnou a porušující podmínky. V rozhovoru pro agenturu Bloomberg se jej redaktorka ptala na to, zdali ví o tom, že by jazykový model Sora generující videa na základě příkazů bral data pro trénink z platformy YouTube.
Mohan sám prý o ničem takovém neví, nicméně obdržel reporty o tom, že OpenAI – stojící za Sora i ChatGPT – dost možná využívá více dat než jen náhledové obrázky. Podle šéfa YouTube to ohrožuje autorská práva jednotlivých tvůrců a takové jednání by v případě, že se potvrdí, jednoznačně porušovalo transparentní podmínky platformy.
Milion videí z YouTube
Deník The New York Times následně v sobotu zveřejnil obrovskou studii, ve které uvádí, že dle jeho zdrojů pracovníci OpenAI trénují nejpokročilejší jazykový model GPT-4 na videích z YouTube, a co víc, umělá inteligence měla „zhlédnout“ již přes 1 milion hodin. Pro ilustraci, každý den jsou na platformě publikovány skoro 4 miliony videí s průměrnou délkou 4,4 minuty, což činí asi 271 tisíc hodin.
Zdroj přitom tvrdí, že OpenAI o potenciálním porušení podmínek YouTube ví, vše ale probíhalo pod vedením prezidenta firmy Grega Brockmana. Ten stál mimo jiné u zrodu platformy Whisper, která umí převést videa z YouTube do textové podoby a tato data následně předat pracovníkům pro trénování jazykového modelu umělé inteligence.
Nikdo z pověřených osob z OpenAI se k aféře zatím nevyjádřil, mlčí i zakladatel Sam Altman či technická ředitelka Mira Murati. Mluvčí společnosti pouze neurčitě reagovala na e-mail od redakce The Verge. Uvedla, že pro každý ze svých modelů společnost vytváří datové soubory, které pomáhají AI „porozumět světu“. Pro sběr těchto dat využívá mimo jiné i veřejně dostupná data, konkrétní případy však mluvčí nekomentovala.