ChatGPT už „nakoukalo“ více než milion hodin YouTube videí. Přestože to má zakázané

Umělá inteligence sleduje videa na YouTube (ilustrační obrázek)

OpenAI nejspíš opravdu používá YouTube pro trénink svých jazykových modelů
Podezření je nejen u modelu Sora, ale také u pokročilejšího GPT-4
Ve své studii to tvrdí deník The New York Times, zástupci OpenAI se nevyjadřují

Odvětvím umělé inteligence posledních pár týdnů otřásá menší kauza, která však může přerůst v obrovské téma pro případné regulace. Americká společnost OpenAI stojící za jazykovým modelem GPT údajně trénuje nejnovější generaci svého modelu na volně dostupných videích z platformy YouTube.

Problém s umělou inteligencí?

V minulém týdnu jsme informovali o tom, že generální ředitel YouTube Neal Mohan se proti této praktice ohradil a označil ji za nesprávnou a porušující podmínky. V rozhovoru pro agenturu Bloomberg se jej redaktorka ptala na to, zdali ví o tom, že by jazykový model Sora generující videa na základě příkazů bral data pro trénink z platformy YouTube.

Mohan sám prý o ničem takovém neví, nicméně obdržel reporty o tom, že OpenAI – stojící za Sora i ChatGPT – dost možná využívá více dat než jen náhledové obrázky. Podle šéfa YouTube to ohrožuje autorská práva jednotlivých tvůrců a takové jednání by v případě, že se potvrdí, jednoznačně porušovalo transparentní podmínky platformy.

Milion videí z YouTube

Deník The New York Times následně v sobotu zveřejnil obrovskou studii, ve které uvádí, že dle jeho zdrojů pracovníci OpenAI trénují nejpokročilejší jazykový model GPT-4 na videích z YouTube, a co víc, umělá inteligence měla „zhlédnout“ již přes 1 milion hodin. Pro ilustraci, každý den jsou na platformě publikovány skoro 4 miliony videí s průměrnou délkou 4,4 minuty, což činí asi 271 tisíc hodin.

Zdroj přitom tvrdí, že OpenAI o potenciálním porušení podmínek YouTube ví, vše ale probíhalo pod vedením prezidenta firmy Grega Brockmana. Ten stál mimo jiné u zrodu platformy Whisper, která umí převést videa z YouTube do textové podoby a tato data následně předat pracovníkům pro trénování jazykového modelu umělé inteligence.

Nepřehlédněte

Šéf YouTube se tvrdě opřel do OpenAI: naše videa k tréninku Sory používat nebudete!

Nikdo z pověřených osob z OpenAI se k aféře zatím nevyjádřil, mlčí i zakladatel Sam Altman či technická ředitelka Mira Murati. Mluvčí společnosti pouze neurčitě reagovala na e-mail od redakce The Verge. Uvedla, že pro každý ze svých modelů společnost vytváří datové soubory, které pomáhají AI „porozumět světu“. Pro sběr těchto dat využívá mimo jiné i veřejně dostupná data, konkrétní případy však mluvčí nekomentovala.

Vstoupit do diskuze

2. zdroj Zdroj článku

Autor článku

Jakub Fišer

Novinář, fanoušek moderních technologií, letních měsíců a asijského jídla. Mám rád filmy od Lynche, obrazy od Pollocka, french house a fotbalový klub Arsenal. Ve volném čase hraju na PlayStationu a chodím běhat.