TOPlist

ChatGPT už „nakoukalo“ více než milion hodin YouTube videí. Přestože to má zakázané

Umělá inteligence sleduje videa na YouTube (ilustrační obrázek)
  • OpenAI nejspíš opravdu používá YouTube pro trénink svých jazykových modelů
  • Podezření je nejen u modelu Sora, ale také u pokročilejšího GPT-4
  • Ve své studii to tvrdí deník The New York Times, zástupci OpenAI se nevyjadřují 

Odvětvím umělé inteligence posledních pár týdnů otřásá menší kauza, která však může přerůst v obrovské téma pro případné regulace. Americká společnost OpenAI stojící za jazykovým modelem GPT údajně trénuje nejnovější generaci svého modelu na volně dostupných videích z platformy YouTube.

Problém s umělou inteligencí?

V minulém týdnu jsme informovali o tom, že generální ředitel YouTube Neal Mohan se proti této praktice ohradil a označil ji za nesprávnou a porušující podmínky. V rozhovoru pro agenturu Bloomberg se jej redaktorka ptala na to, zdali ví o tom, že by jazykový model Sora generující videa na základě příkazů bral data pro trénink z platformy YouTube.

Mohan sám prý o ničem takovém neví, nicméně obdržel reporty o tom, že OpenAI – stojící za Sora i ChatGPT – dost možná využívá více dat než jen náhledové obrázky. Podle šéfa YouTube to ohrožuje autorská práva jednotlivých tvůrců a takové jednání by v případě, že se potvrdí, jednoznačně porušovalo transparentní podmínky platformy.

Milion videí z YouTube

Deník The New York Times následně v sobotu zveřejnil obrovskou studii, ve které uvádí, že dle jeho zdrojů pracovníci OpenAI trénují nejpokročilejší jazykový model GPT-4 na videích z YouTube, a co víc, umělá inteligence měla „zhlédnout“ již přes 1 milion hodin. Pro ilustraci, každý den jsou na platformě publikovány skoro 4 miliony videí s průměrnou délkou 4,4 minuty, což činí asi 271 tisíc hodin.

Zdroj přitom tvrdí, že OpenAI o potenciálním porušení podmínek YouTube ví, vše ale probíhalo pod vedením prezidenta firmy Grega Brockmana. Ten stál mimo jiné u zrodu platformy Whisper, která umí převést videa z YouTube do textové podoby a tato data následně předat pracovníkům pro trénování jazykového modelu umělé inteligence.



Umělá inteligence a logo platformy YouTube (ilustrační obrázek)



Nepřehlédněte

Šéf YouTube se tvrdě opřel do OpenAI: naše videa k tréninku Sory používat nebudete!

Nikdo z pověřených osob z OpenAI se k aféře zatím nevyjádřil, mlčí i zakladatel Sam Altman či technická ředitelka Mira Murati. Mluvčí společnosti pouze neurčitě reagovala na e-mail od redakce The Verge. Uvedla, že pro každý ze svých modelů společnost vytváří datové soubory, které pomáhají AI „porozumět světu“. Pro sběr těchto dat využívá mimo jiné i veřejně dostupná data, konkrétní případy však mluvčí nekomentovala.

Autor článku Jakub Fišer
Jakub Fišer
Novinář, fanoušek moderních technologií, letních měsíců a asijského jídla. Mám rád filmy od Lynche, obrazy od Pollocka, french house a fotbalový klub Arsenal. Ve volném čase hraju na PlayStationu a chodím běhat.

Kapitoly článku