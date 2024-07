Největší technologické firmy světa, mezi nimi Apple či Nvidia, trénovaly své AI na pochybných datech

Skrze neziskovou organizaci EleutherAI využili bez souhlasu přes 170 tisíc videí z YouTube

Mezi nimi byli i velká jména jako MKBHD, PewDiePie nebo MrBeast

Umělá inteligence je jen tak dobrá, jako data, která může využít ve svůj prospěch. Právě zisk těchto dat je jedna z největších překážek, které společnosti zabývající se vývojem umělé inteligence čelí. Zatímco některé firmy staví čistě na dobrovolnosti a datech, která do jejich modelů uživatelé sami vloží, jiné naopak AI modely nasadí na své již existující produkty a uživatelům pak jen dají na výběr, zda s využitím jejich dat pro trénink umělé inteligence souhlasí či nikoli. A pak je tady ještě třetí možnost.

Ta zahrnuje poněkud kontroverzní metodu, která spočívá jednoduše v tom, že se firma uživatelů na jejich souhlas nezeptá a jejich veřejně dostupnou tvorbu na internetu jednoduše využije bez jejich souhlasu. K tomu se podle všeho uchýlili také jedny z největších technologických firem, alespoň podle informací magazínu Wired. Podle něj společnosti trénovaly svou umělou inteligenci na více než 170 tisících stažených videích z YouTube, přičemž mezi nimi nechyběla tvorba takových osobností, jako Marquees Brownlee (MKBHD), MrBeast, PewDiePie, Stephen Colbert, John Oliver nebo Jimmy Kimmel.

„Šetření společnosti Proof News zjistilo, že některé z nejbohatších společností zabývajících se umělou inteligencí na světě používají k tréninku umělé inteligence materiál z tisíců videí na YouTube. Společnosti tak činily navzdory pravidlům YouTube, která zakazují získávání materiálů z platformy bez povolení. Šetření zjistilo, že titulky ze 173 536 videí na YouTube, které byly extrahovány z více než 48 tisíc kanálů, použily těžké váhy Silicon Valley, včetně společností Anthropic, Nvidia, Apple a Salesforce,“ píše Wired.

Stahování údajně prováděla nezisková organizace EleutherAI, která tvrdí, že pomáhá vývojářům trénovat modely umělé inteligence. Ačkoli cílem bylo podle všeho poskytnout tréninkové materiály malým vývojářům a akademikům, datovou sadu využilo také několik technologických gigantů. „Podle výzkumného dokumentu, který zveřejnila společnost EleutherAI, je soubor dat součástí kompilace, kterou nezisková organizace vydala pod názvem Pile. Většina datových sad Pile je přístupná a otevřená komukoli na internetu, kdo má dostatek prostoru a výpočetního výkonu, aby k nim mohl přistupovat. Datovou sadu využili akademici a další vývojáři mimo oblast velkých technologií, ale nebyli jediní,“ uvádí Wired.

Je nutné zdůraznit, že samotné velké společnosti přímo tato videa nestahovala a a nejspíše ani odpovědní lidé uvnitř firem netušili, s jakými daty EleutherAI pracuje. To ovšem neznamená, že by byly zcela bez viny a hodně také bude záležet na tom, jak se k celé záležitosti postaví. Podstatné na celé situaci bude samotné rozuzlení, včetně možné právní dohry, které by pro tuto nekalou praxi stanovilo precedent.