- Největší technologické firmy světa, mezi nimi Apple či Nvidia, trénovaly své AI na pochybných datech
- Skrze neziskovou organizaci EleutherAI využily bez souhlasu přes 170 tisíc videí z YouTube
- Mezi nimi byla i velká jména jako MKBHD, PewDiePie nebo MrBeast
Aktualizováno 18. 7.
K celé kauze se pro server 9to5Mac vyjádřil také Apple, který měl údajně využívat pochybně získaná data k tréninku své vlasní AI jménem Apple Intelligence. Podle giganta z Cupertina vytvořil OpenELM svůj jazykový model pouze pro výzkumné účely a i přesto, že se jedná o open source řešení, které je k volně k dispozici také na webových stránkách Machine Learning Research od Applu, jej společnost nevyužívala pro vylepšení jakékoli funkce související s Apple Intelligence.
Původní článek z 16. 7.
Umělá inteligence je jen tak dobrá jako data, která může využít ve svůj prospěch. Právě zisk těchto dat je jednou z největších překážek, kterým společnosti zabývající se vývojem umělé inteligence čelí. Zatímco některé firmy staví čistě na dobrovolnosti a datech, která do jejich modelů uživatelé sami vloží, jiné naopak AI modely nasadí na své již existující produkty a uživatelům pak jen dají na výběr, zda s využitím jejich dat pro trénink umělé inteligence souhlasí či nikoli. A pak je tady ještě třetí možnost.
Technologické firmy trénovaly své AI na pochybně získaných datech
Ta zahrnuje poněkud kontroverzní metodu, která spočívá jednoduše v tom, že se firma uživatelů na jejich souhlas nezeptá a jejich veřejně dostupnou tvorbu na internetu jednoduše využije bez jejich souhlasu. K tomu se podle všeho uchýlily také jedny z největších technologických firem, alespoň podle informací magazínu Wired. Podle něj společnosti trénovaly svou umělou inteligenci na více než 170 tisících stažených videích z YouTube, přičemž mezi nimi nechyběla tvorba takových osobností, jako je Marquees Brownlee (MKBHD), MrBeast, PewDiePie, Stephen Colbert, John Oliver nebo Jimmy Kimmel.
„Šetření společnosti Proof News zjistilo, že některé ze světově nejbohatších společností zabývajících se umělou inteligencí používají k tréninku umělé inteligence materiál z tisíců videí na YouTube. Společnosti tak činily navzdory pravidlům YouTube, která zakazují získávání materiálů z platformy bez povolení. Šetření zjistilo, že titulky ze 173 536 videí na YouTube, které byly extrahovány z více než 48 tisíc kanálů, použily těžké váhy Silicon Valley, včetně společností Anthropic, Nvidia, Apple a Salesforce,“ píše Wired.
Stahování údajně prováděla nezisková organizace EleutherAI, která tvrdí, že pomáhá vývojářům trénovat modely umělé inteligence. Ačkoli cílem bylo podle všeho poskytnout tréninkové materiály malým vývojářům a akademikům, datovou sadu využilo také několik technologických gigantů. „Podle výzkumného dokumentu, který zveřejnila společnost EleutherAI, je soubor dat součástí kompilace, kterou nezisková organizace vydala pod názvem Pile. Většina datových sad Pile je přístupná a otevřená komukoli na internetu, kdo má dostatek prostoru a výpočetního výkonu, aby k nim mohl přistupovat. Datovou sadu využili akademici a další vývojáři mimo oblast velkých technologií, ale nebyli jediní,“ uvádí Wired.

Nepřehlédněte
Hacker naboural interní systémy OpenAI. Odborníci varují před ohrožením národní bezpečnosti
Je nutné zdůraznit, že samotné velké společnosti přímo tato videa nestahovaly a a nejspíše ani odpovědní lidé uvnitř firem netušili, s jakými daty EleutherAI pracuje. To ovšem neznamená, že by byly zcela bez viny, a hodně také bude záležet na tom, jak se k celé záležitosti postaví. Podstatné na celé situaci bude samotné rozuzlení, včetně možné právní dohry, které by pro tuto nekalou praxi stanovilo precedent.