AI průmysl se řítí do datové krize. Těm, kdo si už „nakradli“, to ale moc nevadí

Podle nové studie se na internetu začíná kvalitní obsah pomalu „zamykat“
Velcí hráči už data mají, ale na čem budou trénovat případní nováčci?
Teoreticky by mohla pomoct syntetická data, tedy trénink na datech vytvořených AI

Nová studie ukazuje, že firmy zabývající se umělou inteligencí rychle ztrácejí přístup k důležitým tréninkovým datům. To může mít zásadní vliv na kvalitu budoucích modelů, ale především to téměř znemožní vstup do AI průmyslu nováčkům.

Data pomalu mizí

Vývoj budoucích modelů je kvůli tzv. datové krizi v ohrožení. Výzkum od Data Provenance Initiative na MIT totiž zjistil, že celá řada důležitých webových zdrojů zavedla v uplynulém roce výrazné omezení používání svých dat. Pochopitelně v reakci na nedávný ohromný sběr všech možných typů dat firmami jako OpenAI, kdy měla být údajně některá data sesbírána a využita bez povolení a neoprávněně.

Studie zkoumala 14 000 webových domén zahrnutých ve třech běžně používaných souborech tréninkových dat AI: C4, RefinedWeb a Dolma. Výzkumníci zjistili, že přibližně 5 % všech dat a 25 % dat z vysoce kvalitních zdrojů bylo nějakým způsobem omezeno. Omezení jsou nejčastěji skrze dobře známý soubor robots.txt, který může robotům zakázat procházet i sbírat data z daných webů.

„Jsme svědky rychlého poklesu souhlasu s používáním dat napříč weby, což bude mít důsledky nejen pro společnosti zabývající se umělou inteligencí, ale i pro výzkumníky, akademiky a nekomerční subjekty,“ řekl Shayne Longpre, hlavní autor studie.

Studie tak jen podtrhuje rostoucí napětí mezi vývojáři AI a tvůrci obsahu. S obrovským rozmachem umělé inteligence v posledních letech najedou totiž leckteří vydavatelé a tvůrci obsahu přišli na něco nemilého – že si vývojáři AI jejich obsah jednoduše bez jejich souhlasu vzali a natrénovali na něm své velké jazykové modely. Přitom nejde ani zdaleka jen o volně dostupný obsah jen tak se povalující na internetu, ale údajně i placený, veřejně nedostupný obsah.

Ve studii se můžete mimo jiné dočíst, že až 45 % dat v souboru C4 bylo omezeno podmínkami poskytování služeb webových stránek. Že se omezení týkají jak textového, tak multimediálního obsahu, a hlavně že jde o trend, který bude s největší pravděpodobností pokračovat.

Důsledky takového omezování obsahu jsou poměrně jasně čitelné a dalekosáhlé. Na jedné straně jsou velké společnosti jako Google, OpenAI, Meta, Apple, Microsoft a do jisté míry třeba i Anthropic. Ti už všichni sice mají natrénováno a své modely „jen“ zlepšují, nemluvě o celé řadě dohod a smluv s vydavateli, které zrovna třeba OpenAI oznamuje skoro každou chvíli. Jenže i velikáni mohou narazit, neboť najednou nebudou mít pro dodatečné trénování a zlepšování svých modelů tolik jednoduše přístupných dat.

Nováčci mají smůlu

Mnohem horší to budou mít nováčci, především ale menší společnosti nebo třeba akademičtí výzkumníci zabývající se umělou inteligencí. Na rozdíl od velkých technologických firem totiž nemají lidské ani finanční prostředky na to, aby si byli schopní licencovat všechna relevantní data od všech možných subjektů.

Pikantní je na tom ale především fakt, že velké firmy už data mají – jak ta legálně získaná, tak i ta, o kterých někteří tvrdí, že jsou získaná nelegálně. Žaloby pak ale rozsekne soud, nicméně například v OpenAI už jednoduše posbírali většinu toho, co na internetu posbírat šlo, a jejich modely z toho už mohou několik let těžit. Případný nováček už toho jednak tolik neposbírá a hlavně nejspíš nebude mít ani tolik peněz na individuální dohody, licence a smlouvy. A bez těch to asi jen tak nepůjde.

Někteří vydavatelé a platformy totiž začali v reakci na rozmach AI zpeněžovat svá data, která jsou najednou cennější než kdy dřív. Reddit a StackOverflow nyní vybírají od AI firem tučné šeky výměnou za přístup k hromadám více či v některých případech i méně kvalitního obsahu. Na druhé straně pak stojí vydavatelství, jako je třeba The Associated Press nebo News Corp, která už stihla s některými AI firmami uzavřít dohody o trvalém přístupu ke svým článkům.

Jenže na druhé strany tady zase narůstají i právní výzvy – nejviditelnější asi ta od The New York Times, která loni zažalovala jak OpenAI, tak Microsoft. Předmětem žaloby je údajné porušení autorských práv, protože podle NYT obě firmy neoprávněně používaly zpravodajské články k trénování svých AI modelů. Otázkou není jen to, jak soud dopadne, ale i co se bude dít dál – zaplatí OpenAI a Microsoft jen a pouze tučnou pokutu, nebo budou muset konkrétní data smazat a už natrénované modely tak třeba i trochu zhoršit? Pokud něco takového tedy bude vůbec možné.

Firmy zabývající se vývojem umělé inteligence se ale domáhají ochrany pod všemocným zaříkadlem „spravedlivého použití“ (tzv. fair use), tak uvidíme, jestli jim zrovna tohle u soudů projde.

Roboti robotům

Jedním z potenciálních řešení oné „datové krize“ jsou tzv. syntetická data. Tedy trénování AI systémů na datech, která vytvořily AI systémy. Otázkou ale je, jestli bude například OpenAI schopný s pomocí ChatGPT 4o vytvořit dostatečně kvalitní syntetická data na to, aby na nich mohla efektivně trénovat ChatGPT 5. Na druhou stranu mnoho obsahu na internetu není zrovna valné kvality, a tak syntetická data mohou v některých případech třeba i trochu pomoci.

Autoři studie také mimochodem tvrdí, že jsou zapotřebí nové nástroje, které by majitelům webových stránek poskytly podrobnější kontrolu nad využitím jejich dat. V současné době je protokol o vyloučení robotů v podstatě jednoduchým nástrojem, který říká jen „ano“ nebo „ne“ a mezi komerčním, nekomerčním či jakýmkoliv jiným využitím dat vůbec nerozlišuje.

Jenže něco takového je v praxi běh na dlouhou trať a už teď se ukazuje, jak daleko výše zmínění velcí hráči jdou. Řečeno trochu neomaleně a velmi nediplomaticky – kdo si už nakradl, je v pohodě a nováček ho nikdy nebude mít šanci dohnat. A to nejen kvůli omezenému množství talentu, kdy těch nejlepších AI výzkumníků opravdu není nekonečně mnoho, ale i kvůli extrémní hardwarové náročnosti a v neposlední řadě i kvůli kvalitním datům, na kterých by se mohly velké jazykové modely trénovat.

Ve výsledku tak velmi pravděpodobně v následujících letech žádného velkého konkurenta OpenAI, Googlu nebo třeba Mety nejspíš neuvidíme. A pokud ano, bude mu stát za zády někdo s „neomezenými“ prostředky – Amazon, Tencent apod. Jak to bude ale se získáváním dostatečného množství kvalitních dat, je prozatím s velkým otazníkem.

Vstoupit do diskuze (2)

2. zdroj Zdroj článku

Autor článku

Adam Homola

Nové technologie mě fascinují už od útlého věku. K dlouhodobému zájmu o hry a herní průmysl se mi postupem času přirozeně přidal i hardware, software, internetové služby a od roku 2022 i umělá inteligence.