- Umělá inteligence má v Česku poměrně široké možnosti, jak trénovat své databáze
- Z tisícovky největších webů v tuzemsku ale blokuje přístup AI jen hrstka z nich
- Nejčastěji jde o zpravodajské či informační servery
Umělá inteligence je v technologickém světě aktuálně téma číslo jedna. K tomu, aby chatboti různých společností mohli co možná nejlépe fungovat, potřebují velké množství dat. Ty mohou získávat na internetu, nicméně vzhledem k autorským právům nemohou přebírat úplně vše, co se jim zlíbí. Některé weby poté přímo aktivně bojují proti tomu, aby se jejich obsah do chatbotů vůbec dostal. Zatímco ve Spojených státech zakazuje AI boty téměř třetina z tisícovky nejnavštěvovanějších webových domén, v Česku je to pouze 5,1 %.
Bude se mít AI na čem trénovat?
Tuto skutečnost potvrzuje analýza webscrapingové platformy Apify, která zkoumala tisíc webů s největší návštěvností v Česku a stejný počet na Slovensku. Ukázalo se, že na rozdíl od Spojených států nezakazují AI boty například ani mnohá velká média, včetně České televize nebo Hospodářských novin. „Z našeho průzkumu vyplývá, že AI boti jsou v ČR zakázáni pouze na jednotkách procent webů. To je dobrá zpráva, protože webový obsah je zcela nezbytný pro trénink AI modelů a vývoj nových aplikací, jako třeba ChatGPT. Čím více dostupný bude kvalitní a hlavně pravdivý obsah, tím kvalitnější a pravdivější budou také tyto nové AI systémy,“ vysvětluje Jan Čurn, CEO a spoluzakladatel Apify.
Samotné zakázání AI botů je proces, při kterém webové stránky a online platformy určují, které automatizované programy je mohou stahovat. Tito boti, jako například GPTBot, CCBot nebo Google-Extended, hrají klíčovou roli pro trénování AI modelů a přispívají ke zlepšování umělé inteligence.
„Zákaz AI botů na webech pomocí souborů robots.txt typicky omezuje pouze pár konkrétních firem, jako OpenAI nebo Antrophic, ale všichni ostatní mohou stahovat obsah dál. Tento zákaz ovšem nemá oporu v zákonech a boti ho nemusejí respektovat. Rozhodující bude, zda využití cizího obsahu pro trénink vlastních AI modelů nebo jeho využití v AI aplikacích představuje porušení copyrightu vlastníků obsahu, nebo ne. A o tom rozhodnou buď zákonodárci, nebo soudy, jako nyní ve Spojených státech ve sporu New York Times versus OpenAI a Microsoft,“ doplňuje Čurn.
Podle průzkumu Apify blokují AI boty v Česku a na Slovensku nejčastěji stránky z kategorie zprávy a média. Z 90 webových stránek online magazínů a mediálních domů byl přístup AI botům zablokován na 55 z nich. Mezi blokujícími stránkami jsou například iDnes, Nova, Deník, eXtra.cz, Lidovky, Metro nebo ČTK. Blokování je běžné i mezi pracovními portály. SMARTmania.cz naopak přístup k AI botům nijak neblokuje a svá data pro trénování jazykových modelů poskytuje.
Ukázalo se, že AI boty blokují 4 z 10 prozkoumaných stránek. Do této kategorie patří například portály Práce.cz nebo Jobs.cz. České a slovenské weby nejčastěji blokují GPTbota, který byl zablokován v 3,7 procentech – na 23 českých a 14 slovenských stránkách. Následuje claudebot blokovaný v 2,5 procentech na 14 českých a 11 slovenských webech. Na třetím místě je anthropic-ai s 2 procenty, který je blokován 10 českými a 10 slovenskými stránkami.