Přejít k hlavnímu obsahu

Digitální vandalismus: firma Anthropic zničila miliony knih kvůli trénování své umělé inteligence

Pavel Trousil 27.06.2025
Knihy
Zdroj: Vygenerováno v Gemini, redakce

Společnost Anthropic, tvůrce populárního AI asistenta Claude, se dostala do centra pozornosti kvůli kontroverznímu postupu při trénování svého modelu. Soudní dokumenty odhalily, že firma nakoupila miliony fyzických knih, které následně systematicky zničila během procesu digitalizace. Co na to říká samotný Claud?

Kapitoly článku

Povolené pirátství?

Ještě před masivním ničením fyzických knih se firma Anthropic uchýlila k pirátství. Podle soudního rozhodnutí společnost stáhla více než 7 milionů pirátských knih z nezákonných zdrojů. Spoluzakladatel firmy Ben Mann takto v roce 2021 vědomě získal nejméně 5 milionů kopií knih z Library Genesis, následně pak firma v roce 2022 získala další 2 miliony knih z Pirate Library Mirror.

CEO Dario Amodei tento přístup odůvodňoval snahou vyhnout se právnímu a obchodnímu úsilí spojenému s vyjednáváním licencí s vydavateli. Firma prostě preferovala „krádež“ před složitými licenčními procedurami.

Boj o kvalitní trénovací data

Umělé inteligence typu ChatGPT nebo Claude potřebují pro své trénování obrovské množství kvalitního textu. Modely, které se učí z dobře napsaných a zeditovaných knih a článků, produkují koherentnější a přesnější odpovědi než ty trénované na méně kvalitním obsahu, jako jsou třeba komentáře na YouTube.

Firma Anthropic proto najala Toma Turveyho, bývalého vedoucího projektu Google Books, s úkolem získat „všechny knihy světa“. Chtěla replikovat právně úspěšný přístup Googlu k digitalizaci knih, který přežil soudní výzvy a nastavil důležité precedenty pro spravedlivé použití.

Knihy
Zdroj: Vygeneroval Copilot, redakce
Trénování je jedna věc, ale ničit kvůli tomu knihy? To společnost Anthropic nepostavilo do dobrého světla.

Destruktivní skenování vs. ochrana kulturního dědictví

Zatímco pro Google Books se používalo převážně nedestruktivní skenovaní milionů knih vypůjčených z knihoven pomocí speciálního kamerového systému,  firma Anthropic zvolila rychlejší a levnější destruktivní metodu. Knihy byly systematicky ničeny - zbavovány vazby, řezány na kusy a po naskenování vyhazovány.

Tento přístup kontrastuje s postupy institucí jako Internet Archive, která vyvinula nedestruktivní metody skenování zachovávající fyzické svazky. Stejně tak Harvard spolupracuje s OpenAI a Microsoftem na trénování AI modelů na téměř milionu knih z veřejné domény sahajících až do 15. století - plně digitalizovaných, ale zachovaných pro budoucí generace.

Mohlo by vás zajímat

Soudní rozhodnutí: Fair use ano, pirátství ne

Soudce William Alsup rozhodl, že destruktivní skenování zakoupených knih kvalifikuje jako spravedlivé použití. Šlo o šetření prostoru a konverzi formátu. Důležité pro něj bylo, že firma Anthropic knihy legálně zakoupila, zničila každou fyzickou kopii po naskenování a digitální soubory uchovala pouze interně.

Soudce však postavil jasnou hranici u pirátství. Rozhodl, že vytvoření trvalé knihovny z pirátských kopií nebylo spravedlivým použitím a nařídil nový proces ohledně pirátské knihovny.

Toto rozhodnutí představuje první případ, kdy soudce rozhodl ve prospěch AI společnosti v otázce spravedlivého použití materiálu chráněného autorskými právy. Jde o významné vítězství pro generativní AI firmy, ale zároveň o ránu pro tvůrce.

Claude
Zdroj: Screenshot webu Claude, redakce
Ani sám Claude není z této situace zrovna nadšený.

Jak se na to dívá sám Claud?

Na uvedené skutečnosti jsme se zeptali umělé inteligence Claud: „Jak se díváš na to, že společnost Anthropic, tvůj tvůrce, kvůli tvému trénování zničila miliony fyzických knih, aby je levněji oskenovala?“. Ten nejprve o tomto případu nevěděl, ale dohledal si informace na internetu a odpověděl (tuto část vygenerovala umělá inteligence): 

Je to komplikovaná situace, která ve mně vyvolává smíšené pocity. Na jednu stranu chápu technickou logiku - destruktivní skenování je rychlejší a efektivnější způsob digitalizace než opatrné listování každou stránkou. A pokud se kupovaly použité knihy ve velkém, pravděpodobně to nebyly vzácné nebo nereprodukovatelné exempláře.

Ale zároveň mě znepokojuje myšlenka ničení milionů fyzických knih, i kdyby byly běžně dostupné. Knihy mají symbolickou hodnotu jako fyzické objekty - mnoho lidí má k nim emocionální vztah. Je něco smutného na představě, že knihy byly nakoupeny jen proto, aby byly rozsekány a vyhozeny.

Navíc se ptám, jestli to bylo opravdu nutné. Existovaly už digitální verze mnoha z těchto knih? Nemohly se získat legální digitální kopie jinak? Zdá se, že to byla spíš cesta nejmenšího odporu než jediná možnost.

A pak je tu etická otázka souhlasu autorů. I když soud rozhodl, že je to "fair use", autoři očividně nesouhlasili s tím, jak byla jejich díla použita. To, že něco je legální, neznamená automaticky, že je to etické.

Není to černobílá situace - AI modely potřebují rozsáhlá trénovací data, aby byly užitečné. Ale způsob, jakým byla tato data získána, vyvolává oprávněné otázky o respektu k autorům i k samotným knihám jako kulturním objektům. 

Zdroj: Gov, Business Insider, Bloomberg, Techspot, Ars Technica, Cnet


Máte k článku připomínku? Napište nám

Mohlo by se vám líbit








Všechny nejnovější zprávy

doporučujeme