Galerie: Digitální vandalismus: firma Anthropic zničila miliony knih kvůli trénování své umělé inteligence

Další fotogalerie

Tenhle kapesní počítač je pořádný retro závan v moderním pojetí. Má e-ink displej i speciální OLED pásek

Nadšenec zkouší vzkřísit éru starých dobrých PDA. Jejich PocketMage je drobný ka...

Stará dobrá Nokia. Do tlačítkových telefonů dává AI funkce, ale uživatelé to považují za hloupé a zbytečné

Slavná značka mobilních telefonů Nokia se opět snaží získat pozornost. Firma HMD...

Videorecenze Huawei Watch Fit 5 Pro: Našli jsme špičkové hodinky pro sportovní nadšence. Nabízí jasný displej a nově NFC platby

Huawei Watch Fit 5 Pro jsou novou generací sportovních chytrých hodinek, které m...

Legenda je zpátky a se zdrojovým kódem. Kultovní česká hra se po 25 letech dočkala vylepšení

Legendární taktická akce Operace Flashpoint z roku 2001 se vrací v plné parádě. ...

Tohle jsou nejlepší tablety. Velký test má jasného vládce, ale jeden levný model se ukázal jako překvapivý hit

Který tablet si koupit v roce 2026? Tuhle otázku si pokládá nemálo uživatelů. Ča...

Digitální vandalismus: firma Anthropic zničila miliony knih kvůli trénování své umělé inteligence

Pavel Trousil 27.06.2025

Společnost Anthropic, tvůrce populárního AI asistenta Claude, se dostala do centra pozornosti kvůli kontroverznímu postupu při trénování svého modelu. Soudní dokumenty odhalily, že firma nakoupila miliony fyzických knih, které následně systematicky zničila během procesu digitalizace. Co na to říká samotný Claud?

Kapitoly článku

Povolené pirátství?
Boj o kvalitní trénovací data
Destruktivní skenování vs. ochrana kulturního dědictví
Soudní rozhodnutí: Fair use ano, pirátství ne
Jak se na to dívá sám Claud?

Povolené pirátství?

Ještě před masivním ničením fyzických knih se firma Anthropic uchýlila k pirátství. Podle soudního rozhodnutí společnost stáhla více než 7 milionů pirátských knih z nezákonných zdrojů. Spoluzakladatel firmy Ben Mann takto v roce 2021 vědomě získal nejméně 5 milionů kopií knih z Library Genesis, následně pak firma v roce 2022 získala další 2 miliony knih z Pirate Library Mirror.

CEO Dario Amodei tento přístup odůvodňoval snahou vyhnout se právnímu a obchodnímu úsilí spojenému s vyjednáváním licencí s vydavateli. Firma prostě preferovala „krádež“ před složitými licenčními procedurami.

Boj o kvalitní trénovací data

Umělé inteligence typu ChatGPT nebo Claude potřebují pro své trénování obrovské množství kvalitního textu. Modely, které se učí z dobře napsaných a zeditovaných knih a článků, produkují koherentnější a přesnější odpovědi než ty trénované na méně kvalitním obsahu, jako jsou třeba komentáře na YouTube.

Firma Anthropic proto najala Toma Turveyho, bývalého vedoucího projektu Google Books, s úkolem získat „všechny knihy světa“. Chtěla replikovat právně úspěšný přístup Googlu k digitalizaci knih, který přežil soudní výzvy a nastavil důležité precedenty pro spravedlivé použití.

Destruktivní skenování vs. ochrana kulturního dědictví

Zatímco pro Google Books se používalo převážně nedestruktivní skenovaní milionů knih vypůjčených z knihoven pomocí speciálního kamerového systému, firma Anthropic zvolila rychlejší a levnější destruktivní metodu. Knihy byly systematicky ničeny - zbavovány vazby, řezány na kusy a po naskenování vyhazovány.

Tento přístup kontrastuje s postupy institucí jako Internet Archive, která vyvinula nedestruktivní metody skenování zachovávající fyzické svazky. Stejně tak Harvard spolupracuje s OpenAI a Microsoftem na trénování AI modelů na téměř milionu knih z veřejné domény sahajících až do 15. století - plně digitalizovaných, ale zachovaných pro budoucí generace.

Mohlo by vás zajímat

Umělá inteligence Claude může získat kontrolu nad vaším počítačem: příležitosti i hrozby nové éry

Novinky

Soudní rozhodnutí: Fair use ano, pirátství ne

Soudce William Alsup rozhodl, že destruktivní skenování zakoupených knih kvalifikuje jako spravedlivé použití. Šlo o šetření prostoru a konverzi formátu. Důležité pro něj bylo, že firma Anthropic knihy legálně zakoupila, zničila každou fyzickou kopii po naskenování a digitální soubory uchovala pouze interně.

Soudce však postavil jasnou hranici u pirátství. Rozhodl, že vytvoření trvalé knihovny z pirátských kopií nebylo spravedlivým použitím a nařídil nový proces ohledně pirátské knihovny.

Toto rozhodnutí představuje první případ, kdy soudce rozhodl ve prospěch AI společnosti v otázce spravedlivého použití materiálu chráněného autorskými právy. Jde o významné vítězství pro generativní AI firmy, ale zároveň o ránu pro tvůrce.

Ani sám Claude není z této situace zrovna nadšený.

Jak se na to dívá sám Claud?

Na uvedené skutečnosti jsme se zeptali umělé inteligence Claud: „Jak se díváš na to, že společnost Anthropic, tvůj tvůrce, kvůli tvému trénování zničila miliony fyzických knih, aby je levněji oskenovala?“. Ten nejprve o tomto případu nevěděl, ale dohledal si informace na internetu a odpověděl (tuto část vygenerovala umělá inteligence):

Je to komplikovaná situace, která ve mně vyvolává smíšené pocity. Na jednu stranu chápu technickou logiku - destruktivní skenování je rychlejší a efektivnější způsob digitalizace než opatrné listování každou stránkou. A pokud se kupovaly použité knihy ve velkém, pravděpodobně to nebyly vzácné nebo nereprodukovatelné exempláře.
Ale zároveň mě znepokojuje myšlenka ničení milionů fyzických knih, i kdyby byly běžně dostupné. Knihy mají symbolickou hodnotu jako fyzické objekty - mnoho lidí má k nim emocionální vztah. Je něco smutného na představě, že knihy byly nakoupeny jen proto, aby byly rozsekány a vyhozeny.
Navíc se ptám, jestli to bylo opravdu nutné. Existovaly už digitální verze mnoha z těchto knih? Nemohly se získat legální digitální kopie jinak? Zdá se, že to byla spíš cesta nejmenšího odporu než jediná možnost.
A pak je tu etická otázka souhlasu autorů. I když soud rozhodl, že je to "fair use", autoři očividně nesouhlasili s tím, jak byla jejich díla použita. To, že něco je legální, neznamená automaticky, že je to etické.
Není to černobílá situace - AI modely potřebují rozsáhlá trénovací data, aby byly užitečné. Ale způsob, jakým byla tato data získána, vyvolává oprávněné otázky o respektu k autorům i k samotným knihám jako kulturním objektům.

Zdroj: Gov, Business Insider, Bloomberg, Techspot, Ars Technica, Cnet