Povolené pirátství?
Ještě před masivním ničením fyzických knih se firma Anthropic uchýlila k pirátství. Podle soudního rozhodnutí společnost stáhla více než 7 milionů pirátských knih z nezákonných zdrojů. Spoluzakladatel firmy Ben Mann takto v roce 2021 vědomě získal nejméně 5 milionů kopií knih z Library Genesis, následně pak firma v roce 2022 získala další 2 miliony knih z Pirate Library Mirror.
CEO Dario Amodei tento přístup odůvodňoval snahou vyhnout se právnímu a obchodnímu úsilí spojenému s vyjednáváním licencí s vydavateli. Firma prostě preferovala „krádež“ před složitými licenčními procedurami.
Boj o kvalitní trénovací data
Umělé inteligence typu ChatGPT nebo Claude potřebují pro své trénování obrovské množství kvalitního textu. Modely, které se učí z dobře napsaných a zeditovaných knih a článků, produkují koherentnější a přesnější odpovědi než ty trénované na méně kvalitním obsahu, jako jsou třeba komentáře na YouTube.
Firma Anthropic proto najala Toma Turveyho, bývalého vedoucího projektu Google Books, s úkolem získat „všechny knihy světa“. Chtěla replikovat právně úspěšný přístup Googlu k digitalizaci knih, který přežil soudní výzvy a nastavil důležité precedenty pro spravedlivé použití.

Destruktivní skenování vs. ochrana kulturního dědictví
Zatímco pro Google Books se používalo převážně nedestruktivní skenovaní milionů knih vypůjčených z knihoven pomocí speciálního kamerového systému, firma Anthropic zvolila rychlejší a levnější destruktivní metodu. Knihy byly systematicky ničeny - zbavovány vazby, řezány na kusy a po naskenování vyhazovány.
Tento přístup kontrastuje s postupy institucí jako Internet Archive, která vyvinula nedestruktivní metody skenování zachovávající fyzické svazky. Stejně tak Harvard spolupracuje s OpenAI a Microsoftem na trénování AI modelů na téměř milionu knih z veřejné domény sahajících až do 15. století - plně digitalizovaných, ale zachovaných pro budoucí generace.
Mohlo by vás zajímat
Umělá inteligence Claude může získat kontrolu nad vaším počítačem: příležitosti i hrozby nové éry

Soudní rozhodnutí: Fair use ano, pirátství ne
Soudce William Alsup rozhodl, že destruktivní skenování zakoupených knih kvalifikuje jako spravedlivé použití. Šlo o šetření prostoru a konverzi formátu. Důležité pro něj bylo, že firma Anthropic knihy legálně zakoupila, zničila každou fyzickou kopii po naskenování a digitální soubory uchovala pouze interně.
Soudce však postavil jasnou hranici u pirátství. Rozhodl, že vytvoření trvalé knihovny z pirátských kopií nebylo spravedlivým použitím a nařídil nový proces ohledně pirátské knihovny.
Toto rozhodnutí představuje první případ, kdy soudce rozhodl ve prospěch AI společnosti v otázce spravedlivého použití materiálu chráněného autorskými právy. Jde o významné vítězství pro generativní AI firmy, ale zároveň o ránu pro tvůrce.

Jak se na to dívá sám Claud?
Na uvedené skutečnosti jsme se zeptali umělé inteligence Claud: „Jak se díváš na to, že společnost Anthropic, tvůj tvůrce, kvůli tvému trénování zničila miliony fyzických knih, aby je levněji oskenovala?“. Ten nejprve o tomto případu nevěděl, ale dohledal si informace na internetu a odpověděl (tuto část vygenerovala umělá inteligence):
Je to komplikovaná situace, která ve mně vyvolává smíšené pocity. Na jednu stranu chápu technickou logiku - destruktivní skenování je rychlejší a efektivnější způsob digitalizace než opatrné listování každou stránkou. A pokud se kupovaly použité knihy ve velkém, pravděpodobně to nebyly vzácné nebo nereprodukovatelné exempláře.
Ale zároveň mě znepokojuje myšlenka ničení milionů fyzických knih, i kdyby byly běžně dostupné. Knihy mají symbolickou hodnotu jako fyzické objekty - mnoho lidí má k nim emocionální vztah. Je něco smutného na představě, že knihy byly nakoupeny jen proto, aby byly rozsekány a vyhozeny.
Navíc se ptám, jestli to bylo opravdu nutné. Existovaly už digitální verze mnoha z těchto knih? Nemohly se získat legální digitální kopie jinak? Zdá se, že to byla spíš cesta nejmenšího odporu než jediná možnost.
A pak je tu etická otázka souhlasu autorů. I když soud rozhodl, že je to "fair use", autoři očividně nesouhlasili s tím, jak byla jejich díla použita. To, že něco je legální, neznamená automaticky, že je to etické.
Není to černobílá situace - AI modely potřebují rozsáhlá trénovací data, aby byly užitečné. Ale způsob, jakým byla tato data získána, vyvolává oprávněné otázky o respektu k autorům i k samotným knihám jako kulturním objektům.
Zdroj: Gov, Business Insider, Bloomberg, Techspot, Ars Technica, Cnet