Novinky

Neuronové sítě ve službách překladačů: překlady na internetu

redakce 29.09.2022

On-line překladač původem z Německa poskytuje lepší výsledky než jeho často jazyk komolící konkurence od Googlu až po Microsoft. Start-up z Kolína nad Rýnem je se svým přístupem úspěšný po celém světě, české uživatele nevyjímaje.

„Nastavte prut zpěvníku na nastavení. Pěkný způsob zpěvu ukloní druhou část telefonu.“ Ještě před patnácti lety nás takové stylistické výstřelky v překladech návodů k použití a v technických popisech možná mohly bavit. Kdejaký člověk s dobrou pamětí na podobné kuriozity se s několika takovými citáty mohl stát bavičem večera. Zdrojem byly někdy mizerné překlady, které výrobci zejména z východní Asie přidávali ke svým výrobkům kvůli nedostatku vyškolených překladatelů.

K prvnímu nasazení automatizovaných překladů docházelo již v 50. letech 20. století a uživateli byly překvapivě hlavně armádní organizace. Výsledky ale tehdy nebyly, mírně řečeno, příliš přesvědčivé. V roce 1966 zjistila vědecká zpráva, kterou si nechal vypracovat americký Pentagon, že v této na první pohled tak zbytečné oblasti je třeba značného zlepšení. Od 80. let 20. století vědci pokračovali v práci na strojových překladech, až nakonec Google v roce 2006 zveřejnil svůj Google Translator. Program tak již nesloužil k tajným vojenským účelům, ale byl on-line, a tudíž přístupný všem.

V té době se výzkumníci spoléhali především na koncepty založené na pravidlech, v nichž se tvořily dvojice slov. Pomocí jazykových algoritmů, které obsahovaly gramatické a jazykové vlastnosti originálního a cílového jazyka, byl vytvořen více či méně přesný překlad.

Čím více, tím přesněji

Statistický přístup, který se objevil později, používá namísto těchto lingvistických pravidel co největší soubor příkladových vět, které obsahují příslušnou dvojici slov. Tímto způsobem se systém může naučit vytvářet stále přesnější překlady. Výhoda: tento koncept lze aplikovat na jakýkoli jazyk, pro který existuje dostatek dat, tj. příkladových vět. Funguje tedy pro velké množství jazyků. To není tak snadné v případě přístupu založeného na pravidlech, kdy je třeba pro každý jazyk navrhovat nové slovníky a pravidla. Je to proto, že hlavním problémem překladu je nejednoznačnost, která téměř vždy způsobí, že překlad 1:1 nefunguje. Například „kohout“ může znamenat jak drůbež, tak vodovodní kohoutek. Teprve kontext nám objasní, co je tím myšleno.

Chyba stahování s proudem

Statistické metody rozkládají větu na prvky o dvou nebo třech slovech. Pro každý z těchto modulů se vyhledá nejpravděpodobnější překlad a poté se vše poskládá podle gramatických pravidel cílového jazyka. Díky tomu jsou vhodné pro práci s texty specifickými pro dané odvětví, ale často se i tak míjejí účinkem. Před deseti lety se mohlo stát, že se z anglické chybové hlášky „download error: no stream available“ stalo české „Chyba stahování: Není dostupný žádný proud“. Jednoduše nebyl zohledněn technický kontext, překlad se doslova ztratil v proudu.

Nejnověji vyvinutá neuronová metoda využívá podobný princip jako statistický přenos, ale v pozadí zde pracuje umělá inteligence (AI), která samostatně rozpoznává a aplikuje kontextové korelace na základě co nejširšího tréninkového materiálu příkladových vět a textů. Pro odhad významu se hodnotí i celé věty, často celý úsek obsahující překládané slovo. Pokud je umělá inteligence dostatečně vyškolená, dokáže odhadnout pravděpodobnost určité posloupnosti slov a rozpoznat souvislosti podobně jako lidský mozek. Dnes se tento přístup používá v různých překladových službách.

Na internetu dnes existuje celá řada překladových služeb; nejznámější je Google Překladač, který funguje od roku 2006. K dispozici jsou také služby od Microsoftu, německého vydavatele slovníků Pons, dále například česká Lingea, kterou využívá k překladům ve svém prohlížeči Seznam, nebo DeepL. Poslední jmenovaný značí „Deep Language“, což již leccos napovídá o principu fungování.

Jedna věta, různé překlady

„Let us be thankful for the fools. But for them
the rest of us could not succeed.“ Mark Twain

DeepL
Buďme vděční za blázny. Nebýt jich, my ostatní bychom neuspěli.

Google Překladač
Buďme vděční za hlupáky. Ale pro ně my ostatní jsme nemohli uspět.

Microsoft
Buďme vděční za blázny. Ale pro ně jsme my ostatní nemohli uspět.

Pons
Buďme vděční za blázny. Ale pro ně jsme my ostatní nemohli uspět.

Lingea
Buďme vděční za blázny. Ale pro ně jsme my ostatní nemohli uspět.

Z pěti překladačů si pouze DeepL uvědomuje, že „but“ zde má jiný význam než české „ale“.

Kvalita tréninkových materiálů

Vše stojí a padá s kvalitou vzorových textů a překladů, z nichž se má umělá inteligence učit. Proto při vývoji spolupracoval DeepL s profesionálními překladateli, aby byl zajištěn co nejlepší výběr. Na začátku byl slovník, který byl na internet umístěn již v roce 2008 předchůdcem společnosti Linguee. Od ostatních slovníků se lišil tím, že neprezentoval pouze dvojici slov originál–překlad, ale zároveň uváděl řadu příkladových vět, v nichž se daný termín objevuje v různých souvislostech a je překládán v závislosti na kontextu.

Vývojáři DeepL svou nabídkou předčí i velkou konkurenci od Googlu nebo Microsoftu. V testech dosahuje kolínská společnost pravidelně lepších výsledků než její konkurenti. Jedním z důvodů je podle zakladatele Jaroslava Kutylowského kvalita týmu, který provádí výzkum a vývoj na vysoké úrovni. „Navíc jako evropská společnost můžeme přirozeně lépe reagovat na požadavky našich zákazníků na ochranu osobních údajů. Naše zaměření nám také pomáhá nabízet produkt, který přesně splňuje požadavky našich zákazníků,“ dodává.

Zároveň se uživatelská základna neomezuje pouze na německy mluvící nebo evropské země. Nabídka DeepL se podle něj uplatňuje především v profesionálním prostředí, v komerčním sektoru i u orgánů veřejné správy. „V současné době jsou našimi hlavními trhy EU a Japonsko. Ale i další země velmi silně rostou, takže se celkově považujeme za globální společnost.“ Od svého založení v roce 2017 se společnost do roku 2021 rozrostla z 22 na více než 200 zaměstnanců. To je vlastně doba, kdy velké společnosti s miliardovými hotovostními rezervami obvykle podávají velkorysé nabídky na převzetí nadějných start-upů. Kutylowski však o takových nabídkách nic neříká.

Co dnes umožňuje výpočetní výkon

Překládat s DeepL můžete nejen přímo v okně browseru, ale nabízí se i aplikace pro Windows, Mac nebo iOS s mnoha šikovnými funkcemi. | Zdroj: DeepL

Koncept neuronových on-line cloudových překladů je stále poměrně mladý, protože potřebný – a cenově dostupný – výpočetní výkon je k dispozici teprve několik málo let. Současné prudce rostoucí ceny elektřiny se tak mohou snadno stát problémem pro firmu, jejíž produkt je energeticky náročný. Pro DeepL jsou však rizika zvládnutelná, říká Kutylowski: „Naše datová centra jsou téměř výhradně napájena zelenou elektřinou, takže výkyvy cen fosilních paliv na nás nemají tak velký dopad.“

On-line překladatelská služba Pons, která rovněž sídlí v Německu, má naproti tomu zcela odlišné zázemí. Nakladatelství, založené v roce 1978, je v Německu známé svými zelenými slovníkovými knížkami, které celé generace školáků používají k procvičování francouzské nebo anglické slovní zásoby, a s jeho knihami se můžete setkat i u nás nebo na Slovensku. Trh s papírovými slovníky však prudce klesá kvůli konkurenčním nabídkám na internetu.

Vedení nakladatelství se snaží zbavit závislosti na tisku a změnit svou pozici na poskytovatele digitálních médií s on-line službami, mobilními aplikacemi a elektronickými knihami. Jednou z nabídek je internetový překladač, který se vyvinul ze slovníku, jenž byl uveden jako on-line služba již v roce 2001. „Na rozdíl od Googlu nebo Microsoftu oslovuje Pons uživatele redakčně vytvořenými a jazykově upravenými slovníky,“ vysvětluje Jan Cloeren, ředitel vydavatelství Pons. „Myslíme si, že právě tato kombinace strojového překladu a přidané bezpečnosti překladu prostřednictvím ověřeného obsahu přináší našim uživatelům hmatatelnou přidanou hodnotu.“

Vzhledem k tomu, že Pons pochází z tradičního překladatelského odvětví, má nakladatelství k dispozici rozsáhlý poklad lexikografického know-how a odpovídající slovníkové databáze. Podle Cloerena je to v podstatě stejné, jako kdybyste se museli jednou orientovat v cizím městě s navigací a jednou bez ní: „Pokud to má být rychlé, je lepší volbou automatický překlad. Pokud se však chcete překládání věnovat sami, bylo by dobré, kdybyste si slovíčka a fráze znovu a znovu vyhledávali ve slovníku.“ V podstatě každé heslo ve slovníku je mikroučební jednotkou, která velmi systematicky vysvětluje různé varianty překladu klíčového slova.

Vývoj strojového překladu

1) Strojový překlad založený na pravidlech (RBMT)
Slovo za slovem
Zdrojový text je slovo po slově přeložen do cílového jazyka. Jasná pravidla říkají stroji, které slovo má přeložit a jak.

2) Strojový překlad založený na příkladech (EBMT)
Příklad za příkladem
Uložené překlady se při novém překladu používají jako příklady a jsou použity podle míry podobnosti. (srovnatelné s fungováním translation memories).

3) Statistický strojový překlad (EBMT)
Korpus za korpusem
Před překladem se analyzují co nejobsáhlejší korpusy dvojjazyčných textů, aby se našly ekvivalenty v cílovém jazyce. Při analýze jsou rozpoznávána slova i gramatické konstrukce.