Z historie strojového překladu: Od lamačů nacistických šifer po neuronové sítě

31. 5. 2021

Doba čtení: 7 minut

Komponenta sálového počítače IBM 701. Na tomto modelu probíhal Georgetownský experiment.

Autor: Dan, podle licence: CC BY-SA 2.0

Pod strojovým překladačem jazyka si dnes už asi většina lidí představí Google Translate. Historie softwaru na automatický překlad mezi jednotlivými jazyky je ale mnohem bohatší.

Zájem o automatické překlady cizojazyčných textů se objevily už ve třicátých letech minulého století, kdy v roce 1933 nezávisle na sobě navrhli Arménec s francouzskými kořeny George Artsrouni a Rus Petr Petrovič Trojanskij automatické překladače na bilinguální překlad, které využívaly papírové pásky.

Zájem o tyto technologie se ale zvýšil až po 2. světové válce v souvislosti s rostoucím napětím mezi západem a východem. Vývoj povzbudil i nástup prvních sálových počítačů.

„Zajímavé ale je, že tehdejší vědci, kteří se tím zabývali, navrhovali použít známé technologie z oblasti šifrování. Mysleli si, že překlad cizího jazyka je podobný rozluštění německých depeší pomocí Enigmy, a říkali, to je vlastně to samé, jako když jsme tady museli dekódovat německé depeše o ponorkách, protože my jenom nevíme, co ta ruština je, pro nás je to jako kódovaná angličtina. A potřebujeme dekódovat, co ta zpráva byla,“ vysvětluje prof. Jan Hajič, výpočetní lingvista z Ústavu formální a aplikované lingvistiky Matematicko-fyzikální fakulty Univerzity Karlovy.

TIP: Zajímá vás minulost počítačů a internetu? Poslouchejte podcast Příběhy z historie českého internetu.

Nicméně, pokusy o „dešifrování“ ruštiny byly nakonec neúspěšné, mimo jiné i proto, že tehdejším počítačům chyběl dostatečný výkon na extrakci znalostí o jazyku a překladu. „Druhý problém byl tehdejší nedostatek dat. Chyběl dostatek manuálně přeložených textů řekněme z té ruštiny do angličtiny, aby se na tom dalo něco naučit,“ dodává Hajič.

V následujících letech se tak vývojáři pokoušeli rozvinout takzvaný lingvistický přístup ke strojovému překladu. „Dneska se tomu říká systémy založené na pravidlech. Vznikaly slovníky podobné slovníkům pro lidi, kdy se vývojáři snažili ručně naprogramovat do počítače známé překlady slov. To se nějakou dobu dařilo, věřím tomu, že pro ty bezpečnostní aplikace se to dotáhlo zřetelně do použitelného stavu,“ říká Hajič.

Autor: Dan, podle licence: CC BY-SA 2.0

Komponenta sálového počítače IBM 701. Na tomto modelu probíhal Georgetownský experiment.

Důležitý byl v tomto ohledu Georgetownský experiment ze 7. ledna 1954. Sálový počítač IBM 701 přeložil z ruštiny do angličtiny šedesátku vět. Ty byly vyražené do děrných štítků a týkaly se širokého spektra témat od politiky, práva, matematiky nebo vědy. Experiment vzbudil velký zájem o výpočetní lingvistiku a navnadil americkou vládu k finanční podpoře výzkumu.

Optimismus dlouho nevydržel

„Překlad slovníkovým způsobem nefunguje ani mezi zcela blízkými jazyky. My jsme něco takového napsali pro český a slovenský jazyk, tam to jakž takž jde, ale také to není ono. Pro angličtinu a francouzštinu to taky nefungovalo, stejně tak pro ruštinu. Takže se nad ten slovník ještě psala různá jazyková pravidla. Jenže aby to fungovalo, muselo by se vyrobit obrovské množství pravidel a management softwaru byl záhy prakticky nemožný,“ vysvětluje Hajič základní problémy lingvistického přístupu. „Někdy na konci 60. let pak vyšlo najevo, že k žádnému velkému pokroku nedošlo. Veřejné financování poté bylo spíš jen sporadické a zlom nastal až v 90. letech, kdy se výzkum přesunul od lingvistického přístupu ke statistickým metodám použitým předtím k řečovým aplikacím.“

Navzdory svým „vrozeným vadám“ ale lingvistický přístup přinesl několik životaschopných aplikací. Jednou z nich je systém SYSTRAN navržený v polovině 60. let pro armádní účely. „Firma pořád existuje, jen to dneska už také dělají hlubokým učením. Ale byla komerčně úspěšná, například to dokázala prodat Evropským společenstvím, konkrétně Evropskému parlamentu. Těmi jejich systémy se to alespoň „předpřeložilo“ a následně překlad někdo ručně zrevidoval. Podobný systém jménem METEO existoval i v Kanadě kvůli nutnosti překládat vše do francouzštiny. Dobře to fungovalo třeba u počasí, což je velmi úzká doména, kde stačí jen tisíce pravidel. Na správný chod systému pak dohlížel jen jeden člověk.“

Výzkum aktivně probíhal nejen na západě, ale i v tehdejším Československu. Kromě zmíněných překladů z češtiny do slovenštiny se výzkumníci zabývali i úzce zaměřenými aplikacemi na velké světové jazyky. „Výzkumy tu probíhaly od 70. let, já jsem se jich tehdy účastnil ještě jako student střední školy a následně Matfyzu. Nejprve se pracovalo na systému APAČ pro překlad češtiny a angličtiny. Já sám poté, co jsem skončil školu, tak jsem ve Výzkumném ústavu matematických strojů pracoval na překladači do ruštiny RUSLAN. Zkoušeli jsme překládat dokumentaci k systémům, což povinně muselo být taky rusky,“ vzpomíná Hajič a dodává, že tehdejší systémy měly řadu limitů.

„Česko-slovenský APAČ nebyl úplně špatný, ale fungoval jen ve velmi úzkých segmentech, třeba v elektrotechnické dokumentaci. Jakmile to chtěl člověk použít na cokoliv jiného, tak to začalo narážet na šílenou komplexnost pravidel, kdy ve dvou či třech lidech se to zkrátka nedalo napsat. A na víc nebyly peníze.“

Zlom přineslo strojové učení

První signály, že dny lingvistického přístupu jsou sečteny, přišly na konci 80. let, kdy firma IBM zveřejnila výsledky výzkumu systému Candide. Ten na rozdíl od předchůdců využíval při překladu statistické metody založené na korpusu. „Proces v tomto případě probíhá tak, že počítač se místo ‚otrockého‘ překládání ze slovníku snaží odhadnout, jaký překlad je pro jednotlivé fráze nejpravděpodobnější,“ vysvětluje Hajič, který na systému Candide mezi lety 1991 a 1993 spolupracoval pod vedením Petera Browna a dalších kolegů v IBM i s dalším českým výzkumníkem, Lubošem Urešem.

Vedle toho se objevil i japonský výzkum překladu založeného na příkladech, kdy se systém snažil dotyčnou frázi nebo výraz přeložit v souladu s tím, jak je někdo přeložil v minulosti. Od toho byl již jen krůček – i když trval téměř čtvrt století – k systémům využívajícím strojové a hluboké učení a neuronové sítě schopné autonomního učení. Prvním takovým systémem byl překladač nazvaný Montreal Neural Machine Translation. Podle Hajiče je zajímavé, že systém mezi prvními jazyky nabízel také češtinu, a to díky dobrým a velkým korpusům právě z Matfyzu. Na vývoji překladu pomocí neuronových sítí pracovali i odborníci z University of Edinburgh, kteří představili systém Nematus.

TIP: Obrazem: Jak vypadaly československé počítače, čipy, stroje na děrné štítky a další výpočetní technika

„Větu přečte neuronová síť, která, velmi zjednodušeně řečeno, přemění, transformuje jednotlivá slova a jejich posloupnosti do vektorů čísel. Výsledný vektor se pak pošle do druhé půlky systému, kde vznikne přeložená věta. A ta používá jednak vektor, který vznikl tím, že si systém přečetl vstupní větu. A zároveň překladač znova čte vstupní větu a snaží se její části a kontext, který je v tom vektoru zakuklený, přetransformovat na tu výstupní větu. A to tedy i ve správném pořadí slov, které odpovídá danému jazyku výstupu. Taky se tomu systému říká Transformer. Sice pochází od Googlu, ale je to dnes open source, takže se to všichni snaží používat, modifikovat pro různé typy jazyků, různé typy oblastí, domén, ve kterých se ten překlad koná,“ vysvětluje Hajič, ale zároveň dodává, že i překlad pomocí neuronových sítí má své limity.

„Na druhou stranu se také říká, že si tyto systémy jenom zapamatují data, která jsme do toho nalili dopředu, a snaží se jaksi velmi hloupě emulovat člověka-překladatele. Neuronové sítě překládají podle vzorců, které v těch číslech najdou. Na druhou stranu funguje to dobře, takže proč ne.“ Navzdory nedostatkům tak strojové učení předchozí lingvistické systémy zcela nahradilo.

Svět překladačů ovládl Google

Strojové překlady založené na neuronových sítích pro správné fungování potřebují co největší množství dat, aby se naučily, jak mají překlady jednotlivých jazyků správně vypadat. Takový systém logicky nahrává Googlu, jehož databáze jsou oproti těm akademickým nesrovnatelně větší. Na druhou stranu, podle Hajiče ale neplatí, že by byl Google Translate jednoznačně špičkou v oboru. „Vysokou kvalitu má třeba německý systém DeepL, který využívá zmíněnou open-source technologii Transformer od Googlu, ale dosahuje velmi kvalitních výsledků. Na trhu působí i Microsoft, vlastní překladač jménem CUBBITT máme i my. Pro některé páry jazyků je s nimi náš systém rovnocenný, ne-li o chlup lepší,“ dodává.

Zároveň je ale kvůli bezplatnému užívání Google Translate velmi rozšířený, což řadu ostatních firem věnujících se tomuto oboru i desítky let přivedlo v podstatě ke krachu. „Trh je Googlem zásadně poškozený. Vlastně to není trh, protože když máte velkého hráče, který dává všechno zadarmo, tak trh těžko vzniká a momentálně existuje jen v úzce vymezených segmentech, kde Google buď nedává dobré výsledky, nebo nemá dostatečně nasbíraná data pro konkrétní páry méně využívaných jazyků. Google vyhrál, má schopné lidi, a hlavně má data, která je pro univerzity nebo jiné firmy těžké nashromáždit. Firma to přitom dělá jako vedlejší efekt svého hlavního byznysu, což je vyhledávání a na něm založený příjem z reklamy. Pro Google to není core business, ale protože měl data, tak to zkusil a je mu úplně jedno, že to dává zadarmo, protože tím získává další data a další zájemce.“

Podle Hajiče tak ostatní firmy mohou dnes Googlu v oblasti strojového překladu konkurovat pouze tak, jako to dělají už v mnoha jiných oblastech – důrazem na soukromí. „Nabízí se to třeba v právní oblasti, u ekonomických otázek, překládání žádostí o patenty, kdy firma nechce riskovat únik know-how. Sami jsme měli zajímavý kontrakt s jednou velkou firmou, která nechtěla, aby se její dokumenty dostaly kamkoliv jinam. Museli jsme zajistit překlad z IT stránky, domluvit, jak data bezpečně předat, jak se budou uchovávat, jak mazat. Obecně ale většina lidí ochotně dává data výměnou za funkcionalitu zdarma a u překladů je to stejné,“ uzavírá Hajič.