Čeští lingvisté vytvořili na pomoc po tajfunu strojový překladač z filipínštiny

Pouhých devět hodin trvala týmu z Ústavu formální a aplikované lingvistiky příprava překladového systému, který automaticky převádí texty z tagalštiny do angličtiny.

Byla to blesková akce. „V 10:40 ráno jsem na semináři svým šesti studentům řekl: pojďme to zkusit. Po 90 minutách shánění dat už většina z nich odešla a zbytek dodělal kolega Aleš Tamchyna. V 19:32 systém běžel,“ popisuje Ondřej Bojar z Ústavu formální a aplikované lingvistiky MFF UK v Praze.

Nápad vzešel z hlavy bývalého kolegy a lingvistům se zalíbila představa, že by překladač z filipínštiny (tagalštiny) mohl třeba pomoci při záchranných pracích po tajfunu Hagupit, který o víkendu na Filipínách zabil nejméně 21 lidí.

Zároveň si chtěli otestovat, jak rychle jsou schopní přidat nový jazyk do svého opensourcového strojového překladače Moses.

„Použili jsme frázový překlad, kde se všechno děje automaticky, stačí dodat dvojice dokumentů, které jsou si překladem. Počítač sám pozná, které věty si odpovídají, která slova si odpovídají v jednotlivých větách, a potom stejné úseky použije pro překlad nových vět,“ vysvětluje Bojar. Demo překladače si můžete vyzkoušet na této stránce.

Jak přeložit tweety

Výsledkem je hrubý překlad, který by ale při záchranných pracích zřejmě zcela dostačoval. „Použili jsme automatické vyhodnocení kvality překladu a výsledné číslo nebylo špatné, ale velmi dobře známe i slabiny této automatické metody hodnocení, takže se zdráhám cokoli tvrdit. Na to už bych se opravdu musel naučit filipínsky,“ podotýká Bojar. K dosažení lepší srozumitelnosti a věcné správnosti strojového překladu podle něj bude komputační lingvistika potřebovat ještě „pár desítek let výzkumu“.

Příklad s filipínštinou ale ukazuje, že je už dnes možné rychle vytvořit aspoň orientační strojový překlad téměř z jakéhokoli jazyka. „Závisí to především na dostupnosti paralelních dat. Kterékoli z oficiálních jazyků Evropské unie jsou pro velmi hrubý orientační překlad bez problémů, například japonsko-český překlad byl naopak oříšek, data nebyla přímo žádná,“ říká Bojar.

KL_NOMINACE

Kromě filipínštiny lingvisté nedávno experimentálně spustili i překladač z ruštiny a ukrajinštiny do češtiny. Testují na něm kvalitu strojového překladu příspěvků na Twitteru, které jsou kvůli neformálnosti a malé délce pro automaty velkým překladatelským oříškem.

Aby se měli od čeho odrazit, sbírají zatím v rámci projektu Tweeslate ruční překlady z obou jazyků. Pokud se chcete zapojit, hledají dobrovolníky, kteří by zprávy na Twitteru překládali a pak ověřovali správnost překladů.  

25 názorů Vstoupit do diskuse
poslední názor přidán 11. 12. 2014 15:04

Školení: Online Public Relations aneb PR sociálního věku

  •  
    Jak se liší digitální PR oproti klasickému PR.
  • Jak tvořit tiskové zprávy.
  • Jak monitorovat a vyhodnocovat PR.

Detailní informace o školení »