Hlavní navigace

Čeští lingvisté vytvořili na pomoc po tajfunu strojový překladač z filipínštiny

David Slížek 9. 12. 2014

Pouhých devět hodin trvala týmu z Ústavu formální a aplikované lingvistiky příprava překladového systému, který automaticky převádí texty z tagalštiny do angličtiny.

Byla to blesková akce. „V 10:40 ráno jsem na semináři svým šesti studentům řekl: pojďme to zkusit. Po 90 minutách shánění dat už většina z nich odešla a zbytek dodělal kolega Aleš Tamchyna. V 19:32 systém běžel,“ popisuje Ondřej Bojar z Ústavu formální a aplikované lingvistiky MFF UK v Praze.

Nápad vzešel z hlavy bývalého kolegy a lingvistům se zalíbila představa, že by překladač z filipínštiny (tagalštiny) mohl třeba pomoci při záchranných pracích po tajfunu Hagupit, který o víkendu na Filipínách zabil nejméně 21 lidí.

Zároveň si chtěli otestovat, jak rychle jsou schopní přidat nový jazyk do svého opensourcového strojového překladače Moses.

„Použili jsme frázový překlad, kde se všechno děje automaticky, stačí dodat dvojice dokumentů, které jsou si překladem. Počítač sám pozná, které věty si odpovídají, která slova si odpovídají v jednotlivých větách, a potom stejné úseky použije pro překlad nových vět,“ vysvětluje Bojar. Demo překladače si můžete vyzkoušet na této stránce.

Jak přeložit tweety

Výsledkem je hrubý překlad, který by ale při záchranných pracích zřejmě zcela dostačoval. „Použili jsme automatické vyhodnocení kvality překladu a výsledné číslo nebylo špatné, ale velmi dobře známe i slabiny této automatické metody hodnocení, takže se zdráhám cokoli tvrdit. Na to už bych se opravdu musel naučit filipínsky,“ podotýká Bojar. K dosažení lepší srozumitelnosti a věcné správnosti strojového překladu podle něj bude komputační lingvistika potřebovat ještě „pár desítek let výzkumu“.

Příklad s filipínštinou ale ukazuje, že je už dnes možné rychle vytvořit aspoň orientační strojový překlad téměř z jakéhokoli jazyka. „Závisí to především na dostupnosti paralelních dat. Kterékoli z oficiálních jazyků Evropské unie jsou pro velmi hrubý orientační překlad bez problémů, například japonsko-český překlad byl naopak oříšek, data nebyla přímo žádná,“ říká Bojar.

Kromě filipínštiny lingvisté nedávno experimentálně spustili i překladač z ruštiny a ukrajinštiny do češtiny. Testují na něm kvalitu strojového překladu příspěvků na Twitteru, které jsou kvůli neformálnosti a malé délce pro automaty velkým překladatelským oříškem.

Aby se měli od čeho odrazit, sbírají zatím v rámci projektu Tweeslate ruční překlady z obou jazyků. Pokud se chcete zapojit, hledají dobrovolníky, kteří by zprávy na Twitteru překládali a pak ověřovali správnost překladů.  

Našli jste v článku chybu?

10. 12. 2014 23:44

No, na to, co má Google k dispozici, jsou jeho překlady do češtiny prachmizerné.
Fandím vám, ať se daří. :)


10. 12. 2014 23:15

Jasně, sice máme výpočetní cluster, ale nemůžeme si dovolit ho celý použít na demo překladového systému :-) Jo, pokud si nás někdo zaplatí, abychom mu přeložili nějaké texty, tak to je jiná...
Jiná věc jsou ta data, Google má celej internet třikrát a denně si to aktualizuje, to fakt není v našich silách. A k tomu má i spoustu neveřejných dat, jako třeba z Google Books, texty které mu lidi zadávají do Google Translate, feedback od lidí kteří v Google Translate používají funkci "Navrhnout lepší př…

Vitalia.cz: To není kašel! Správná diagnóza zachrání život

To není kašel! Správná diagnóza zachrání život

DigiZone.cz: Mňam TV splnila slib a odešla z DVB-T

Mňam TV splnila slib a odešla z DVB-T

Měšec.cz: Kdy vám stát dá na stěhování 50 000 Kč?

Kdy vám stát dá na stěhování 50 000 Kč?

Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

Měšec.cz: Platby do zahraničí: pozor na tučné poplatky

Platby do zahraničí: pozor na tučné poplatky

Vitalia.cz: Spor o mortadelu: podle Lidlu falšovaná nebyla

Spor o mortadelu: podle Lidlu falšovaná nebyla

Lupa.cz: UX přestává pro firmy být magie

UX přestává pro firmy být magie

Podnikatel.cz: Změny v daních z příjmů u zaměstnávání

Změny v daních z příjmů u zaměstnávání

DigiZone.cz: Digi CZ výrazně zlevnila balíček HBO

Digi CZ výrazně zlevnila balíček HBO

120na80.cz: Rakovina oka. Jak ji poznáte?

Rakovina oka. Jak ji poznáte?

Měšec.cz: U levneELEKTRO.cz už reklamaci nevyřídíte

U levneELEKTRO.cz už reklamaci nevyřídíte

Podnikatel.cz: Přivýdělek u Airbnb nebo Uberu? Čekejte kontrolu

Přivýdělek u Airbnb nebo Uberu? Čekejte kontrolu

Podnikatel.cz: Zavře krám u #EET Malá pokladna a Teeta?

Zavře krám u #EET Malá pokladna a Teeta?

Měšec.cz: Air Bank zruší TOP3 garanci a zdražuje kurzy

Air Bank zruší TOP3 garanci a zdražuje kurzy

Vitalia.cz: Manželka je bio, ale na sex moc není

Manželka je bio, ale na sex moc není

Podnikatel.cz: Babiše přesvědčila 89letá podnikatelka?!

Babiše přesvědčila 89letá podnikatelka?!

120na80.cz: Pánové, pečujte o svoje přirození a prostatu

Pánové, pečujte o svoje přirození a prostatu

Vitalia.cz: Chtějí si léčit kvasinky. Lék je jen v Německu

Chtějí si léčit kvasinky. Lék je jen v Německu

DigiZone.cz: Milan Kruml: procházka TV historií

Milan Kruml: procházka TV historií

Podnikatel.cz: 3, 2, 1..EET startuje. Na co nezapomenout?

3, 2, 1..EET startuje. Na co nezapomenout?