Jasně, sice máme výpočetní cluster, ale nemůžeme si dovolit ho celý použít na demo překladového systému :-) Jo, pokud si nás někdo zaplatí, abychom mu přeložili nějaké texty, tak to je jiná...
Jiná věc jsou ta data, Google má celej internet třikrát a denně si to aktualizuje, to fakt není v našich silách. A k tomu má i spoustu neveřejných dat, jako třeba z Google Books, texty které mu lidi zadávají do Google Translate, feedback od lidí kteří v Google Translate používají funkci "Navrhnout lepší překlad"... to my prostě nemáme.
Přesně tak, zkoušejte si na tom co chcete, ale pokud byste na tom vydělával peníze (ať už třeba přes reklamu, nebo třeba poskytováním placených překladatelských služeb, prostě jakékoliv využití přinášející vám peníze), tak je potřeba od nás získat patřičnou licenci (cena za licenci se vždy dojednává individuálně, tj. v případě zájmu nás kontaktujte e-mailem).
Jsme rádi, že se vám korpus líbí :-) Samozřejmě takhle velký korpus nejde sestavovat ručně, tj. v datech je malé procento nečistot (naříklad sem tam je tam věta anglicky místo česky nebo naopak), a anotace je automatická (lemmata a morfologie je správně z více než 95%, syntax odhadem kolem 80%).
Děkuju moc za odpovědi.
Co se týká toho vašeho korpusu, to je senzace, koukám, že to je i anotované. Jen bych se zeptal na to komerční využití - hypotetický dotaz: když si na základě toho budu něco zkoušet, tak je to ok, byť nejsem z akademické sféry. Kdyby si na tom (respektive mimo jiné na tom) někdo vytrénoval překladač a provozoval službu typu Google Translate která je obložena reklamou, tak už to není ok, chápu to správně?
1. V angličtině je nejlepším zdrojem skutečně http://statmt.org/, to je takový hub pro všechny výzkumníky v SMT.
V češtině vyšla předloni dobrá kniha přímo od doktora Bojara: http://ufal.mff.cuni.cz/books/2012-bojar
2. Pro AJ/ČJ doporučím náš korpus CzEng, ten je sesbíráný z vícero zdrojů: http://ufal.mff.cuni.cz/czeng
Pro další jazyky asi nejlépe hledat na http://statmt.org/
Napište nám e-mail, kontakty najdete na http://ufal.mff.cuni.cz/ -- pokud si nainstalujete Mosese, tak modely pro CZ-EN překlad pravděpodobně můžeme poskytnout.
2) napr. europarl - z jednaní európskeho parlamentu
1) Je toho hrozne veľa. Najlepšie je nájsť si nejakú úvod do strojového prekladu. V podstate buď sa na to ide pravidlami, ktoré tvorí človek alebo štatistikou. Samozrejme, že tých hybridných prístupov sú desiatky. Dobrý zdroj na úvod je http://www.statmt.org/
Pre trochu dlhšie texty dokonca dokážeme rozpoznávať, či ich napísal človek alebo stroj - zatiaľ tak "beta"
No, jak už psal kolega přede mnou, Moses už je taky nějaký ten pátek ve vývoji... Další věc je, že obecné, "nevyladěné" překladače, jako je třeba Google, většinou nenabízejí až tak kvalitní překlady. Lepších výsledků dosahují specializované stroje, které jsou učeny a laděny na konkrétní druhy textů (také to dost záleží na jazyku - u některých dosahují strojové překlady lepších výsledků než u jiných). Jestliže je tedy uvedená Chimera speciálně programována a učena na určitý druh textů (třeba novinové články, jak zaznělo výše), pak se dá očekávat, že bude dosahovat u tohoto druhu textů lepších výsledků než nespecializovaný překladač, a to třeba i v případě, kdy ten nespecializovaný překladač má třeba i větší korpus textů, na kterém se učí. U jiných textů už to samozřejmě může být jinak.
Čeština je dost komplikovaný jazyk s relativně nízkým počtem mluvčích žijících v zemi s ne zrovna oslnivým ekonomickým potenciálem... Tak proč by se měl Google přetrhnout, aby uměl překládat z a do češtiny na slušné úrovni?
Motivace české akademické obce tu bude řádově silnější (a i české komerční subjekty mají výhodu hlubší znalosti češtiny a osobní zainteresovanosti na ní).
Jestli to spíš nebude tím, že Google translate je produkce běžící na škálovatelné, geograficky distribuované a několikaTFloop farmě. Oproti tomu kluci z UFALu jsou ve škatulce 'research' s velmi minimalistickými prostředky oproti Google. BTW Google má zdarma poněkud nesrovnatelně rozsáhlejší databázi duálních textů/trénovacích dat.
Takže bych se rozhodně nepouštěl do srovnávání nesrovnatelného.
BTW2 Nazdar Aleši, snad neplácám do větru... :).
Tohle mi nedává smysl. Google má svůj překladač už několik let a on si jednoho dne prostě někdo vytvoří překladač Moses, který ten od Googlu porazí... I když jen v určitých textech, ale i tak... Takže fakt nechápu co ten Google dělá... To chce, aby lidi přešli ke konkurenci, když nebude dále vylepšovat svůj překladač?
Tak Google má asi v kapse taky něco trošku lepšího, než co dal online zdarma pro všechny.
Ale nic proti, dobrá práce. Kdyby nám někdo před 15 lety řekl, že bude online zdarma překlad z čehokoliv do čehokoliv, tak se budu hodně smát. Dejme tomu ještě pár (desítek?) let a překladatelé nebudou mít co žrát :)
Ještě pro upřesnění: náš systém pro anglicko-český překlad je vyladěný na překlad novinových textů, v němž se akademicky "soutěží" v rámci WMT Translation Task a ve kterém naše Chiméra už dvakrát po sobě zvítězila nejen nad ostatními akademickými systémy, ale právě i nad Google Translate a Bing Translatorem. Při překladu jiných typů textu ale může docházet k takto nešťastným výběrům překladů.
Webové demo je navíc podstatně ořezaná verze systému -- chybí komponenty, které překlad výrazně zlepšují, avšak pro nasazení v reálném čase jsou zatím příliš pomalé (syntaktický překladový systém TectoMT a automatický korektor Depfix) a modely jsou kvůli rychlosti značně prořezané.
Však my víme, že to s překladem není tak jednoduché, jak se píše v novinách. :-)
A když už náš systém do češtiny dáváte do kontrastu s Google Translate, tak musím zmínit, že na novinových textech jsme Google porazili (už dvakrát), i když to tak z vaší ukázky nevypadá. Demo na webu je jen velmi ořezaná varianta tohoto systému: http://ufal.mff.cuni.cz/chimera
Moses
Mojžíš je provádění statistické (nebo aktivovaný) přístup na strojový překlad (mt). To je dominantní přístup v oblasti v tuto chvíli, a zaměstnává on - line překlad systémů uskutečněné takové, Google a Microsoft. V poslední době se náš hybridní systém s chimérou, Mojžíš jako ústřední prvek, vedly lépe než Google přeložit, když překládal z angličtiny do češtiny. Toto interaktivní demo slouží jako ilustrace překladatelských schopností Mojžíše. Napsat nějaký text v levém dolním rohu krabice a vidím, že jsou automaticky převedeny na létání v rámečku vpravo. Při ukázání myši nad textem v jedné z krabic, aby viděl frázi zarovnání. Pro neinteraktivní použití vidět odpočinek API dokumentaci.
Google Translate
Mojžíš je implementace statistické (nebo řízené daty), přístup k strojového překladu (MT). To je dominantní přístup v oblasti v současné době, a je zaměstnán pro on-line překladatelských systémů nasazených likes Google a Microsoft. V poslední době se náš hybridní systém Chimera, s Mojžíšem jako centrální složku, lepší výsledky než Google Překladač při překládání z angličtiny do češtiny.
Tento interaktivní demo slouží jako ilustrace překladatelských schopností Mojžíše. Napište nějaký text v levém dolním poli a vidět, že je automaticky přeložen z běhu do pole vpravo. Najeďte myší nad textem v jedné z krabic vidět zarovnání fráze. Pro non-interaktivní využití viz REST API Dokumentace.