2) napr. europarl - z jednaní európskeho parlamentu
1) Je toho hrozne veľa. Najlepšie je nájsť si nejakú úvod do strojového prekladu. V podstate buď sa na to ide pravidlami, ktoré tvorí človek alebo štatistikou. Samozrejme, že tých hybridných prístupov sú desiatky. Dobrý zdroj na úvod je http://www.statmt.org/
Pre trochu dlhšie texty dokonca dokážeme rozpoznávať, či ich napísal človek alebo stroj - zatiaľ tak "beta"
1. V angličtině je nejlepším zdrojem skutečně http://statmt.org/, to je takový hub pro všechny výzkumníky v SMT.
V češtině vyšla předloni dobrá kniha přímo od doktora Bojara: http://ufal.mff.cuni.cz/books/2012-bojar
2. Pro AJ/ČJ doporučím náš korpus CzEng, ten je sesbíráný z vícero zdrojů: http://ufal.mff.cuni.cz/czeng
Pro další jazyky asi nejlépe hledat na http://statmt.org/
Děkuju moc za odpovědi.
Co se týká toho vašeho korpusu, to je senzace, koukám, že to je i anotované. Jen bych se zeptal na to komerční využití - hypotetický dotaz: když si na základě toho budu něco zkoušet, tak je to ok, byť nejsem z akademické sféry. Kdyby si na tom (respektive mimo jiné na tom) někdo vytrénoval překladač a provozoval službu typu Google Translate která je obložena reklamou, tak už to není ok, chápu to správně?
Přesně tak, zkoušejte si na tom co chcete, ale pokud byste na tom vydělával peníze (ať už třeba přes reklamu, nebo třeba poskytováním placených překladatelských služeb, prostě jakékoliv využití přinášející vám peníze), tak je potřeba od nás získat patřičnou licenci (cena za licenci se vždy dojednává individuálně, tj. v případě zájmu nás kontaktujte e-mailem).
Jsme rádi, že se vám korpus líbí :-) Samozřejmě takhle velký korpus nejde sestavovat ručně, tj. v datech je malé procento nečistot (naříklad sem tam je tam věta anglicky místo česky nebo naopak), a anotace je automatická (lemmata a morfologie je správně z více než 95%, syntax odhadem kolem 80%).