
Ambiciózní projekt Mozilly Common Voice má vytvořit otevřenou databázi řečových vzorků, na kterých bude kdokoli moci trénovat aplikace pro rozpoznávání řeči. Teď se začal týkat i češtiny.
Česká komunita uživatelů aplikací Mozilly začala sbírat české věty, které pak budou dobrovolníci v rámci projektu Common Voice předčítat a vytvoří tak potřebný soubor hlasových ukázek.
„Po pár měsících fungování se začal Common Voice připravovat na další jazyky. Už teď je celý přeložený do češtiny a ta bude s největší pravděpodobností jedním z prvních jazyků, které se v něm objeví,“ píše na blogu české komunity Michal Vašíček.
Nejdříve je ale potřeba najít nejméně dva tisíce českých vět, které jsou pro trénování aplikací vhodné. Čeští fanoušci Mozilly zatím mají jen desetinu z potřebného počtu, a proto spustili web voice.mozilla.cz a vyzvali veřejnost, aby ke sběru přispěla.
Výsledná databáze má být open source, a tak je při poskytování textů potřeba myslet na dodržování autorských práv: „Vzhledem k tomu, že je dataset publikován pod licencí CC-0, je nutné vytvářet ho z vět dostupných jako volné dílo nebo pod licencí, která je s CC-0 kompatibilní. To můžou být například knihy autorů, kteří zemřeli před více než 70 lety a autorská práva vypršela. Dobrým výchozím bodem můžou být například knihy publikované Městskou knihovnou v Praze a dostupné volně ke stažení,“ upozorňuje web.