Hledá se 2000 českých vět. Komunita Mozilly začala sbírat texty pro Common Voice

26. 2. 2018

Ambiciózní projekt Mozilly Common Voice má vytvořit otevřenou databázi řečových vzorků, na kterých bude kdokoli moci trénovat aplikace pro rozpoznávání řeči. Teď se začal týkat i češtiny.

Česká komunita uživatelů aplikací Mozilly začala sbírat české věty, které pak budou dobrovolníci v rámci projektu Common Voice předčítat a vytvoří tak potřebný soubor hlasových ukázek.

„Po pár měsících fungování se začal Common Voice připravovat na další jazyky. Už teď je celý přeložený do češtiny a ta bude s největší pravděpodobností jedním z prvních jazyků, které se v něm objeví,“ píše na blogu české komunity Michal Vašíček.

Nejdříve je ale potřeba najít nejméně dva tisíce českých vět, které jsou pro trénování aplikací vhodné. Čeští fanoušci Mozilly zatím mají jen desetinu z potřebného počtu, a proto spustili web voice.mozilla.cz a vyzvali veřejnost, aby ke sběru přispěla.

Výsledná databáze má být open source, a tak je při poskytování textů potřeba myslet na dodržování autorských práv: „Vzhledem k tomu, že je dataset publikován pod licencí CC-0, je nutné vytvářet ho z vět dostupných jako volné dílo nebo pod licencí, která je s CC-0 kompatibilní. To můžou být například knihy autorů, kteří zemřeli před více než 70 lety a autorská práva vypršela. Dobrým výchozím bodem můžou být například knihy publikované Městskou knihovnou v Praze a dostupné volně ke stažení,“ upozorňuje web.

Vstoupit do diskuse (6 názorů)

Zasílat nově přidané názory e-mailem

Našli jste v článku chybu?

David Slížek

Šéfredaktor Lupa.cz a externí spolupracovník Českého rozhlasu Plus. Dříve editor IHNED.cz, předtím Aktuálně.cz a Českého rozhlasu. Zaměřuje se na telekomunikace, umělou inteligenci i na média. Najdete ho na Twitteru nebo na LinkedIn.

Sdílet

Autor aktuality

David Slížek

Témata:

Anketa

Dali byste si do počítače čínský SSD disk, případně čínské RAM?