
Projekt Mozilla Common Voice posbíral dostatečný počet vět, díky kterým se může rozjet tvorba dat pro rozpoznávání řeči v českém jazyce. Common Voice je otevřená aktivita Mozilly, díky které by každý zájemce měl získat možnost učit stroje automatické rozpoznávání řeči v jednotlivých jazycích. Data jsou k dispozici jako svobodné dílo.
Česká komunita od začátku roku 2018 hledala dva tisíce vět v našem jazyce. Nyní je nasbírané množství dostatečné, došlo k lokalizaci oficiální stránky a je možné začít sbírat zvukové nahrávky. V češtině jsou aktuálně nahrány dvě hodiny a sedmnáct minut a aktivních hlasů šest. Cílem je získat deset tisíc hodin dat.
„Nejjednodušší, co můžete udělat, je prostě zamířit na stránky projektu Common Voice a začít číst nahlas věty tam nabízené. Nestrachujte se přitom o kvalitu svého mikrofonu nebo hlučnost svého okolí. Nízká kvalita záznamu není vůbec na škodu, a v podstatě jediné podmínky, které musíte splňovat, je, že zadané věty přečtete správně, v nahrávce půjde alespoň nějak rozpoznat, co říkáte, a na pozadí nebude nikde slyšet hlas nějaké jiné osoby, u kterého by šlo také rozpoznat, co říká. Navíc se ani nebojte, že byste měli na nahrávání málo času; nahrání jedné sady vět Vám zabere v průměru přibližně 30 sekund,“ popisuje komunita na blogu Mozilly.