Věty jsou posbírány, začíná nahrávání. Mozilla Common Voice se učí česky

6. 1. 2020

Ilustrační obrázek - zatím nepoužívat! LUPA — Ilustrační obrázek

Projekt Mozilla Common Voice posbíral dostatečný počet vět, díky kterým se může rozjet tvorba dat pro rozpoznávání řeči v českém jazyce. Common Voice je otevřená aktivita Mozilly, díky které by každý zájemce měl získat možnost učit stroje automatické rozpoznávání řeči v jednotlivých jazycích. Data jsou k dispozici jako svobodné dílo.

Česká komunita od začátku roku 2018 hledala dva tisíce vět v našem jazyce. Nyní je nasbírané množství dostatečné, došlo k lokalizaci oficiální stránky a je možné začít sbírat zvukové nahrávky. V češtině jsou aktuálně nahrány dvě hodiny a sedmnáct minut a aktivních hlasů šest. Cílem je získat deset tisíc hodin dat.

„Nejjednodušší, co můžete udělat, je prostě zamířit na stránky projektu Common Voice a začít číst nahlas věty tam nabízené. Nestrachujte se přitom o kvalitu svého mikrofonu nebo hlučnost svého okolí. Nízká kvalita záznamu není vůbec na škodu, a v podstatě jediné podmínky, které musíte splňovat, je, že zadané věty přečtete správně, v nahrávce půjde alespoň nějak rozpoznat, co říkáte, a na pozadí nebude nikde slyšet hlas nějaké jiné osoby, u kterého by šlo také rozpoznat, co říká. Navíc se ani nebojte, že byste měli na nahrávání málo času; nahrání jedné sady vět Vám zabere v průměru přibližně 30 sekund,“ popisuje komunita na blogu Mozilly.

Vstoupit do diskuse

Zasílat nově přidané názory e-mailem

Našli jste v článku chybu?

Jan Sedlák

Dlouholetý technologický novinář, kmenový redaktor portálu Lupa.cz. Kromě Lupy publikuje i na webu E15 a v zahraničních médiích.

Sdílet

Autor aktuality

Jan Sedlák

Anketa

Předplatíte si nový web Václava Moravce?