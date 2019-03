Karel Wolf

Mozilla aktualizovala svou open source hlasovou databázi Common Voice o 1400 hodin nahrávek v 18 jazycích. V databázi, která slouží hlavně pro strojové učení, byla přitom ještě před rokem pouze angličtina. Na aktualizaci upozornil server Venturebeat.

Common Voice je otevřená iniciativa Mozilly, která pomáhá strojům učit se, jak mluví skuteční lidé. Smyslem celého projektu je usnadnit startupům, výzkumníkům, ale také experimentujícím nadšencům práci na hlas rozpoznávajících aplikacích, službách a zařízeních. Common Voice sbírá hlasová data, na základě kterých je pak možné trénovat modely a software pro rozpoznávání řeči s tím, že všechna data jsou volně dostupná.

Iniciátoři říkají, že hlas je přirozený a lidský a proto chtějí usnadnit ostatním tvorbu použitelné hlasové technologie pro koncová zařízení. Aby ji ale vývojáři mohli vytvořit, potřebují obrovské množství hlasových dat. Problém ale je, že většina dat používaných velkými společnostmi legálně veřejně dostupná není, což komplikuje vývoj a také zdržuje inovace. Proto vnikl projekt, který by měl umožnit rozpoznávání hlasu dostupné pro všechny. Největším přispěvatelem do projektu je samotná Mozilla, zapojit se ale může kdokoli. Na webu projektu může kdokoli namluvit předložené věty, které se pak zařadí do datasetu. Pokud nechcete „darovat svůj hlas“, můžete také pomoci s validací vzorků – poslechnete už nahranou větu a potvrdíte, zda odpovídá předloženému textu.

Nových 1400 hodin nových nahrávek obsahuje 42 000 nahraných vzorků v 18 jazycích, které zahrnují jazyky jako je angličtina, francouzština, němčina, holandština, Hakha-Chin, esperanto, perština, baskičtina, španělština, mandarínština čínština, velština a jazyk kabyle. Osm měsíců nazpět obsahovala databáze 500 hodin záznamů (400 000 nahrávek) od 20 000 dobrovolníků převážně v angličtině.

Mozilla tvrdí, že se nyní jedná o největší vícejazyčný hlasový dataset svého druhu, čeština zde zatím chybí, blýská se ale ne lepší časy.