Hlavní navigace

Common Voice má dalších 1400 hodin nahrávek v 18 jazycích

1. 3. 2019

Sdílet

Mozilla Common Voice Autor: Mozilla

Mozilla aktualizovala svou open source hlasovou databázi Common Voice o 1400 hodin nahrávek v 18 jazycích. V databázi, která slouží hlavně pro strojové učení, byla přitom ještě před rokem pouze angličtina. Na aktualizaci upozornil server Venturebeat.

Common Voice je otevřená iniciativa Mozilly, která pomáhá strojům učit se, jak mluví skuteční lidé. Smyslem celého projektu je usnadnit startupům, výzkumníkům, ale také experimentujícím nadšencům práci na hlas rozpoznávajících aplikacích, službách a zařízeních. Common Voice sbírá hlasová data, na základě kterých je pak možné trénovat modely a software pro rozpoznávání řeči s tím, že všechna data jsou volně dostupná.

Iniciátoři říkají, že hlas je přirozený a lidský a proto chtějí usnadnit ostatním tvorbu použitelné hlasové technologie pro koncová zařízení. Aby ji ale vývojáři mohli vytvořit, potřebují obrovské množství hlasových dat. Problém ale je, že většina dat používaných velkými společnostmi legálně veřejně dostupná není, což komplikuje vývoj a také zdržuje inovace. Proto vnikl projekt, který by měl umožnit rozpoznávání hlasu dostupné pro všechny. Největším přispěvatelem do projektu je samotná Mozilla, zapojit se ale může kdokoli. Na webu projektu může kdokoli namluvit předložené věty, které se pak zařadí do datasetu. Pokud nechcete „darovat svůj hlas“, můžete také pomoci s validací vzorků – poslechnete už nahranou větu a potvrdíte, zda odpovídá předloženému textu.

Nových 1400 hodin nových nahrávek obsahuje 42 000 nahraných vzorků v 18 jazycích, které zahrnují jazyky jako je angličtina, francouzština, němčina, holandština, Hakha-Chin, esperanto, perština, baskičtina, španělština, mandarínština čínština, velština a jazyk kabyle. Osm měsíců nazpět obsahovala databáze 500 hodin záznamů (400 000 nahrávek) od 20 000 dobrovolníků převážně v angličtině.

Mozilla tvrdí, že se nyní jedná o největší vícejazyčný hlasový dataset svého druhu, čeština zde  zatím chybí, blýská se ale ne lepší časy.

Našli jste v článku chybu?
  • Aktualita je stará, nové názory již nelze přidávat.

Byl pro vás článek přínosný?

Autor aktuality

Externí spolupracovník serveru Lupa.cz a expert na blockchain a kryptoměny. Jako šéfredaktor v minulosti vedl ADASTRA Business Intelligence Magazine a server ITbiz.cz. Dnes pracuje jako redaktor časopisu Forbes.

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).