Simulovat, jak lidský mozek rozeznává řeč, je nekonečně složitá úloha

9. 7. 2012

Doba čtení: 5 minut

Doba, kdy budou počítače či mobilní telefony plně rozumět přirozené lidské řeči, ještě zdaleka nepřišla. A vyřešit tuto otázku pro češtinu bude o hodně složitější než v případě jazyka anglického, shodují se vývojáři z Newton Technologies a liberecké technické univerzity. Vrcholem jejich snah je software Newton Dictate.

Až 98% úspěšnost při převádění mluvené řeči na text slibuje třetí verze softwaru Newton Dictate, který koncem června uvedla společnost Newton Technologies. „Zkušený uživatel“ přitom prý může dosáhnout i úspěšnosti 99 %. To pořád znamená jedno slovo ze sta špatně.

Ukázky, které firma předvedla na tiskové konferenci, této úrovni odpovídaly. Školení lidé mluvili do diktovacího mikrofonu Philips, a výsledkem bylo přibližně jedno chybné slovo na odstavec:

V obecném projevu naskočilo namísto „kvůli“ „figuru“ – zmate to, ale nic více. V ukázce hlášení o dopravní nehodě naskočilo jednou „vous“ na místo „vůz“ – pobaví to, ale z kontextu pochopíte. Při ukázce justičního diktování žel naskočilo za dlužnou částkou namísto diktovaného „ká čé“ „× 3“, a to zamrzí. Přepis prostě je nutné ohlídat a opravit. Ve vyšších verzích programu lze opravu přepisu podle záznamu předat někomu jinému, do zvláštního editoru. Lze v nich také zpracovat záznam natočený zvlášť, mimo program.

Na vysokou úspěšnost začátečník jen tak nedosáhne. Newton Dictate 3 jsem nainstaloval na notebook se 4 GB RAM, s procesorem Intel i5 M520 na 2,4 GHz. Užil jsem dodaných USB sluchátek Logitech se směrovým mikrofonem. Ukázku mého diktování vidíte na obrázku níže. Notebook (ač napájen ze sítě a nastaven na vysoký výkon) se přitom rozpoznáváním opožďoval za tempem, kterým jsem přirozeně diktoval, aniž jsem spěchal.

Ukázka neškoleného užití Newton Dictate 3

Diktujícího zdržuje i potřeba odříkávat interpunkci a další povely jako „čárka“, „tečka“, „závorka“ nebo „nový odstavec“. Ve školeném projevu systém dovede sám doplňovat některé čárky. Doplní i tečku, klesnete-li dostatečně hlasem. Opravdu záleží na tom, zda se naučíte vhodně frázovat.

Na několik otázek mi odpověděl Petr Pazour, který v Newton Technologies vede vývoj; za Laboratoř počítačového zpracování řeči Technické univerzity v Liberci pak odpovídal Jindřich Žďánský:

Po jaké době se nyní uvádí třetí verze Newton Dictate?

PP: V roce 2005 jsme měli první testovací verzi, a od roku 2009 se používala verze 2. Ta vydržela několik releasů. Verzi tři jsme vyvíjeli poslední rok a půl.

Ta první nebyla moc k užitku?

PP: To ani ne, ale spíš jsme se na ní učili, jak rozpoznávání řeči vlastně funguje.

Nasadili jste už program v reálném provozu?

PP: Ano, už s první verzí jsme působili v justici a někteří soudci s ní každodenně diktovali rozsudky. Byl to jakoby pilotní projekt, zaměřený speciálně na slovníky oborové, protože na obecnou češtinu to tenkrát ještě nestačilo – jednak z hlediska síly počítačů, jednak z hlediska technologie jako takové.

Jak velkým vývojovým skokem kupředu je nyní třetí verze?

PP: Zcela zásadním, nezůstal kámen na kameni. Celé jádro, které vyvíjeli kolegové z Liberce, je kompletně nově přepsáno, a od základu jsme předělali i celý program. Z hlediska rozpoznávání je to opravdu zásadní krok. Rozdíl mezi tím, co uměla přepisovat verze 2, a co dnes umí verze 3 – hlavně v oblasti obecnějších slovníků – je neporovnatelný.

Ke zlepšení došlo hlavně díky rozšířeným slovníkům?

JŽ: To také, ale podstatou je to, že jsme si díky tomu, že se zrychlují počítače, mohli dovolit použít nejnovější technologie. Rozpoznává se tak s daleko větší úspěšností.

Můžete ty technologie pojmenovat?

JŽ: V principu se algoritmicky už přibližně dvacet let nic moc nemění. Zlepšují se různé implementace a vylepšují se hlavně modely: akustika a slovníky. K tomu je potřeba sesbírat data, umět s nimi pracovat, umět je zpracovat. Ale v podstatě pořád, i teď, nás brzdí dostupný výkon. Mohlo by to fungovat daleko lépe. Počítače pořád nejsou dostatečně výkonné – myslím desktopy, ne servery.

Kolikanásobně výkonnější byste potřebovali?

JŽ: Jakkoli výkonnější (smích). I když budou tisíckrát výkonnější, spolehlivě jejich výkon spotřebujeme. Nasimulovat, jak funguje lidský mozek, který umí rozpoznávat řeč, to je vlastně nekonečně složitá úloha. Aproximujeme různými statistickými modely a děláme, co můžeme.

Pod pojmem modely si můžu představit buď konkrétní vzorky toho, jak lidé mluví a jak zní jejich hlas, anebo i modely kontextu.

JŽ: Pracujeme s obojím. Funguje to tak, že si uděláme modely hlásek, jak je lidi vyslovují, aby program rozpoznával každého; hlásky se jakoby zprůměrují: průměrné /a/ Čecha, průměrné /b/ a tak. Na základě toho se staví slovník; v něm zase textový tvar neodpovídá tomu, jak se vyslovuje. A tak program přepíše, jak by se asi vyslovovalo, a dá se to upravit – a z toho se pak složí jednotka slovo: propojí se vytvořené modely hlásek. Nad tím funguje to, co jste říkal – jazykový model, tady zjednodušeně ‚slovník‘. Ale vlastně to není jenom seznam slov, musí se v něm popisovat i vazby mezi slovy, a to je prokletí češtiny, která nemá pevnou skladbu jazyka. A hlavně je jazykem ohebným.

Porovnám to s angličtinou: když chceme pokrýt třeba obecnou angličtinu tak, aby chybovost byla jedno slovo ze sta, stačí k tomu slovník s padesáti tisíci slov. Ale pro češtinu potřebujeme na totéž přes milión slovních tvarů; a kdybyste jen chtěl popsat pravděpodobnost, že jedno slovo následuje druhé, už je to na druhou. Padesát tisíc na druhou je málo, zatímco milion na druhou… Takže potom řešíme i otázky, jak to vlastně dostat do paměti. Proto rozpoznávání angličtiny bylo už dávno, ale pro češtinu se vyvíjelo déle.

Jak funguje spolupráce mezi Newtonem a univerzitou? Ve škole zkoumáte řeč, sestavujete modely… V jakém stavu výsledky přebírá Newton a dělá z nich komerční produkt?

PP: Univerzita v Liberci se pro nás stará o základní rozpoznávací jádro; přitom může využít vědecké poznatky, které získává ze světa. My potom to jádro vezmeme a postupně ho obalujeme a zabalujeme do nějakého programu. Je z toho pak taková stavebnice – my jsme nad jádrem schopni stavět další úlohy. Jednou z nich je například Newton Dictate, ale úplně stejným způsobem umíme rozpoznávat řeč v mobilních telefonech (díky odesílání dat na server) a stejná technologie už umí dnes řídit třeba komerční linky ve fabrikách. Jsme schopni stavět koncové aplikace, které se mohou uplatnit v komerčním procesu, a to pro češtinu, slovenštinu nebo polštinu, které máme v tuhle chvíli funkční.

Je tato spolupráce finančně přínosná i pro univerzitu?

JŽ: Určitě. Je to finanční přínos, ale hlavně je to také motivace. Je lepší vyvíjet něco, co se dostane na trh a někde to je vidět, než o tom jen psát články.