Hlavní navigace

Simulovat, jak lidský mozek rozeznává řeč, je nekonečně složitá úloha

Marek Janouš

Doba, kdy budou počítače či mobilní telefony plně rozumět přirozené lidské řeči, ještě zdaleka nepřišla. A vyřešit tuto otázku pro češtinu bude o hodně složitější než v případě jazyka anglického, shodují se vývojáři z Newton Technologies a liberecké technické univerzity. Vrcholem jejich snah je software Newton Dictate.

Až 98% úspěšnost při převádění mluvené řeči na text slibuje třetí verze softwaru Newton Dictate, který koncem června uvedla společnost Newton Technologies. „Zkušený uživatel“ přitom prý může dosáhnout i úspěšnosti 99 %. To pořád znamená jedno slovo ze sta špatně.

Ukázky, které firma předvedla na tiskové konferenci, této úrovni odpovídaly. Školení lidé mluvili do diktovacího mikrofonu Philips, a výsledkem bylo přibližně jedno chybné slovo na odstavec:

V obecném projevu naskočilo namísto „kvůli“ „figuru“ – zmate to, ale nic více. V ukázce hlášení o dopravní nehodě naskočilo jednou „vous“ na místo „vůz“ – pobaví to, ale z kontextu pochopíte. Při ukázce justičního diktování žel naskočilo za dlužnou částkou namísto diktovaného „ká čé“ „× 3“, a to zamrzí. Přepis prostě je nutné ohlídat a opravit. Ve vyšších verzích programu lze opravu přepisu podle záznamu předat někomu jinému, do zvláštního editoru. Lze v nich také zpracovat záznam natočený zvlášť, mimo program.

Na vysokou úspěšnost začátečník jen tak nedosáhne. Newton Dictate 3 jsem nainstaloval na notebook se 4 GB RAM, s procesorem Intel i5 M520 na 2,4 GHz. Užil jsem dodaných USB sluchátek Logitech se směrovým mikrofonem. Ukázku mého diktování vidíte na obrázku níže. Notebook (ač napájen ze sítě a nastaven na vysoký výkon) se přitom rozpoznáváním opožďoval za tempem, kterým jsem přirozeně diktoval, aniž jsem spěchal.

Ukázka neškoleného užití Newton Dictate 3

Ukázka neškoleného užití Newton Dictate 3

Diktujícího zdržuje i potřeba odříkávat interpunkci a další povely jako „čárka“, „tečka“, „závorka“ nebo „nový odstavec“. Ve školeném projevu systém dovede sám doplňovat některé čárky. Doplní i tečku, klesnete-li dostatečně hlasem. Opravdu záleží na tom, zda se naučíte vhodně frázovat.

Na několik otázek mi odpověděl Petr Pazour, který v Newton Technologies vede vývoj; za Laboratoř počítačového zpracování řeči Technické univerzity v Liberci pak odpovídal Jindřich Žďánský:

Po jaké době se nyní uvádí třetí verze Newton Dictate?

PP: V roce 2005 jsme měli první testovací verzi, a od roku 2009 se používala verze 2. Ta vydržela několik releasů. Verzi tři jsme vyvíjeli poslední rok a půl.

Ta první nebyla moc k užitku?

PP: To ani ne, ale spíš jsme se na ní učili, jak rozpoznávání řeči vlastně funguje. 

Nasadili jste už program v reálném provozu?

PP: Ano, už s první verzí jsme působili v justici a někteří soudci s ní každodenně diktovali rozsudky. Byl to jakoby pilotní projekt, zaměřený speciálně na slovníky oborové, protože na obecnou češtinu to tenkrát ještě nestačilo – jednak z hlediska síly počítačů, jednak z hlediska technologie jako takové.

Jak velkým vývojovým skokem kupředu je nyní třetí verze?

PP: Zcela zásadním, nezůstal kámen na kameni. Celé jádro, které vyvíjeli kolegové z Liberce, je kompletně nově přepsáno, a od základu jsme předělali i celý program. Z hlediska rozpoznávání je to opravdu zásadní krok. Rozdíl mezi tím, co uměla přepisovat verze 2, a co dnes umí verze 3 – hlavně v oblasti obecnějších slovníků – je neporovnatelný.

Ke zlepšení došlo hlavně díky rozšířeným slovníkům?

JŽ: To také, ale podstatou je to, že jsme si díky tomu, že se zrychlují počítače, mohli dovolit použít nejnovější technologie. Rozpoznává se tak s daleko větší úspěšností.

Můžete ty technologie pojmenovat?

JŽ: V principu se algoritmicky už přibližně dvacet let nic moc nemění. Zlepšují se různé implementace a vylepšují se hlavně modely: akustika a slovníky. K tomu je potřeba sesbírat data, umět s nimi pracovat, umět je zpracovat. Ale v podstatě pořád, i teď, nás brzdí dostupný výkon. Mohlo by to fungovat daleko lépe. Počítače pořád nejsou dostatečně výkonné – myslím desktopy, ne servery.

Kolikanásobně výkonnější byste potřebovali?

JŽ: Jakkoli výkonnější (smích). I když budou tisíckrát výkonnější, spolehlivě jejich výkon spotřebujeme. Nasimulovat, jak funguje lidský mozek, který umí rozpoznávat řeč, to je vlastně nekonečně složitá úloha. Aproximujeme různými statistickými modely a děláme, co můžeme.

Pod pojmem modely si můžu představit buď konkrétní vzorky toho, jak lidé mluví a jak zní jejich hlas, anebo i modely kontextu.

JŽ: Pracujeme s obojím. Funguje to tak, že si uděláme modely hlásek, jak je lidi vyslovují, aby program rozpoznával každého; hlásky se jakoby zprůměrují: průměrné /a/ Čecha, průměrné /b/ a tak. Na základě toho se staví slovník; v něm zase textový tvar neodpovídá tomu, jak se vyslovuje. A tak program přepíše, jak by se asi vyslovovalo, a dá se to upravit – a z toho se pak složí jednotka slovo: propojí se vytvořené modely hlásek. Nad tím funguje to, co jste říkal – jazykový model, tady zjednodušeně ‚slovník‘. Ale vlastně to není jenom seznam slov, musí se v něm popisovat i vazby mezi slovy, a to je prokletí češtiny, která nemá pevnou skladbu jazyka. A hlavně je jazykem ohebným.

Porovnám to s angličtinou: když chceme pokrýt třeba obecnou angličtinu tak, aby chybovost byla jedno slovo ze sta, stačí k tomu slovník s padesáti tisíci slov. Ale pro češtinu potřebujeme na totéž přes milión slovních tvarů; a kdybyste jen chtěl popsat pravděpodobnost, že jedno slovo následuje druhé, už je to na druhou. Padesát tisíc na druhou je málo, zatímco milion na druhou… Takže potom řešíme i otázky, jak to vlastně dostat do paměti. Proto rozpoznávání angličtiny bylo už dávno, ale pro češtinu se vyvíjelo déle.

Jak funguje spolupráce mezi Newtonem a univerzitou? Ve škole zkoumáte řeč, sestavujete modely… V jakém stavu výsledky přebírá Newton a dělá z nich komerční produkt?

PP: Univerzita v Liberci se pro nás stará o základní rozpoznávací jádro; přitom může využít vědecké poznatky, které získává ze světa. My potom to jádro vezmeme a postupně ho obalujeme a zabalujeme do nějakého programu. Je z toho pak taková stavebnice – my jsme nad jádrem schopni stavět další úlohy. Jednou z nich je například Newton Dictate, ale úplně stejným způsobem umíme rozpoznávat řeč v mobilních telefonech (díky odesílání dat na server) a stejná technologie už umí dnes řídit třeba komerční linky ve fabrikách. Jsme schopni stavět koncové aplikace, které se mohou uplatnit v komerčním procesu, a to pro češtinu, slovenštinu nebo polštinu, které máme v tuhle chvíli funkční.

Je tato spolupráce finančně přínosná i pro univerzitu?

JŽ: Určitě. Je to finanční přínos, ale hlavně je to také motivace. Je lepší vyvíjet něco, co se dostane na trh a někde to je vidět, než o tom jen psát články.

Našli jste v článku chybu?

9. 7. 2012 9:50

Libra74 (neregistrovaný)

Ke své práci používám Dragon Dictate for Mac pro přepis mluvené angličtiny do anglického textu. Se svojí angličtinou dosahuju tak cca 80 % úspěšnosti, funguje to nejlépe u dlouhých slov. Verze, kterou používám, může vepsat nadiktovaný text do jakéhokoliv textového pole v jakémkoliv programu (Word, TextEdit, Wordfast a dokonce i do textového editoru běžícího ve virtualizovaných Windows). Slovník má 151 000 výrazů. Nevýhodou takového softu je to, že musíte být v místnosti s téměř absolutním klidem…

10. 7. 2012 21:20

comodoro (neregistrovaný)

"V principu se algoritmicky už přibližně dvacet let nic moc nemění" To mi připadá smutné, znamená to, že vývoj v této oblasti nějak nepostupuje (kdysi jsem se na to díval, používají se pořád skryté Markovovy modely?).

V článku mi chybí, jak ta spolupráce konkrétně funguje - kdo komu co platí, kdo komu co předává za jakých podmínek, ale chápu, že do krátkého rozhovoru by se to asi nevešlo.

Podnikatel.cz: Zavře krám u #EET Malá pokladna a Teeta?

Zavře krám u #EET Malá pokladna a Teeta?

DigiZone.cz: NG natáčí v Praze seriál o Einsteinovi

NG natáčí v Praze seriál o Einsteinovi

Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

DigiZone.cz: Optimedia: hybridní kampaň Nescafé

Optimedia: hybridní kampaň Nescafé

Podnikatel.cz: Chaos u EET pokračuje. Jsou tu další návrhy

Chaos u EET pokračuje. Jsou tu další návrhy

120na80.cz: Pánové, pečujte o svoje přirození a prostatu

Pánové, pečujte o svoje přirození a prostatu

Vitalia.cz: Jsou čajové sáčky toxické?

Jsou čajové sáčky toxické?

Podnikatel.cz: EET: Totálně nezvládli metodologii projektu

EET: Totálně nezvládli metodologii projektu

Podnikatel.cz: 3, 2, 1..EET startuje. Na co nezapomenout?

3, 2, 1..EET startuje. Na co nezapomenout?

Vitalia.cz: Pravda o přibírání na zimu

Pravda o přibírání na zimu

120na80.cz: Stoná vaše dítě často? Upravte mu jídelníček

Stoná vaše dítě často? Upravte mu jídelníček

DigiZone.cz: ČT má dalšího zástupce v EBU

ČT má dalšího zástupce v EBU

Vitalia.cz: Nahradí sluch, ale zvuk je zcela jiný

Nahradí sluch, ale zvuk je zcela jiný

Vitalia.cz: Spor o mortadelu: podle Lidlu falšovaná nebyla

Spor o mortadelu: podle Lidlu falšovaná nebyla

Vitalia.cz: Když přijdete o oko, přijdete na rok o řidičák

Když přijdete o oko, přijdete na rok o řidičák

Root.cz: Kamery Sony se dají ovládnout na dálku

Kamery Sony se dají ovládnout na dálku

Vitalia.cz: To nejhorší při horečce u dětí: Febrilní křeče

To nejhorší při horečce u dětí: Febrilní křeče

DigiZone.cz: Recenze Westworld: zavraždit a...

Recenze Westworld: zavraždit a...

Měšec.cz: Air Bank zruší TOP3 garanci a zdražuje kurzy

Air Bank zruší TOP3 garanci a zdražuje kurzy

Měšec.cz: Europlatby: někde bez poplatku, jinde i 350 Kč

Europlatby: někde bez poplatku, jinde i 350 Kč