Jak se programuje aplikace pro převod řeči na text? A proč byla čeština tvrdý oříšek?

16. 12. 2024

Doba čtení: 16 minut

Jak složité bylo naprogramovat aplikaci Beey, kterou od září využívá Poslanecká sněmovna a už delší dobu policie nebo tuzemské soudy? Detaily jsme rozebírali s Ondřejem Klimešem, produktovým a marketingovým manažerem společnosti Newton Technologies, která aplikaci vyvinula.

Přidat mezi oblíbené zdroje na Googlu

Toto je textový přepis části podcastu s Ondřejem Klimešem. Podporovatelé Lupa.cz zde mají po přihlášení ke svému účtu k dispozici transkript celého rozhovoru.

Veřejně známá je především vaše sesterská společnost Newton Media, která se roky zaměřuje na monitoring médií. Souviselo to s tím, že jste se rozhodli programovat právě aplikaci na přepis textu?

Určitě. Newton Media je na trhu skoro 30 let a jedním z hlavních předmětů činnosti od začátku byl monitoring televizního a rozhlasového vysílání. Tedy přepis a následná indexace textů vzniklých z televizního a rozhlasového zpravodajství. Takže jakmile se objevila možnost tuto náročnou ruční práci přenechat strojům, tak jsme na tom začali pracovat a už někdy před 15 lety jsme začali sondovat terén.

V té době jsme se dozvěděli, že v zahraničí už existují pro angličtinu systémy pro převod hlasu na text, pro češtinu to tehdy nebylo dostupné. Obešli jsme české technické univerzity a nakonec jsme se dohodli s Technickou univerzitou v Liberci, která už předtím začala pracovat na těchhle technologiích. Společně jsme začali vyvíjet nástroj, který měl původně umožnit nahrazení ruční práce při přepisech televizního a rozhlasového vysílání. Pro Newton Media jsme to shodou okolností nasadili až o mnoho let později, ale ta technologie si začala u nás žít nějakým vlastním životem.

Přepisy se v minulosti dělaly ručně, v devadesátých letech zcela stoprocentně. Znamená to tedy, že se váš systém testoval i na datech Newton Media, na těch stovkách tisících textů, které máte v archivu?

Ne testoval, ale především trénoval. Platí to až dodneška. Pro češtinu máme nejlepší rozpoznávací model a základ je právě v těchto mediálních datech, v tom velikém archivu Newton Media, kde se už od devadesátých let nebo nultých let kontinuálně nahrává televizní rozhlasové zpravodajství původně ještě na vlastně magnetická média, což teď není asi důležité. Ale všechny tyto záznamy jsme měli opatřené textovým přepisem, což byl základ pro trénování jazykových modelů.

Přeskočil jsem jednu věc, a to název aplikace. Proč se jste se rozhodli právě pro takový název?

Pojďme od technologií na chvilku k marketingu. Ten název a celý produkt, o kterém se bavíme, vznikl o mnoho let později. K tomu se asi dostaneme, ale když jsme hledali pro tento uživatelský nástroj, vlastně jde o webový nástroj, název, tak jsme potřebovali něco, co bude krátké, snadno zapamatovatelné a budeme mít volné domény. Samozřejmě, když máte název, který má čtyři písmena, tak to není jednoduché. Základem je to, což tam asi všichni slyšíme, slovo včelka, a tudíž její pracovitost. Domény pro všechny včely jsou ale už rozdané, takže jsme k tomu připojili na konci y, což je novotvar, ale mělo by to evokovat nějakou vitost, pracovitost.

Nejste podporovateli Lupy? Pak si můžete rozhovor pustit ve formě podcastu:

Vy už jste zmínil, že zhruba 15 let zpátky jste začali spolupracovat s Technickou univerzitou v Liberci. To znamená, ten vývoj hlasových technologií trvá celou dobu?

Ano. Vývoj hlasových technologií naší společnosti už trvá téměř 15 let, ale až zhruba před pěti lety jsme začali pracovat na produktu s názvem Beey, to znamená na online aplikaci. Do té doby jsme měli jiné produkty a trochu odlišnou klientelu pro tyto technologie.

Co bylo na vývoji nejsložitější?

Nejsložitější bylo vyvinout a připravit kvalitní uživatelské rozhraní, které bude dostatečně univerzální, aby pokrylo potřeby korporátních klientů i jednotlivců. My jsme se dlouho kromě našeho instalovaného programu, který se jmenuje Newton Dictate, snažili prorazit s řešením, který nyní nabízí například Whisper nebo podobné technologie, což znamená, že tady máte API, něco si s tím udělejte a nám zaplaťte za rozpoznávání.

Ukázalo se, že tohle úplně nebude fungovat, protože kromě velice specifického typu zákazníků, jako jsou třeba call centra, nebyl trh připravený na to, aby si ty implementace dělali sami. My jsme proto museli jít o krok dál a rozhodnout se, zda to bude instalovaná aplikace, nebo jestli bude webová. Rozhodli jsme se správně pro tu druhou variantu, kde je byznys-model postavený na prodeji předplatného nebo prodeji kreditů. V našem případě to znamená prodej předplaceného času.

Spíš mě zajímalo, zda to nebylo složité třeba kvůli specifičnosti češtiny. Sám jste zmínil, že pro typické jazyky modely už existovaly daleko dřív než před češtinou. Pamatuji si některé aplikace několik let zpátky, kdy média řešila, jak české slovo převádět na text, a nebyla s tím skutečně velká spokojenost.

Čeština, jak si rádi říkáme, je složitý jazyk. Je to pravda, ale ten hlavní problém je řádově nižší. Záleží totiž na tom, zda máte dostatek zdrojů v tom konkrétním jazyce a zda máte dost přepisů. Angličtina má stamiliony mluvčích, celý internet je v podstatě v angličtině. I celá výzkumná komunita pracuje s angličtinou. Existuje proto skutečně ohromné množství trénovacích dat.

Vždycky prostě potřebujete mít zvukovou nahrávku a k tomu popis, což znamená přepis, díky kterému následně můžete model trénovat. Pro češtinu i pro řadu dalších malých jazyků je těch zdrojů významně méně. A tam my jsme dokázali využít naši výhodu, že jsme měli při té bídě k dispozici nejvíc těch zdrojů.

To je zajímavá bída. Myslel jsem, že těch zdrojů je dost, ale evidentně to v minulosti nestačilo. Dají se nějak víc popsat střeva celého systému? Uživatel vidí až tu webovou aplikaci, co se ale děje, když tam to audio nahraje? Dá se to nějak zjednodušeně popsat?

Nevím, jestli to já dokážu popsat, nerad bych se znemožnil technickými nepřesnostmi. Ale zkusím to tak, jak tomu rozumím. Je to tak, že základem je kvalitní nahrávka. Pokud je kvalitní, může být přepis stoprocentní. Ale samozřejmě existují nahrávky z nějakého problematického prostředí, takže se začíná akustickým signálem, který se magickými procesy zpracuje tak, aby se akustika mohla začít převádět na písmena nebo na nějaké další typy záznamu informací. Ve starších systémech se z toho poté začaly skládat útvary menší než slova, potom slova a s pomocí statistických metod se vyhodnocovalo, co to slovo asi v textu znamená. Dnes je už ten systém je trochu jiný, máte surový text a nastupují další technologie, aby se s ním uživatelům pracovalo dobře.

Identifikují se mluvčí, text se rozdělí se na jednotlivé promluvy. Aplikuje se i postprocessing, jak my tomu říkáme, což znamená textová pravidla, která ze slovního vyjádření, například čísel, dat a dalších entit, udělají zápis. Je zároveň důležité zachovat vazbu mezi tím audiosignálem a přesným časem, kdy a kde jaké slovo začíná a kde končí. No a tenhle ten proces, když pomineme další potom věci jako titulkování, překlady a podobně, je možné předložit uživateli, který s ním potom už ví, jak pracovat dál.

Jak to funguje po hardwarové stránce? Ptám se spíš na to, jestli jste si systém a výslednou aplikaci celou vyvíjeli sami. Nebo zda jde si museli pronajmout řešení od někoho externího? A zajímá mě i to, jak vysoké jsou nároky na celý systém.

Mám jednu zajímavost na začátek. Náš systém od začátku byl dělaný na klasické CPU, na normální procesory, zatímco velké jazykové modely, třeba i Whisper, běží na grafikách. Chtěl jsem to zmínit, protože díky tomu máme systém pod kontrolou, je zároveň úspornější a dostupnější. Samozřejmě je to tak, že pokud máte webovou aplikaci, musíte myslet na škálování při zabezpečení uživatelských dat. My jsme se po nějakých peripetiích, kdy jsme měli třeba i vlastní on-premise řešení, přestěhovali do cloudu. Využíváme různý typy cloudu na různé technologie. Základem úspěchu a dostupnosti je právě to škálování.

Zmiňoval jste, že vývoj aplikace Beey trvá zhruba pět let, což je dlouhá doba a muselo to být poměrně nákladné. Lze mluvit o tom, nakolik to tedy přišlo?

Dá se mluvit o nákladech v řádu milionů nebo jako nízkých desítek milionů. Ono se ale nejedná jen o vývoj samotné aplikace, ale samozřejmě i o výzkum, který tomu předcházel. Díky tomu kontinuálnímu výzkumu ale alespoň víme, jakým tempem se vyvíjí technologie kolem velkých jazykových modelů umělé inteligence.

Našel jsem si, že Beey je kromě češtiny k dispozici ještě pro dalších 11 jazyků. Je tam kromě angličtiny třeba švédština nebo norština. Vy jste předtím mluvil, že čeština je specifická, protože tam bylo málo těch zdrojových dat, na kterých to šlo trénovat. Lze v tom srovnání uvést, u jakého jazyka to bylo nejsložitější? Zda to bylo právě třeba u norštiny?

Obecně severské jazyky byly velkou výzvou. Částečně to bylo financováno z prostředků Norských fondů. Tohle my rádi připomínáme, že prostřednictvím těchto fondů si vlastně Norsko objednalo rozpoznávač vlastního rizika u českých vývojářů, i když to byl společný projekt s univerzitou v Trondheimu.

Každopádně severské jazyky byly složité, protože jsme je dělali zase ve spolupráci s Technickou univerzitou v Liberci úplně od začátku, což znamená od sběru dat a zpracování. Navíc ty jazyky jsou úplně jiné než ty, se kterými jsme byli zvyklí pracovat. Je to velice rozdílné proti slovanským jazykům.

Možná ještě jednu zajímavou poznámku, právě na ostatní menší slovanské jazyky se zaměřujeme, protože naše sesterská společnost Newton Media působí právě i třeba na Balkáně. Takže umíme třeba černohorštinu nebo vůbec ty varianty původní srbochorvatštiny.

Technicky to jinak funguje tak, že nejen u slovanských jazyků začíná obecné trénování při dnešních technologiích vždycky od češtiny. Základním robustním modelem je naše velká čeština, byť samozřejmě u severských jazyků bylo extrémně náročné do toho zapracovat úplně jinou gramatiku nebo úplně jinou stavbu toho jazyka. Kromě švédštiny a norštiny jsme zpracovávali i finštinu, a to už je jako velice komplikovaný jazyk. Pro nás to byl vývojový výlet úplně do jiného prostředí. Zároveň jsou ty severské trhy složité i z pohledu byznysu.

Zaujala mě ještě jiná věc. Na vašich stránkách je napsáno, že u některých jazyků je ten přepis vlastně dražší. Zákazník to sice nepozná, protože všem účtujete stejnou cenu. Ale některé jazyky, speciálně třeba pro řečtinu, jsou tokeny na převod řeči prostě dražší. Je to tím, že prostě u nich bylo trénování složitější než třeba u angličtiny?

Narážíte na článek naší kolegyně Lenky Weingartové, který se ale týká velkých jazykových modelů, nikoliv rozpoznávání. Velký jazykový model je něco, co má na začátku psaný text a nějakým způsobem ho transformuje. Zatímco hlasové technologie mají na začátku zvuk, který potom převedou do textu. U tokenů mluvíme o těch velkých jazykových modelech, tedy třeba o ChatuGPT a dalších. A tam skutečně dochází k tomu, že tokeny, které jsou tam nějakou jednotkou výkonu umělé inteligence, se rychleji spotřebovávají tam, kde je méně dat. Stejnou analogii bychom ale mohli použít i na hlasové modely. Když jsme mluvili o tom, jak relativně méně trénovacích dat mají malé jazyky, takže u nich je vývoj samozřejmě dražší. My to ale v tom, co nám platí naši zákazníci, nezohledňujeme, všichni platí stejně.

Kolik uživatelů aktuálně Beey má?

Aktuálně něco přes 60 tisíc uživatelů a uživatelé se rekrutují z více než padesáti zemí světa. Tím, že jsme vsadili na prodej přes online aplikaci, máme tam všechny velké jazyky. Prodáváme skutečně po celém světě, ale pravdou je, že třeba polovina uživatelů je v Česku a na Slovensku.

Takže převažuje čeština, pak slovenština a následně zbytek světa?

Ano, je to tak. Ke slovenštině bych rád řekl jednu zajímavost, která souvisí zase s těmi mediálními daty, které mám k dispozici. Jde o to, že když česká média mají nějakého hosta ze Slovenska, tak ho nepřekládají, netlumočí se. Počítám, že stejně je to i na Slovensku. Pro nás to byla každopádně výzva, že pro takové případy musíme mít robustnější model, který neřeší jen jeden jazyk.

Aktuálně proto připravujeme k nasazení otestovaný československý model. Znamená to, že náš hlasový model nepřepisuje jenom češtinu, ale čím dál tím líp zvládá i slovenštinu a zároveň je to smíchané dohromady. Znamená to, že pokud to bude rozhovor českého moderátora a slovenského hosta, tak v obou těch bude přepis správný. Mixujeme prostě schopnost rozpoznávání mezi jazyky, ale na tom výstupu je to pěkně rozdělené tak, jak ti lidé mluví.

Na začátku jsem zmínil, že vás začala využívat Poslanecká sněmovna. Už před časem s tím ale začalo Ministerstvo zahraničních věcí nebo třeba Policie ČR. Nicméně právě sněmovna začala aplikaci Beey integrovat, nebo už integrovala přímo do svých procesů. Co to přesně znamená?

Ve sněmovně jsme nasadili rozsáhlejší technologii než jenom tu uživatelskou aplikaci, která slouží především pro editaci těch rozpoznaných nahrávek. Je to tak, že sněmovna má svůj systém nahrávání a work flow, jak tam nahrávky putují. Na něj jsme se napojili s naším systémem, který po nějakých definovaných částech, které tam jsou, myslím, že jde o desetiminutové turnusy, zajistí přepis. Následně nahrávku i spolu už s přepisem dá k dispozici stenografům a dalším pracovníkům, kteří vše v rámci jejich nastavených procesů, které se v podstatě opírají o jednací řád sněmovny, velice rychle projde. Když nahrávka s textem projde jejich systémem, tak se nakonec i publikuje.

Zajímavé na nasazení ve sněmovně je to, že na začátku jsou stenografové, kteří sedí přímo v té jednací síni. Dřív si pořizovali stenografický záznam, dneska už si dělají jenom poznámky, aby byli schopní potom doplnit do toho záznamu informace o těch neřečových aktivitách, jak my tomu říkáme. Třeba jde o smích v sále, potlesk zprava nebo bučení zleva. Samozřejmě se to nedá vydržet dlouho, proto tam jsou desetiminutový turnusy. Pak daného stenografa vystřídá u stenografického pultíku jeho kolega. A stenograf, který má ještě v živé paměti to, co se v těch deseti minutách ve sněmovně dělo, jde do aplikace Beey, zkontroluje přepis, doplní tam případně další informace a potom to pošle dál ke zpracování.

Bylo třeba nějak váš systém kvůli tomu upravit, protože přece jenom ta sněmovní řeč je trošku specifická? Třeba už jenom kvůli tomu, že se tam mluví o spisech a každý spis má nějaké číslo, je tam třeba novelizace toho či onoho.

To byla velice zajímavá výzva. My jsme v počátcích našeho systému trénovali jednotlivé rozpoznávací modely pro konkrétní situace, například pro soudy nebo pro advokáty, pro jednotlivé lékařské obory. V poslední době se snažíme udržovat jeden robustní kvalitní systém. Ale pokud je taková velká výzva, jako jsou třeba přepisy v Poslanecké sněmovně, tak to jenom dotrénováváme.

To znamená, že tam máme jednak nahrávky ze sněmovny a máme tam i model, který identifikuje jednotlivé řečníky, což znamená, že stenograf nemusí opatřovat jménem jednotlivou promluvu, to už mu tam doplní systém sám. Máme pro to natrénovaný speciální model pro identifikaci mluvčích a samozřejmě máme tam nějakou postprocessingovou vrstvu, která správně zpracovává jejich hantýrku, jednací čísla a podobně.

Systém tedy pozná, že mluví konkrétní poslanec?

Ten systém velice bezpečně pozná, jestli mluví poslanec XY. My máme v podstatě teď kromě technologie na rozpoznávání řeči i technologii na rozpoznávání mluvčích, to znamená jejich identifikaci pomocí tzv. voiceprintů. Každý z nás máme nějak specifický hlas, který se dá převést do identifikačního řetězce. Pro Poslaneckou sněmovnu, protože je tam svým způsobem konečné množství řečníků, máme natrénovaný velice kvalitní model, který právě umožňuje v jednotném akustickém prostředí hlavního jednacího sálu sněmovny s vysokou přesností identifikovat, kdy nějaký poslanec začal mluvit a kdy skončil.

Zmínil jsem, že váš systém využívá i policie. Tam je to na úrovni aplikace, kterou má k dispozici každý řadový uživatel, nebo je tam nějaká úvaha, že se víc propojíte s policejním systémem?

No, obecně kromě toho, jak jsem už říkal, že naše technologické zázemí máme v cloudu, tak si stále udržujeme schopnost provozu modelů i on-premise, což je naše velká výhoda oproti velkým hráčům, jako je Google nebo Microsoft. Ti nejsou schopní provozovat jejich rozpoznávač na hardwaru zákazníků úplně v odděleném ostrovním provozu.

Zmínil jste třeba českou justici a tam nám už od loňského roku běží na jejich cloudu instalace našeho systému. Beey je k dispozici všem soudům v České republice a v současné době je tam víc než 3000 uživatelů, kteří na soudech všech instancí využívají systém pro přepis kompletního záznamu ze soudních jednání.

U policie je to podobné. Policie má vlastní instalaci hlasových modelů a kompletního systému, který je úplně oddělený od internetu. My jsme to v podstatě naposledy viděli při instalaci, jejich režim je extrémně zabezpečený, což jim ale umožňuje používat nejmodernější technologie.

Bavíme se o aplikaci, která už v jádru využívá umělou inteligenci nebo nějaké prvky umělé inteligence a strojového učení. Jak hodně je na tom závislá?

Jak se říká, my jsme používali umělou inteligenci ještě dřív, než to bylo sexy. Strojové učení je v podstatě od začátku integrální součástí rozpoznávání hlasu nebo rozpoznávání zvuku. Obecně jsou tam prvky strojového učení v hlubokých neuronových sítí. My se snažíme v tom současném boomu hlavně velkých jazykových modelů upozorňovat na to, že umělá inteligence nejsou jen velké jazykové modely, ale například právě i hlasové technologie, takže mluvíme o Beey jako o AI aplikaci a máme pravdu.

Už několikrát jsme zmiňovali vaší konkurenci. Říkal jste, že vaše řešení je jiné. Přesto se zeptám. Jak hodně je třeba Whisper od OpenAI pro vás konkurencí?

Já bych jenom začal takovou rychlou metaforou. Beey je hotový osobní automobil, který si můžete koupit, nasednout a hned v něm jet. Whisper je velice kvalitní, ale je to jako motor, což znamená, že je připravený pro implementaci do nějakého systému. A ještě, pokud bychom chtěli zůstat v této metafoře, tak to naše auto jezdí na benzín, zatímco Whisper potřebuje kerosin. Je prostě závislý na grafických procesorech. Takže konkurence to je, protože uživatelé říkají: Beey musíme platit a Whisper je zadarmo. Asi velice jednoduše se ale dá argumentovat, že tak úplně zadarmo Whisper není právě kvůli potřebě implementace.

Zároveň ale v podstatě kontinuálně porovnáváme kvality jednotlivých modelů, takže vnímáme, že přestože je to pro nás konkurence na úrovni aplikace, tak službu to nějakým způsobem poskytuje.

Už jste lehce naznačil věci, které chystáte. Lze to rozvést? Neplánujete třeba aplikaci do telefonu?

Já jen na začátek opravím jednu informaci, o které jste mluvil dříve. Jazyků, které nyní umíme přepsat, je už víc než třicet.

Jinak samozřejmě ve vývoji dál pokračujeme, přičemž se zároveň nebojíme do našeho prostředí implementovat i hlasové modely v podstatě od konkurence, pokud ona tam poskytuje lepší výsledky. Naší ambicí je, aby Beey nabízela ty nejlepší modely, který jsou na trhu k dispozici. Například pro velké jazyky, jako je angličtina nebo francouzština, Beey používá nikoliv naše interní modely, ale modely od jiných poskytovatelů.

Zároveň vnímáme velkou poptávku po dalších službách, které jsou na rozpoznávání řeči navázané. Především jde o titulkování videí, včetně automatizace, kdy jenom nahrajete zvuk nebo video a výsledkem je video opatřené titulky.

Další naší novinkou, tu bych rád zmínil, je systém, který se jmenuje BeeyLive, což je asistent pro okamžitý přepis hlasu na text s minimální latencí. Ta latence je tam tak 2 až 3 vteřiny a uživatel si může přepsaný text zobrazit třeba na svém mobilním zařízení. A může si také vybrat automatický překlad do jednoho ze 30 jazyků.

Například na nedávném vyhlašování Novinářské ceny jste mohli vidět norského velvyslance, jak sice kouká na pódium, ale zároveň si něco čte na mobilu. To něco byl anglický překlad toho, o čem se mluvilo na pódiu.

Ještě mě napadla jedna věc. My se bavíme o přepisu audia na text, ale u některých aplikaci je populární opačný proces. Tedy převod textu na mluvené slovo. Něco podobného nechystáte?

Něco podobného chystáme, ale ještě o tom moc nemluvíme. Ale zjednodušeně řečeno tam, kde používáme překlad z jednoho jazyka do druhého, což znamená, že vstupem je mluvené slovo v jednom jazyce, tak si určitě dokážeme představit atraktivitu řešení, kde bude výstupem mluvené slovo v jiném jazyce.

Vstoupit do diskuse

Jan Vaca

Autor je od ledna 2018 ředitelem médií vydavatelství Internet Info. Předtím 6 let vedl zpravodajskou sekci portálu iDNES.cz, ještě předtím byl několik let reportérem celostátní redakce MF DNES. Občas si rád něco napíše.

Sdílet

Ondřej Klimeš (Newton Technologie): Beey dokáže rozpoznat, který poslanec mluví

Celý obsah je dostupný pouze našim podporovatelům

Autor článku

Jan Vaca

Témata:

Anketa

Dali byste si do počítače čínský SSD disk, případně čínské RAM?