Jak se programuje aplikace pro převod řeči na text? A proč byla čeština tvrdý oříšek?

16. 12. 2024
Doba čtení: 16 minut

Sdílet

Autor: Lupa.cz s využitím DALL-E
Jak složité bylo naprogramovat aplikaci Beey, kterou od září využívá Poslanecká sněmovna a už delší dobu policie nebo tuzemské soudy? Detaily jsme rozebírali s Ondřejem Klimešem, produktovým a marketingovým manažerem společnosti Newton Technologies, která aplikaci vyvinula.

Toto je textový přepis části podcastu s Ondřejem KlimešemPodporovatelé Lupa.cz zde mají po přihlášení ke svému účtu k dispozici transkript celého rozhovoru.

Ondřej Klimeš (Newton Technologie): Beey dokáže rozpoznat, který poslanec mluví Přečtěte si také:

Ondřej Klimeš (Newton Technologie): Beey dokáže rozpoznat, který poslanec mluví

Veřejně známá je především vaše sesterská společnost Newton Media, která se roky zaměřuje na monitoring médií. Souviselo to s tím, že jste se rozhodli programovat právě aplikaci na přepis textu?

Určitě. Newton Media je na trhu skoro 30 let a jedním z hlavních předmětů činnosti od začátku byl monitoring televizního a rozhlasového vysílání. Tedy přepis a následná indexace textů vzniklých z televizního a rozhlasového zpravodajství. Takže jakmile se objevila možnost tuto náročnou ruční práci přenechat strojům, tak jsme na tom začali pracovat a už někdy před 15 lety jsme začali sondovat terén.

V té době jsme se dozvěděli, že v zahraničí už existují pro angličtinu systémy pro převod hlasu na text, pro češtinu to tehdy nebylo dostupné. Obešli jsme české technické univerzity a nakonec jsme se dohodli s Technickou univerzitou v Liberci, která už předtím začala pracovat na těchhle technologiích. Společně jsme začali vyvíjet nástroj, který měl původně umožnit nahrazení ruční práce při přepisech televizního a rozhlasového vysílání. Pro Newton Media jsme to shodou okolností nasadili až o mnoho let později, ale ta technologie si začala u nás žít nějakým vlastním životem.

Přepisy se v minulosti dělaly ručně, v devadesátých letech zcela stoprocentně. Znamená to tedy, že se váš systém testoval i na datech Newton Media, na těch stovkách tisících textů, které máte v archivu?

Ne testoval, ale především trénoval. Platí to až dodneška. Pro češtinu máme nejlepší rozpoznávací model a základ je právě v těchto mediálních datech, v tom velikém archivu Newton Media, kde se už od devadesátých let nebo nultých let kontinuálně nahrává televizní rozhlasové zpravodajství původně ještě na vlastně magnetická média, což teď není asi důležité. Ale všechny tyto záznamy jsme měli opatřené textovým přepisem, což byl základ pro trénování jazykových modelů.

Přeskočil jsem jednu věc, a to název aplikace. Proč se jste se rozhodli právě pro takový název?

Pojďme od technologií na chvilku k marketingu. Ten název a celý produkt, o kterém se bavíme, vznikl o mnoho let později. K tomu se asi dostaneme, ale když jsme hledali pro tento uživatelský nástroj, vlastně jde o webový nástroj, název, tak jsme potřebovali něco, co bude krátké, snadno zapamatovatelné a budeme mít volné domény. Samozřejmě, když máte název, který má čtyři písmena, tak to není jednoduché. Základem je to, což tam asi všichni slyšíme, slovo včelka, a tudíž její pracovitost. Domény pro všechny včely jsou ale už rozdané, takže jsme k tomu připojili na konci y, což je novotvar, ale mělo by to evokovat nějakou vitost, pracovitost.

Nejste podporovateli Lupy? Pak si můžete rozhovor pustit ve formě podcastu:

Vy už jste zmínil, že zhruba 15 let zpátky jste začali spolupracovat s Technickou univerzitou v Liberci. To znamená, ten vývoj hlasových technologií trvá celou dobu?

Ano. Vývoj hlasových technologií naší společnosti už trvá téměř 15 let, ale až zhruba před pěti lety jsme začali pracovat na produktu s názvem Beey, to znamená na online aplikaci. Do té doby jsme měli jiné produkty a trochu odlišnou klientelu pro tyto technologie.

Ondřej Klimeš, produktový a marketingový manažer Newton Technologies

Autor: Newton Technologies, publikováno se svolením

Co bylo na vývoji nejsložitější?

CIF25

Nejsložitější bylo vyvinout a připravit kvalitní uživatelské rozhraní, které bude dostatečně univerzální, aby pokrylo potřeby korporátních klientů i jednotlivců. My jsme se dlouho kromě našeho instalovaného programu, který se jmenuje Newton Dictate, snažili prorazit s řešením, který nyní nabízí například Whisper nebo podobné technologie, což znamená, že tady máte API, něco si s tím udělejte a nám zaplaťte za rozpoznávání.

Ukázalo se, že tohle úplně nebude fungovat, protože kromě velice specifického typu zákazníků, jako jsou třeba call centra, nebyl trh připravený na to, aby si ty implementace dělali sami. My jsme proto museli jít o krok dál a rozhodnout se, zda to bude instalovaná aplikace, nebo jestli bude webová. Rozhodli jsme se správně pro tu druhou variantu, kde je byznys-model postavený na prodeji předplatného nebo prodeji kreditů. V našem případě to znamená prodej předplaceného času.

Přepis podcastu je dostupný pouze našim podporovatelům

Můžete se jím stát i vy. Získáte tak nejen přístup k přepisům všech našich podcastů, ale také Lupu bez bannerů, newsletter o zákulisí českého internetu a další výhody.

Autor článku

Autor je od ledna 2018 ředitelem médií vydavatelství Internet Info. Předtím 6 let vedl zpravodajskou sekci portálu iDNES.cz, ještě předtím byl několik let reportérem celostátní redakce MF DNES. Občas si rád něco napíše.

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).