„Řekli jsme si toho hodně, to bude dlouhý text, ale vy si to určitě nahrajete do nějakého programu, který to za vás přepíše, že?“ slýchám často od respondentů, když se loučíme po třeba hodinovém vydatném rozhovoru.
Zejména u odborníků z oblasti strojového učení často panuje představa o tom, že pro dnešní neuronové sítě už přepis rozhovoru, byť třeba dlouhého a pořízeného v nevalné kvalitě, nemůže představovat zásadní problém. A pokud se rozpoznávač dopustí nějakých chyb, nemůže být zas až tolik těžké vše v textovém editoru opravit.
Smyslem strojového učení a neuronových sítí je v první řadě ulehčit lidem práci a ušetřit jim čas. Nejinak to bude právě u rozpoznávačů řeči, které tyto technologie využívají pro převod lidského hlasu do textové podoby, se kterou se dá dále pracovat. Ať už v rámci hlasového ovládání, nebo prostřednictvím automatických přepisů, diktování poznámek nebo automatické tvorby titulků. S posledně jmenovanou aplikací se můžeme v českém kontextu setkat třeba u DVTV, která takto vytváří automatické přepisy rozhovorů. Automatické titulkování dlouho nabízí i YouTube a postupně jej testují i komunikační platformy.
Představa, že novináři tuto technologii využívají běžně i v dalších oblastech své práce, je tak zcela logická. S o to většími rozpaky tak musím respondentům vždy přiznat, že náš rozhovor budu přepisovat ručně. Tedy stejně, jako to mí kolegové dělali už před desítkami let po vynálezu přenosného diktafonu.
Ačkoliv tak většina z nás zná psací stroj možná tak z filmů, poznámky si místo do notýsků píšeme do cloudových dokumentů a místo pobíhání mezi tiskovkami už většinou jen přepínáme mezi online konferencemi, přepisy rozhovorů děláme obvykle pořád ručně nebo za pomoci placených přepisovatelek.
Aby jazyk dával smysl
Základní problém je v tom, že jen málokdo v přirozené řeči mluví natolik spisovně, aby doslovný přepis dával smysl, případně čtenáře nenudil. Abych mohl v článku uvést praktickou ukázku, pořídil jsem krátký testovací rozhovor. Zároveň jsem nechtěl žádného z odborníků na rozpoznáváni řeči stavět do situace „ukázkového příkladu špatné mluvy“, proto jsem se této role zhostil sám. Otázky kladla má přítelkyně, já jsem odpovídal spatra. Natáčení probíhalo prostřednictvím aplikace Záznam zvuku na iPhone 12 Pro, a to v klidném prostředí bez výrazných ruchů a ozvěny, tedy tak, jak rozhovory ideálně probíhají.
Ukázkový rozhovor trval 3 minuty 46 vteřin a aplikace jej uložila ve formátu m4a s přenosovou rychlostí 314 kb/s. Šlo tedy o záznam v poměrně dobré kvalitě bez výrazných deformací způsobených například kompresí do úspornějších formátů typu MP3. Kvůli kompatibilitě s rozpoznávacími aplikacemi jsem zvuk ještě převedl do formátu WAV o přenosové rychlosti 768 kb/s.
Ruční přepis 3:46 minuty dlouhé nahrávky zabral za pomoci aplikace oTranscribe přesně 10 minut. Doslovné znění si můžete přečíst na tomto obrázku.
Výsledný přepis je relativně srozumitelný, ale není úplně příjemné ho číst. Proto novináři rozhovory ještě editují, kdy hrubé věty převedou do stylisticky přijatelnější a čtivější formy, případně dovysvětlí a zpřesní některé pasáže, u nichž nemusí být na první pohled jasné, jak byly myšleny. Přepis se souběžnou editací mi zabral rovných 15 minut.
Časová náročnost přepisu se ale může výrazně lišit podle toho, jakým způsobem respondent mluví. Zda se často zadrhává, opakuje, opravuje, případně jestli mluví souvisle, či naopak v myšlenkách přeskakuje mezi různými tématy a úhly pohledu. Doslovný přepis tak může být v některých případech naprosto nesrozumitelný a vyžaduje rozsáhlou editaci, jindy se zase obejde takřka bez zásahů.
Ušetří stroj tuto manuální práci?
Při hledání způsobu, jak si usnadnit práci, jsem postupně narazil na několik rozpoznávačů/přepisovačů, které jsou určené pro rozpoznávání češtiny. Jde o nástroje Beey, Přepisovatel.cz a Sonix.ai.
Převod řeči na text v češtině zvládá i řada dalších aplikací, jako funkce diktování v Googlu nebo Microsoft Windows, ale do těchto programů se nedá nahrát pořízená nahrávka, takže jsou v tomto ohledu nepoužitelné. Výsledek jednotlivých rozpoznávačů si můžete prohlédnout zde:
Beey
Za aplikací Beey stojí česká technologická firma NEWTON Technologies, a. s., která se věnuje hlasovým technologiím od roku 2008. Nabízí například automatické přepisy diktování, vyhledávání v audioarchivech nebo monitoringu médií. Aplikace Beey automaticky rozpoznává jednotlivé řečníky a nabízí rozhraní pro editaci nahrávky. Titulkování prostřednictvím tohoto softwaru využívá například projekt DVTV nebo různé subjekty ze státní správy a soudy. Aplikace zvládá přepis v šestnácti zejména slovanských jazycích.
Přepisovatel.cz
Aplikace Přepisovatel.cz je pro cizojazyčné uživatele dostupná jako SpokenData.com. Provozuje ji firma ReplayWell založená výzkumníky z Vysokého učení technického v Brně. Aplikace nabízí rozpoznávání řeči v šesti jazycích (angličtina, ruština, mandarínština, americká španělština, slovenština a čeština). V češtině dává na výběr mezi běžnou řečí, medicínským jazykem a novinářským/televizním jazykem.
Při přepisu pak nabízí zvlášť funkce rozpoznávání, kdy někdo mluvil, rozpoznávání mluvčích a zarovnání titulků s audiem. Rozpoznaný text podává v editoru, kde jsou jednotlivé pasáže rozčleněny podle časových značek. Software umožňuje následný export například do textového souboru.
Sonix.ai
Sonix.ai je americká aplikace, která češtinu nabízí jako jeden z více než čtyřiceti jazyků. Software samozřejmě obsahuje editor a možnost exportu přepisu, rozpoznání mluvčích, přidávání poznámek a vlastního slovníku nebo zobrazení časových značek. Sonix.ai podporuje širokou škálu různých formátů audio- i videosouborů a vedle rozpoznávání řeči firma dělá i automatické překlady.
Rozpoznávače rozumí slovům, ale ne významu
Z výsledků je patrné, že aplikace Přepisovatel.cz nepodává pro naše účely moc použitelný výsledek. Ačkoliv byl záznam pořízen ve slušné kvalitě a v klidném prostředí, přičemž oba mluvčí mluví v zásadě srozumitelně, zvládl Přepisovatel správně rozpoznat jen zlomek slov.
Americká aplikace Sonix.ai si vedla o poznání lépe. Některé věty rozpoznala takřka bez problémů, obecně ale přepis vyžaduje velké množství oprav a zpětného poslechu, protože řada vět nedává významově smysl. Aplikace navíc nezvládá interpunkci a chybuje v rozpoznávání vět.
Nejlépe si v testu vedla česká aplikace Beey, která většinu nahrávky rozpoznala jen s drobnými chybami. Program zároveň umí i interpunkci, takže výsledný přepis působí poměrně použitelným dojmem. Zajímavé je, že český Beey rozpoznal správně výraz MP3 nebo iPhone, naopak nepochopil termín WAV. Americký Sonix zase správně rozpoznal česky vyřčené MP3 i WAV, ale iPhone, tedy „ajfon“, rozpoznal jako „fauna“.
Navzdory slušným výsledkům ale aplikace Beey ani Sonix.ai v běžné redaktorské práci bohužel stále nepřinášejí úsporu času. Editace pokusného rozhovoru kvůli zpětnému poslechu sporných pasáží a přepisu takřka každé věty mi u Sonix.ai zabrala 20 minut. Beey byla mnohem přesnější, ale i tak editace zabrala 17 minut, tedy mírně více, než ruční přepis s průběžnou editací.
Ačkoliv tak pro titulkování pořadů nebo doslovné přepisy rozhovorů lze tuto technologii efektivně aplikovat, u psané žurnalistiky si tak budeme muset ještě my novináři počkat, než neuronové sítě zvládnout přestylizovat mluvenou řeč do psané formy, která bude čtivá a zároveň zachová původní význam sdělení.