Hlavní navigace

Jiří Hana (Geneea): Češi v IT lingvistice patří ke světové špičce. Praxe ale vázne

15. 4. 2016
Doba čtení: 9 minut

Sdílet

Jiří Hána (Geneea) Autor: Geneea
Česká firma Geneea vyvíjí například prototyp softwaru, který by měl ze strukturovaných dat třeba o fotbalovém zápase automaticky vygenerovat článek.

„Češi patří v oboru světové počítačové lingvistiky ke světové špičce, bohužel ale často zůstávají jen v té teoretické rovině,“ popisuje své zkušenosti ze studií i výzkumu Jiří Hana, který před dvěma lety se svým kolegou Tomášem Nowakem založil firmu Geneea, která se soustředí právě na textovou analytiku.

Produkt firmy, nad jehož vývojem strávili zakladatelé a jejich spolupracovníci celkem 12 000 hodin, dokáže monitorovat text a přiřadit mu štítky (tagy) nebo najít zmínky měst, jmen lidí, oborů. 

„Zjistíme i to, jestli autor píše o tématu pozitivně, nebo negativně. To lze využít například při zpětné vazbě po nákupu na e-shopu,“ říká Hana v rozhovoru pro Lupu.

Geneea v posledním roce začala intenzivněji spolupracovat s vydavatelskými domy a nyní chystá i jednu novinku, která by mohla změnit novinářský segment.

„Naším cílem je vyvinout prototyp softwaru, který ze strukturovaných dat vytvoří krátký novinový článek. Vstupem budou tabulky, které shrnují fotbalové zápasy. A teď nemyslím jen výsledky, ale i jejich průběh,“ popisuje Hana.

Produkt Geneea ale není určen jen pro velké firmy, užitečný může být i pro ty menší. „Spolupracujeme například s firmou Ackee, která vyvíjí mobilní aplikace,“ dodává Hana. 

Můžete ve zkratce představit svou platformu?

Náš produkt je cloudová služba pro analýzu textu. Například, pokud jste nakladatelství, tak do systému pošlete redakční články. Pokud právní firma, pak různé smlouvy, ale dokážeme analyzovat i e-maily, nebo v případě e-shopu popisy produktů, komentáře či dotazy uživatelů. 

Integrace je snadná. Pokud jste firmou, která má běžně schopného developera, tak se k naší platformě můžete snadno připojit a nechat si zanalyzovat všechny své texty. Pokud vlastního developera nemáte, uděláme to samozřejmě my.

Navíc jsme dostupní všem zákazníkům firmy Keboola, v jejichž platformě i běžný uživatel na pár kliků myší propojí naší textovou analytiku s desítkami různých zdrojů dat a vizualizačními nástroji.

A co vše přesně tedy vaše platforma umí?

U každého textu zjistíme, jaké má téma, dokážeme ho zatřídit, přiřadit mu klíčová slova (štítky), najít zmínky měst, jmen lidí, firem nebo produktů. Zjistíme i to, jestli autor píše o tématu pozitivně, nebo negativně. To lze využít například při zpětné vazbě po nákupu na e-shopu. 

Pokud dostáváte zprávy od zákazníků, kterým jste něco prodal, jsme schopni vám je roztřídit do „šuplíčků“, do kterých patří. Tedy jestli jde o problém s vyúčtováním, platbou, dopravou nebo se samotným zbožím a podobně. Díky naší analýze se toto vše automaticky dozvíte.

Grafy ukazují analýzu proslovů v Poslanecké sněmovně v současném volebním období. Na vizualizaci je možné najít deset nejčastěji hovořících a zmiňovaných poslanců a jak o sobě vzájemně mluví.
Autor: Geneea

Tento graf (a následující dva) ukazuje analýzu proslovů v Poslanecké sněmovně v současném volebním období. Na vizualizaci je možné najít deset nejčastěji hovořících a zmiňovaných poslanců a jak o sobě vzájemně mluví.

Takže kromě klasického monitoringu dokážete textu přiřadit i význam či zabarvení?

Do určité míry jistě. Nechceme tvrdit, že naše platforma je schopná zvládnout vše stejně jako člověk. Na to totiž potřebujete spoustu kontextu a tak dále. Ale pro běžné účely firem je naše technologie více než dostačující.

Lidé se nás často ptají, jestli poznáme i sarkasmus. A my sarkasticky odpovídáme, že ano. Sarkasmus má problém poznat nezúčastněný člověk, který nezná celý kontext a historii konverzace. Na druhou stranu, když píšete sarkastickou zprávu či komentář e-shopu, tak chcete, aby ji ti druzí pochopili. A proto ironii v těchto příspěvcích obvykle poznáme.

Pokud jde o jazykové mutace, vaše platforma se soustředí hlavně na češtinu a angličtinu?

Umíme i jiné jazyky, ale tyto dva děláme opravdu nejvíce. Podporujeme ještě němčinu, španělštinu, francouzštinu a v současnosti rozjíždíme i slovenštinu. Ale pokud bude zájem a potřeba, tak jsme schopni poměrně rychle přidat velký počet jazyků. 

Ono jde ale také o to, co to vlastně znamená podporovat daný jazyk. Různé funkce textové analytiky jsou různě složité. Detekci jazyka nebo kategorizaci dokumentů například umíme pro desítky jazyků. Na druhou stranu štítkování je mnohem složitější. 

Kdo je tedy vaším typickým zákazníkem?

Naším zákazníkem může být v podstatě každý, kdo má nebo chce zpracovávat nějaké texty. Od vysokoškolského studenta, který chce roztřídit své poznámky, přes startup, až po velkou firmu se statisíci dokumentů.

V tuhle chvíli máme ale hlavně dva druhy zákazníků. Jedním z nich jsou mediální domy a druhým firmy, které dostávají zpětnou vazbu od zákazníka, tedy mají oddělení zákaznické péče. Může to být softwarová firma, která distribuuje programy, nebo například e-shop. Pomáháme jim automaticky zpracovávat dotazy od zákazníků. Samozřejmě dokážeme vybudovat řešení i pro další firmy.

Pro každou dvojici poslanců je možné určit nejčastější slova a sousloví, která ve svých projevech používají.
Autor: Geneea

Pro každou dvojici poslanců je možné určit nejčastější slova a sousloví, která ve svých projevech používají.

Takže na „druhé straně drátu“ už nesedí operátoři, ale nahrazují je počítače?

Vždy existuje více možností. Funguje to tak, že přijde dotaz od zákazníka, my určíme, v jakém jazyce je napsaný, a pak celý text zanalyzujeme. Následně jsme schopni o daném dotazu říct, čeho se týká, a díky tomu ho můžeme poslat na správné místo a správné osobě, která jej zodpoví. 

Můžeme zjistit například ale i to, že autor dotazu je velmi rozzlobený. Když systém propojíme se CRM (z anglického customer relationship management – péče o zákazníka) a uvidíme, že jde o významného zákazníka, systém jej může posunout výše ve frontě nebo přiřadit zkušenějšímu operátorovi. Ten se postará o to, aby firma o zákazníka nepřišla.

Potom existují dotazy, na které je možné odpovídat automaticky. Jsou to odpovědi typu, jestli problém vyřešil restartování přístroje a podobně.

Takže máte dokonalý přehled o tom, co zákazníci daného obchodu řeší…

To je další věc. Umíme pomoci i s reportingem, takže manažeři mohou vidět, s čím byl v daném dni problém, nebo naopak, s čím byli zákazníci spokojeni. Tyto reportingy ale můžete sledovat nejen po dnech, ale také v reálném čase, nebo naopak týdně či měsíčně a pak vše mezi sebou porovnávat.

To vše ocení asi zejména větší firmy s mnoha zákazníky?

Náš produkt se vyplatí i na relativně malém množství zpětné vazby, nejsme zaměřeni jen na velké firmy. Samozřejmě, pokud vám mají chodit tři e-maily denně, tak si vše asi vyřídíte sami. Ale když vám jich přijde tisíc za měsíc, tak je to dost na to, aby vás to štvalo, ale málo na to, abyste si zavolal IBM.

V Česku začínáte intenzivněji spolupracovat s vydavatelskými domy, například s Economií. Jak dlouho spolupráce trvá?

S Economií spolupracujeme od léta loňského roku a jednáme i s dalšími vydavatelstvími. 

Ale znovu opakuji, že tu nejsme jen pro velké firmy. Nebráníme se ani těm menším a středním. I s tím jsme od začátku počítali a vyvíjeli vše tak, aby integrace našeho produktu byla opravdu snadná. 

Spolupracujeme například s firmou Ackee, která vyvíjí mobilní aplikace. Jednou z nich je aplikace, která každé ráno automaticky vybírá pro své uživatele zprávy a články z internetových médií podle jejich zájmu. Pro Ackee analyzujeme desítky tisíc článků denně, štítkujeme, třídíme, vybíráme…

Stejnou metodu je samozřejmě možné použít například na analýzu komunikaci se zákazníky a zjistit, jak mluví o jednotlivých produktech, službách nebo o konkurenci.
Autor: Geneea

Stejnou metodu je samozřejmě možné použít například na analýzu komunikace se zákazníky a zjistit, jak mluví o jednotlivých produktech, službách nebo o konkurenci.

Cenově je vaše služba dostupná i pro menší firmy?

Snažíme se, aby byla. Začínáme na 100 eurech za měsíc. Neziskovým organizacím, startupům nebo studentům poskytujeme slevy.

S Economií také pracujete na pilotním projektu, který máte představit v následujících měsících. Jde o automatické generování zpráv, například ze sportovních utkání.

Ano, naším cílem je vyvinout prototyp softwaru, který ze strukturovaných dat vytvoří krátký novinový článek. Vstupem budou tabulky, které shrnují fotbalové zápasy. A teď nemyslím jen výsledky, ale i jejich průběh. Kromě toho budeme mít přístup i k datům shrnujícím předcházející zápasy. To vše vezmeme a pro jednotlivý zápas či skupiny zápasů vytvoříme článek, který dané utkání popíše. Výsledný text by neměl být samozřejmě psaný jako seznam minut a co se v nich stalo. Vše bude popsáno lidským jazykem a ideálně by neměl být rozpoznatelný od textů, které napsali novináři.

Výhoda tedy bude hlavně v rychlosti zpracování?

Rychlost je samozřejmě první výhoda. Počítač dokáže text zpracovávat a tvořit mnohonásobně rychleji než člověk. Ale nejde jen o rychlost. Představte si například, že článek bude „ušitý“ na míru konkrétnímu čtenáři. Pokud jde o znalce fotbalu, můžete k němu mluvit jiným jazykem než k někomu, kdo se o sport zajímá jen příležitostně a nezná ani přesná pravidla. Můžete také tvořit různé jazykové verze. A kromě sportovního zpravodajství je možné automaticky vytvářet třeba i burzovní zprávy nebo zprávy o počasí. Generování textu, i když trochu jiného druhu, se používá i v některých inteligentních rozhraních mezi člověkem a strojem, například autem.   

Úspora času a kapacit je tedy značná.

To nesporně je. Tahle rutinní práce navíc často není právě nejzábavnější. Ale nejen generování textů, o kterém jsme teď mluvili, šetří čas a pracovní síly. Vrátíme-li se k analýze textů, máme jeden nedávný příklad. Během mistrovství světa v hokeji v Praze jsme vyhodnocovali, co se na téma hokeje píše na Twitteru. Bylo to v průběhu dvou týdnů více než čtvrt milionu tweetů. Běžnému člověku, pokud by se k tomu odhodlal, by trvalo zpracování takového množství textu odhadem dva a půl měsíce, my to měli v řádech vteřin. Ukázali jsme, jak nálada komentářů na Twitteru přesně odpovídá tomu, co se dělo na ledě. V grafu nálady bylo možné sledovat nejen góly, které padly na obou stranách, ale například i přesilovky.

Odkud budete brát data potřebná k automatickému vytvoření článku?

Poskytovatelů je několik. Zajímavá jsou třeba data sázkových kanceláří, které už nyní nabízejí on-line sázení v reálném čase, takže daty disponují.

Jste rozkročeni mezi Prahou a Londýnem, kde také máte kancelář. Asi se tedy koukáte i za hranice České republiky?

Český trh je malý, ale na druhou stranu je nám blízký. Proto jsme zde začali. Ale plánujeme expanzi do zahraničí. V současnosti už máme některé testovací projekty rozběhlé v USA, Kanadě, účastníme se jednoho tendru v Singapuru a podobně. 

A jak silná je na tomto poli konkurence? Češi vždy patřili ke špici v tomto oboru, alespoň v té teoretické rovině…

Ano, česká lingvistika, zvláště ta počítačová, je na světové úrovni. Co schází, je převedení teoretického výzkumu, který se dělá na pražském „matfyzu“, nebo na Masarykově univerzitě, do praxe. A právě aplikace výsledků výzkumu je jedna z věcí, o kterou se snažíme. 

cif 24 - early cena - média

Pokud jde o angličtinu, v té je konkurence relativně velká a mnohé firmy jsou opravdu dobré. Ale je potřeba si uvědomit, že na světě je šest tisíc jazyků. 

My se cítíme silní v tom, že dokážeme přidávat nové jazyky relativně rychle. I když jich máme v tuhle chvíli jen pět, od začátku vyvíjíme systém tak, aby jeho architektura umožňovala přidávání nových jazyků ne v řádu měsíců nebo let, ale spíše dnů až týdnů.

Seriál: Rozhovory
ikonka

Zajímá vás toto téma? Chcete se o něm dozvědět víc?

Objednejte si upozornění na nově vydané články do vašeho mailu. Žádný článek vám tak neuteče.

Byl pro vás článek přínosný?

Autor článku

Autor je redaktorem tabletového týdeníku Dotyk Byznys. V minulosti působil v agentuře Reuters, v Hospodářských novinách nebo Českém rozhlase. Zastával i post mluvčího skupiny Nova. Najdete ho na Twitteru a na LinkedIn.

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).