Hlavní navigace

Tomáš Gogár (Rossum): RUR ještě nemáme, stavíme RIR, který porozumí fakturám

Jan Beránek

Jméno firmy si vzali od klasika, zkouší naučit stroje rozumět dokumentům, ale sami vědí, že k Čapkově vizi je ještě pořád daleko.

Potkali se na doktorském programu, měli podobné nápady, domluvili se a teď mají zainvestovanou firmu. Stačilo pár měsíců a trojice Tomáš Gogár, Tomáš Tunys a Petr Baudiš se rozhodla, že své doktorské studium zatím zřejmě přeruší na neurčito. A svou budoucnost vsadí na značku Rossum.

„Začali jsme na začátku roku. Firma existuje od února, ale s Mitonem jsme byli v kontaktu už dříve. Konzultovali jsme s nimi nějaké AI věci. Ondra Raška pořád chodil a říkal s tím, že chce zkusit něco s umělou inteligencí. On chodil s nápady, které se nelíbily nám, a my jsme chodili s nápady, který se zase nelíbily jemu,“ vysvětlují Tomáš GogárPetrem Baudišem nad obědem kousek od jejich dejvických kanceláří.

Startup odkazující názvem na Čapkovu robotickou klasiku chce naučit umělou inteligenci rozumět dokumentům. A začíná u faktur. Jeho neuronové sítě přitom pohání peníze od StartupYardu a Mitonu, který si firmu zaháčkoval už v akcelerátoru a drží v ní třetinový podíl. „Ondra nám pomáhá, jsme v kontaktu skoro každý den. S Mitonem v zádech cítíme velkou jistotu,“ dodává Gogár s tím, že desetičlenná firma teď hledá především AI výzkumníky a hackery, kteří udrží službu v chodu. 


Zdroj: Rossum

Zakladatelé Rossumu ve StartupYardu. Zleva Petr Baudiš, Tomáš Gogár a Tomáš Tunys.

Rossum se tak přidal k vlně AI startupů, které se během posledního roku na české scéně vynořily. „Za mě osobně mají největší podíl na tom, co v AI dneska v Česku vzniká, univerzity, a to v Praze i v Brně. Tím, co dělají lidé jako Michal Pěchouček nebo Jiří Matas v programu Otevřená informatika, jsem nadšený. I když projíždíme vědecké články, tak tam má tuzemský AI výzkum kvalitní zastoupení. Ve firemním světě má velký výzkumný tým Seznam nebo třeba MSD. Zároveň vzniká plno firem, které fungují na konzultantské bázi,“ popisuje Gogár situaci. 

Místo Rossumových Univerzálních Robotů máte Rossumovy Invoice Roboty. Proč zrovna faktury?

My jsme slovo faktura měli v kanceláři na zdi docela dlouho, ale když jsme si zkusili zadat do Googlu automatické rozpoznávání faktur, tak vždycky vypadly stovky různých firem. Říkali jsme si, že to je už dávno vyřešené. Pak jsme to ale jen tak mimo řečí zmínili před lidmi z auditorských firem a ti se ozvali hned druhý den. Prý to ještě tak úplně vyřešené není.

V čem je problém?

Hodně velké účtárny nějaká automatizovaná řešení mají, ale jsou dost neefektivní. Fungují tak, že tam sedí parta konzultantů, kteří vyrábí pro každý typ faktury šablony. Zároveň jsou tam vysoké licenční podmínky za software. Byznysový odhad zní tak, že automaticky se čte přibližně dvacet procent faktur, zbytek se nevyplatí, protože by se muselo všechno nastavovat zvlášť. 

Takže chcete nahradit účetní?

Ne, naopak. My se jim snažíme zjednodušit práci. Dnes umí účetní často i tři jazyky, ale v práci přepisují faktury. To už by nemusely dělat. Budou jen zběžně kontrolovat, jestli všechno sedí, a pak budou rozhodovat, jak fakturu zaúčtovat nebo pracovat na hlubších analýzách. Některé firmy jsou tak dnes schopné vzít faktury, dát je do krabice a poslat do Indie, kde je přepíší do systému a pak je pošlou zpátky. To my nechceme.

Používáte OCR jako ostatní, v čem je rozdíl od případné konkurence? 

My běžné OCR nepoužíváme. Máme několik neuronových sítí, které se na ty faktury dívají. Děláme to hodně podobně jako člověk. Nečteme je od jednoho rohu k druhému, na první pohled ji prolétneme a hledáme údaje. Tím zjistíme oblasti, kde jsou pro nás důležitá data. A na ta místa se pak zaměří druhá síť, která písmenka a číslice pečlivě přečte, protože má minimální chybovost.

Chyby dělají jak lidé, tak stroje, jak kontrolujete, jestli vaše sítě dělají to, co mají?

Lidi nejsou neomylní, a zvlášť v tomhle přepisování jsou naopak často omylní. Ani lidé při čtení nečtou každé písmenko. Ale u variabilního symbolu už to chce přečíst pořádně. Současné OCR systémy se podobají našemu prvnímu čtení. To naše druhé čtení už se specializuje na variabilní symboly a podobné kódy.

Kde berete data?

Jasně, když chce člověk postavit produkt, tak je potřeba hodně dat, aby si vycvičil své sítě. Nemůžeme přijít za klientem s tím, že nám dá faktury a my se to na nich naučíme. My stavíme produkt, který už to bude umět. A k tomu potřebujeme trénovací data. Máme proto tým anotátorek, které se chovají jako účetní, stroje se to od nich učí.

V jaké fázi po pěti měsících vývoje jste?

Od června chceme mít na webu čtení anglicky psaných faktur. Už máme firmu, která to dnes používá, a další jsou na cestě. Pilotovali jsme na českých fakturách, ale nás mnohem víc zajímají angličtina a němčina. Nechceme se tvářit jako český startup, i proto dáváme na web jako první angličtinu. 

Jak složité bylo získat investory?

Když řeknete investorovi, že každý den se na světě vymění miliarda faktur a průměrná nákladová cena přecvakání faktury v tuzemsku je deset až patnáct korun, tak to většinou zabere. 

Absolvovali jste StartupYard, co vám to dalo?

My jsme tam moc ani nechtěli, říkali jsme si, že to nepotřebujeme. Ale to byl omyl. Byla to velká škola. Člověk se dostane pod tlak a zároveň jsme měli na všechno okamžitou zpětnou vazbu. Jak je člověk v pressu, tak se soustředí jen na to důležité, protože na nic jiného není čas. Mentoring byl fajn, především tím, jak byl intenzivní a tlačil nás mimo naši komfortní zónu. 

Navíc máme také tendenci dělat věci hned jak přijdou a pořád něco programovat. To jsme nestíhali. Měsíc jsme neprogramovali a to nám dalo nadhled. A to se ukázalo jako velmi cenná věc. Zároveň jsme se naučili prezentovat. Myslím si, že bychom to zvládli i bez akcelerátoru, ale nevím, jestli bychom na to měli pět let času navíc. 

Jak vypadá současná situace na scéně výzkumu umělé inteligence?

Je to zajímavé. Do počítačů se historicky zadávala přesná pravidla, jak udělat činnost, nad kterou člověk nemusí přemýšlet. Teď je umělá inteligence a deep learning ve fázi intuice. Dokážeme počítač naučit intuitivnímu chování. Když se podívá člověk na obrázek, tak pozná automaticky, že tam je auto nebo letadlo, a to už je díky hlubokému učení možné. O čem ale stále nemáme ani hrubou představu, je to, jak do počítače zakódovat, aby se zamyslel a něco vymyslel. To je ta hranice, na kterou se budou muset počítače ještě dostat.  

Na univerzitách ale vznikají zajímavé projekty. Jak daleko mají do praxe? 

To je ten největší problém. My jsme se potkali všichni tři na doktorandském studiu. Zabývali jsme se z různých pohledů zpracováním dokumentů. Petr se zabýval strojovým chápáním textu. Tedy jak naučit stroj pochopit otázku a na jejím základě vyrobit databázový dotaz nebo naopak pochopit, jestli věta na Wikipedii je odpovědí na danou otázku. Ale nefungovalo to příliš dobře, aby to bylo prakticky použitelné, a to jsme měli v některých publikovaných testech lepší výsledky než třeba Facebook s jejich neuronovými sítěmi. Tomáš se zase zabýval hledáním v dokumentech a já jsem řešil automatickou extrakci informací z webu. Ta použitelnost má své meze. 

Takže Skynet tak zatím není na dohled?

Dneska umí počítače dokumenty přečíst, a to často ještě špatně. Je velký rozdíl mezi rozumět a přečíst. My se snažíme, aby počítače začaly dokumentům rozumět.

Jasně, takže zvolna. A robotické apokalypsy se zatím bát nemusíme? 

My chceme vyřešit samozřejmě faktury, ale dlouhodobě stavíme firmu, která se bude specializovat na oblast umělé inteligence a dokumentů. Největší omezení dalšího rozvoje je podle mě způsob, jak lidé komunikují, nebo, řekněme, lidský interface. Lidé totiž komunikují a předávají si informace prostřednictvím dokumentů, stroje ale jedou v databázích. Pokud tak chceme, aby nám stroje v budoucnosti pomáhaly, tak musí vidět do toho, jak lidé pracují s informacemi a porozumět. 

Kromě Rossumu jste si minulý rok udělali ještě bokovku Vize.IT. Jak to s ní vypadá?

EBF17

V rámci konzultačního období jsme se setkali s problémem, že lidem chybí klasifikace obrázků na míru. Vymysleli jsme řešení pro jednu velkou firmu. Nakonec z toho ale vznikl produkt s otevřenou API. To jsme pustili ven a v tu chvíli rozjela globální firma Clarify to samé. Toho jsme se trochu zalekli a nechali jsme to být. Koneckonců, není to náš obor. 

Během StartupYardu se to ale nějak samo rozjelo. Lidi tam chodili, používali a psali nám. Nechtěli jsme to nechat umřít, a tak jsme sehnali dva kluky, kteří do toho šlapou, a chceme to vydělit jako novou firmu a jednáme o investici. 

Našli jste v článku chybu?