David Čaněk (Memsource): Dodáváme Uberu, ale s lepším obchodem a marketingem jsme mohli být dvakrát větší

19. 8. 2020

Doba čtení: 9 minut

Americký fond Carlyle koupil majoritu v českých Memsource, ocenil je na 1,3 miliardy. Svět automatizovaných překladů představuje rostoucí lukrativní byznys.

Přidat mezi oblíbené zdroje na Googlu

Memsource je od roku 2010 fungující česká technologická společnost, která se zabývá vývojem cloudového překladatelského softwaru a ve které letos v červenci koupil majoritní podíl slavný americký fond Carlyle Group s aktivy přes 200 miliard dolarů. Firmy přesnou výše investice nesdělily, podle informací Lupy byl ale Memsource oceněn na zhruba 1,3 miliardy korun. Vstup investora má posloužit k expanzi na trzích v Severní Americe a Asii.

Memsource má mezi zákazníky Uber nebo Zendesk a letos má v tržbách meziročně vyrůst o třicet procent na asi deset milionů dolarů. Zakladatel a výkonný ředitel společnosti David Čaněk v rozhovoru pro Lupu mimo jiné popisuje, že by firma dnes mohla být až dvojnásobná, kdyby na začátku začala dělat marketing a obchod stejně dobře jako technickou část. Právě absence prodejních zkušeností dle jeho slov brzdí české startupy oproti konkurenci ze Silicon Valley.

Deset let jste rostli bez externího kapitálu a nedávno jste prodali majoritní podíl a otevřeli se vstupu investora. Co vás k takovému rozhodnutí vedlo?

Minulý rok pro nás byl výrazně ziskový, takže jsme finanční důvody k získání investice neměli. Objevilo se ale několik motivů. Memsource jsem založil já, přibral jsem kolegu a později se podílníky stali čtyři klíčoví inženýři. Bylo nás šest a kolega ze začátku fungování firmy se rozhodl, že nebude pokračovat. Prodal svůj kompletní podíl. Dalším důvodem pro vstup Carlyle Group bylo to, že jsme po deseti letech chtěli změnu. Mohli jsme pokračovat v růstu organickým způsobem, ale přišlo nám zajímavé spojit síly s někým, kdo má kapitálovou sílu, abychom například mohli udělat nějakou akvizici.

Tržní hodnota Carlyle Group přesahuje devět miliard dolarů a spravuje aktiva za více než 200 miliard dolarů, zatímco vy jste z jeho pohledu velmi malý hráč. Začíná se na vašem trhu něco zajímavého dít, když do vás někdo takový vstupuje?

Odhad velikosti překladatelského odvětví je dnes mezi dvaceti až čtyřiceti miliardami dolarů, dle mého je to spíše kolem těch dvaceti. Velkou částí tohoto trhu jsou firemní překlady včetně lokalizace softwaru, titulkování videí a podobně. Technologie zde už nyní hraje velkou roli a bude hrát ještě větší. Jakmile přijdeme na to, jak smysluplně pro tyto a další účely využít strojový překlad, může to znamenat průlom. Prozatím je to na začátku a jde o věc, kterou se snažíme vyřešit.

K čemu konkrétně vstup investora využijete?

Začínali jsme jako technologická firma a většina lidí, kteří stáli u zrodu, byli inženýři. Teď musíme dohnat obchod a marketing. Je známá věc, že české startupy jsou dobré v technologii, ale v obchodu méně. Na trhu práce u nás můžete sehnat opravdu špičkové programátory, ale špičkových marketérů schopných postavit globální marketing je tady strašně málo. Řešíme, jak marketing a sales dostat na špičkovou úroveň, stejně jako to máme u engineeringu.

Ano, to je poměrně běžný rozdíl českých projektů oproti těm ze Silicon Valley a USA obecně. Tam produkt často nemusí být na tak dobré technické úrovni jako u nás, ale díky marketingu a prodejům je podstatně úspěšnější. Jsou zde reálné možnosti to změnit?

To je velmi zapeklitá otázka. Při stavění týmu v Silicon Valley narazíte na velké náklady. Zároveň by lidé byli daleko od pražské centrály a my hodně pracujeme jako propojený tým. I vývojáři se občas zúčastňují jednání, která jsou více obchodní, případně mají nápady na zlepšení marketingu. Zároveň jsou pro nás zajímavé trhy jako Japonsko, Asie a Evropa. Pro nás tedy není jednoznačnou odpovědí postavit marketing a prodej ve Valley. Je to velký problém a musíme schopné lidi přivést do Prahy a Česka, což už se občas děje, ale pořád je to slabé. Najít lidi je strašně těžké, nejsou.

Brání tedy rozletu českých startupů obchodní část? Na zdejších SaaS projektech například pozoruji, že se pořád učí dělat věcí jako pricing a mohou mezi sebou jen omezeně sdílet informace, což už jinde mají vyřešené.

To rozhodně, je to přesně tak. A úplně stejné to bylo v našem případě a opravdu hodně nás to zdrželo. Na druhou stranu si nemohu stěžovat, rostli jsme a rosteme perfektně. Kdybychom ale od začátku správně nastavili marketing a obchod a měli ho v podobné kvalitě jako technickou část, jsme možná i dvakrát větší. Zároveň jsme se příliš neangažovali v pražské komunitě, vidět a slyšet o nás nebylo. Bylo to i kvůli tomu, že jsme nevěděli, co dříve, nezískávali jsme peníze od lokálních investorů a zákazníky máme mimo Česko. Určitě by více pomohlo, kdyby se tady více sdílely informace a zkušenosti.

Mezi zákazníky máte zvučná jména typu Uber, SuperCell, Zendesk, Fujifilm a další. Jakým způsobem děláte obchod?

Hodně jezdíme na lokalizační a překladatelské veletrhy. Už jsme jeden z hlavních poskytovatelů systémů pro překládání (velkými konkurenty jsou Smartling a SDL Trados – poznámka redakce) a během deseti let jsme si stihli vybudovat jméno. V povědomí nebo ve vyhledávání už jsme. Máme samozřejmě obchodníky a v získávání velkých zákazníků se osobně částečně angažuji napřímo i já.

Jak daleko jste ve strojovém překladu?

U firemních překladů je nutné automatizovat dvě věci. Jednou z nich je workflow, kdy obsah „sedí“ v nějaké databázi či content management systému (CMS) a vy ho potřebujete dostat k tomu, kdo ho bude překládat nebo testovat. Workflow management je jednou z věcí, kterou se snažíme automatizovat. Jde o takzvané translation management systémy a snažíte se dosáhnout toho, aby existovala jakási automatizovaná „výrobní linka“ pro překlady. Druhou úrovní automatizace je samotný překlad. Ten může udělat lidský překladatel, korigovat ho korektor a na konci je ještě tester. Nebo tento překlad vygenerujete automaticky.

V roce 2017 jsme založili oddělení pro umělou inteligenci, kde jsme tyto a další úlohy začali řešit. Také jsme si říkali, zda vyvíjet vlastní strojový překlad, ale došli jsme k tomu, že to dělat nebudeme. A to kvůli tomu, že firem, které do oblasti investují, je hodně a zároveň to jsou největší technologické společnosti na světě. Ale existuje jedna věc, kterou neřeší, a sice celou řadu problémů, jež je nutné vyřešit pro to, aby strojový překlad byl užitečný.

Opět se dostáváme k problémům s workflow. Kdo si někdy zkoušel natrénovat engine strojového překladu pomocí svých dat, aby zlepšil kvalitu a aby překlad odrážel terminologii dané firmy, ví, že jde o velmi manuální proces. Data se musí exportovat, očistit, importovat, dále je nutné řešit kolize, spustit trénování, udělat testování a hodnotit kvalitu.

Musíte také řešit, který engine použít na jaký dokument a jazykový pár. Neexistují ani indikátory kvality. My podporujeme asi třicet enginů pro strojové učení, včetně například těch od Microsoftu a Amazonu, a snažíme se řešit všechny překážky na cestě, aby strojový překlad byl užitečný a aby se na něj bylo možné spolehnout. Vybíráme nejvíce kvalitní strojový engine pro triplet „zdrojový jazyk – cílový jazyk – dokument“. Zároveň kvalitu strojových překladů řešíme na úrovni jednotlivých vět.

Takže jste takový switch, který posílá informace na správná místa?

Takové přirovnání je možné. Vybíráme nejvhodnější technologie a podobně. Zároveň nejsme překladatelská agentura a pro cílového zákazníka jsme překladatelská platforma, ve které jsou data týkající se překladu centralizovaná. Jsme takový zdroj pravdy, kde vidíte, co bylo do jakých jazyků přeloženo, co přeloženo není, co jak dlouho trvá, jaké jsou a budou náklady, kde je jaká chybovost. Ke switchi to tedy určitým způsobem jde přirovnat, ale jsme také centrální úložiště lokalizačních dat a platforma, kde vše probíhá. Celý překlad i korektura probíhají v Memsource.

Jak vypadá celý proces? Na začátku se napojíte do CMS a co se děje pak?

Míra integrace je odlišná od velikosti zákazníků. Používají nás jednotliví překladatelé i třeba Uber. U něj existuje integrace mezi Memsource a jejich CMS systémy. Těch Uber používá celou řadu, takže mají ještě takový vlastní hub koncentrující všechna data. My se připojujeme až na tento hub. Firemní zákazníci typu Uber pak často mají několik překladatelských agentur, jež opět mají integraci s Memsource. V obou případech se integrace děje přes API, případně přes naše konektory. Ty máme například pro WordPress, Adobe Experience Manager a další. Data z CMS tedy proudí k nám, kde si je bere překladatel, a jakmile je proces hotový, překlad se přes Memsource vrátí do CMS.

Čím se zabývá vaše AI divize?

Jak jsem už říkal, rozhodli jsme se, že nebudeme vyvíjet engine strojového překladu. Místo toho řešíme to, kde můžeme mít něco unikátního, přičemž některé funkce máme patentovány v USA. První věc, kterou jsme uvedli v roce 2017, vychází z našeho vhledu do dat, která v Memsource byla. Viděli jsme, že zákazníci nechávají překládat stringy v softwaru, jejichž překlad se oproti originálu nezměnil. Bylo to 15 procent těchto stringů. Vy tedy posíláte něco na překlad, ale překladatel řekne, že to má zůstat stejné. Na základě těchto dat jsme natrénovali neuronovou síť pro rozpoznávání toho, zda je daný string nutné překládat. Dáváme k tomu i pravděpodobnost toho, jak moc je naše rozhodnutí správné.

Další věcí je něco, čemu se říká machine translation quality estimation. To je úloha, kdy vám strojový engine vrátí překlad a vy chcete vidět, zda a jak moc kvalitní je. Když je výstup pro daný string málo kvalitní, pošlete ho na lidský překlad. Když je vysoce kvalitní, může proces lidského překladu vynechat. Tohle zefektivňuje využití strojového překladu.

V jaké fázi spolehlivého strojového překladu jste, aby nebyly nutné zásahy lidských editorů či překladatelů? Doteď si pamatuji, jak mi v Microsoftu v Redmondu po koupi Skypu říkali, že už brzy si přes tento nástroj budeme volat každý jiným jazykem a v reálném čase uvidíme překlady…

Je důležité rozlišovat různé způsoby využití (use cases). Už jsme v situaci, kdy pro určité jazykové páry typu „angličtina – španělština“ a podobně už strojový překlad může dosáhnout velmi vysokých kvalit. Je nutné mít udělané správné nasazení, integrovány best practices a dobré natrénování na datech. To se hodí třeba na technické dokumentace. Zmiňoval jste Microsoft – ten provozuje knowledge base a česká mutace je strojově přeložená.

V některých podobných případech jsou strojové překlady zcela srovnatelné s lidskými. Na Matfyzu dokonce natrénovali překladač na zpravodajství. Výsledky měl srovnatelné a někdy i lepší než lidský překladatel. Stále jde o úžeji zaměřené případy, se kterými je třeba si vyhrát a zainvestovat do nich.

Pak jsou věci typu marketingového obsahu. Zde se překladům často neříká translation, ale transcreation, kdy je třeba si s překladem trochu pohrát, dát nějaké tóny, styly. Tam strojový překlad asi ještě dlouho nebude stačit. U zdravotnických materiálů a dokumentů to zase z regulačních důvodů není možné. Vývoj nicméně bude postupný a už se děje.

Jak vypadá váš technologický stack?

Jsme cloudová aplikace s poměrně hodně komponentami. Pro AI používáme TensorFlow, pro data využíváme Hadoop, dále Kafku a hodně Elasticsearch pro potřeby vyhledávání. Nasazené máme MariaDB, MongoDB. Na straně kódu používáme C++, Vue.js a další.

Dříve jsme si pronajímali vlastní fyzické servery, v jeden okamžik jsme jich v produkci měli dvě stovky. Z provozních, bezpečnostních a kvalitativních důvodů jsme loni přešli na Amazon Web Services. Obecně jsme SaaS firma a naší preferencí je využívat rovněž SaaS produkty. Obecně jsou často dražší, ale když si něco takového provozujete sami, skrývají se za tím náklady, které často nejsou hned vidět. U serverů pak odpadají věci typu, kdy potřebujete honem rychle přidat deset strojů, ale prostě je nemáte nebo je hned nemá dodavatel. Když potřebujete zvýšit kapacitu během hodiny, jsou AWS a spol. asi jediné řešení.

Poznámka redakce: Pro detaily o technologickém pozadí Memsource doporučujeme český podcast SCRIPTease, kde je hostem CTO Dalibor Frívaldský. Memsource ročně zpracuje 15 TB textových dat.

Seriál: Rozhovory