Hlavní navigace

Pavel Doležal (Keboola): Firmy chtějí být „data driven“. Musí ale projít čtyřmi kroky

Jan Sedlák

Jak to je v praxi se všemi těmi strojovými učeními, umělými inteligencemi a „daty poháněnými“ firmami?

Doba čtení: 13 minut

Sdílet

Pavel Doležal je jedním z podílníků společnosti Keboola, která zákazníkům umožňuje pracovat s daty. Nyní dostal na starost novou pobočku v Chicagu. Keboole se daří získávat větší americké zákazníky s tím, jak důležitost dat v byznysu roste.

Doležal v rozhovoru pro Lupu mluví o tom, jak dnes firmy a organizace používají skloňované termíny jako data driven, strojové učení nebo umělá inteligence.

Četl jsem nedávno pěkný vtip: „Jaký je rozdíl mezi strojovým učením a umělou inteligencí? Pokud je to napsané v Pythonu, pravděpodobně je to strojové učení. Pokud je to napsané v PowerPointu, zřejmě to bude AI.“ Odpovídá to tomu, co vidíte na trhu?

Na tyto oblasti máme partnery, kterým poskytujeme nástroje. Ale evokovalo mi to, jak se posledních asi 36 měsíců veškerá investorská aktivita soustředila na AI a všechno bylo AI. To také bylo vtipné.

Mířím k tomu, že Keboola pracuje a umožňuje pracovat s daty, které jsou pro AI a spol. potřeba. Vidíte u zákazníků a partnerů, že by se tedy v těchto oblastech skutečně něco dělo?

Hodně vidíme použití strojového učení. Je tam určitá cesta. Nejdříve je třeba pomoci lidem s daty – dát je dohromady, očistit je a podobně. Pak je třeba do firmy dostat insights, aby všichni ve firmě viděli ty samé věci. Třetím krokem jsou actions, aby se nad tím vším dalo něco konkrétního dělat. Ty jsou buď fyzické, že se něco ve firmě změní, nebo pak vznikne třeba nějaký ten machine learning model. My tedy s tímto přesunem pomáháme. Pouze dát data dohromady a udělat insights je na houby. Pak je třeba to začít dávat do procesů.

Keboola byla v Česku před lety jedna z prvních firem, která viděla, že data budou potřeba a že zde bude velkou roli hrát cloud. Co vidíte dnes jako další takovou věc?

Hodně pracujeme na tom, aby věci, které se v procesu dají automatizovat, tak aby automatizované byly. A aby věci, které nemusí dělat člověk, tak aby je nedělal. To se dá dělat pouze díky tomu, že máte k dispozici data o tom, jak se lidi a věci chovají. Spoustě lidem ve firmách už nestačí mít přístup pouze k základním datům v Excelu, ale potřebují mít data a nástroje podobné těm, které mají k dispozici hardcore datoví vědci. Potřebují analyzovat raw data.

Vidíme také, že diverzita toho, kde všude se generují data, je čím dál větší. A firmy se tak čím dál více začínají propojovat mezi sebou. Říká se tomu data sharing a začíná to být velice zajímavé. Máme několik zákazníků ve Spojených státech, kteří pracují ve stejném segmentu a chtějí si data sdílet. My jim to na technologické úrovni zajišťujeme.

Před příchodem cloudu byly legacy IT systémy, které byly robustní, uzavřené, nepružné. S příchodem cloudu ale přišel jiný problém, a to ten, že se vše najednou rozházelo po různých částech, vznikl hrozný chaos a začalo se to lepit zpátky dohromady. V jedné části firmy si někdo tahá data a dává si je někam a vedle někdo dělá v podstatě to samé, ale pomocí jiných nástrojů. My jsme udělali softwarovou vrstvu, která řídí infrastrukturu a řídí ji on-demand.

Pavel Doležal
Autor: Keboola

Pavel Doležal

Vedle AI a ML se také na všech konferencích, kam přijdu, neustále objevuje termín data driven company. Jsou už tedy firmy a organizace skutečně pomocí dat řízeny?

Je rozdíl mezi konferencemi a realitou, je tam odstup čtyři až deset let. Ale už takové firmy jsou, a dokonce v Česku jich je více než jinde. Typicky jsou to podniky z portfolia Tomáše Čupra. Lidi, kteří prošli jeho školou, pak tento koncept šíří dále v dalších firmách. Obecně je problém v tom, že čím je firma větší, tím více lidé pracují ve svých silech.

Vidíme čtyři body, kterými je třeba projít. Zaprvé je třeba se domluvit, jaké metriky mají význam, a musí to jít přes celou organizaci. Zadruhé musí existovat reporty na KPI, které musíte mít možnost ovlivňovat. To je známá teze Tomáše Čupra a Lukáše Uhla – musím vědět, jak KPI dokáži ovlivnit, a v procesu musím vidět člověka přede mnou a za mnou. Takto Slevomat začal před lety skvěle pracovat s obchodníky, které dobře benchmarkoval. Dalším stupněm je umožnit pracovat s daty napříč jednotlivými odděleními. A až čtvrtým krokem je začlenění strojového učení a řízení procesů pomocí strojového učení. Firmy často nemají zameteno před vlastním prahem.

Technicky není problém udělat AI a ML. Dostat data trvá od jednoho kliku u nás až po osm měsíců v legacy systémech. Problém je, aby firma s výsledným modelem začala pracovat a integrovala ho. Firmy chtějí být data driven, ale zároveň chtějí přeskočit čtyři evoluční fáze a z nějaké žáby se stát rovnou neandrtálcem. To prostě nejde.

Objevují se názory, že by ve firmách měli přestat na základě svých pocitů rozhodovat takzvaní HiPPO, tedy lidé s největším platem, a rozhodnutí by se měla dělat jen podle dat. V praxi to ale asi bude někde mezi, že?

Nejde se řídit jenom podle dat. Svět je složitější a data mají nějakou základní rovinu, na které se lidi mohou shodnout. Rozhodnutí, jak se na základě dat zachovat, je ale něco úplně jiného. Můžu mít perfektní datový výstup, který říká to a to, ale také mohu mít dlouhodobou strategii a dělat vědomě rozhodnutí, která tuto strategii kopírují. Ale bohužel je také stále faktem, že i když firmy mají data k dispozici, rozhodne se je například pan ředitel ignorovat. Proto existuje ona čtyřkroková cesta, jak se k datové kultuře dostat.

Je přístup k řízení kolem dat většinou tlačený zespodu, nebo shora?

Jednoznačnou odpověď na to nemám, ale mám k tomu poznatek. I když jsou často změny zespodu, dojdou k nějaké mezi, a když nemají pokrytí nahoře, nedá se to pak dělat. Můžete udělat spoustu zajímavých věcí, ale pokud nemají podporu, zase skončí jenom v nějakých silech.

Ještě existuje třetí cesta, která je vidět asi nejčastěji – a to je strach, že firma přestane inovovat a konkurence ji předhoní. Když firmy například vidí, co všechno v různých oborech dělá Amazon, tak moc se toho bojí, že se data v posledních asi šestnácti měsících dostala na agendu ředitelů. Už to není o tom „hele, kluci z IT, udělejte mi tam něco s těmi daty, Franta o tom mluvil na pivu“. Firmy si začínají uvědomovat, že jedna technologie situaci nezmění a že je třeba dělat několik věcí dohromady. Před třemi lety to ještě takto nebylo – data byla problém IT, nikoliv vedení.

Zaznělo, že se objevuje data sharing, kdy si firmy a organizace začínají data sdílet. Jak to přesně vypadá?

Už dříve to hezky popisoval Milan Petr z McPen. Když jsme se ho ptali, zda se nebojí, že mu někdo ukradne data, která sdílí, odpověděl jasně: každému mému konkurentovi stačí, když si stoupne na jeden den před obchod, bude se dívat, dělat si čárky a ptát se náhodného vzorku lidí, co si odnáší, a bude přesně vědět, co se děje. Když data „demokratizoval“, změnila se mu organizace. Pokud někdo dostane snapshot dat tak, jak jsou dnes, tak je mu to k ničemu. Než změní organizaci, potrvá mu to další dva tři roky a kopírovaná firma bude zase někde zcela jinde. Hezký krok udělala Heureka.cz, která e-shopům nedodává pouze návštěvnost, ale začala je benchmarkovat mezi sebou a dodává jim také doporučení a podobně. Každý den mají čerstvá data a pracují na tom, aby to bylo opravdu online.

Velké značky nikdy nebyly schopné dosledovat své reklamní kampaně až do bodu, kde se zboží kupuje. Vědí, že se někam pošle, a pak „děj se vůle boží“. Ale s přístupem Heureky budou schopní perfektně dosledovat, jaká je závislost kampaně na různé typy prodejních míst. To jsou první krůčky. Ty další budou o tom, že roboti začnou obchodovat sami mezi sebou. Firmy si budou sdílet data – a proč by tam na řadu věcí měl dohlížet člověk?

Pavel Doležal
Autor: Keboola

Pavel Doležal

Je tedy do budoucna teoreticky možné, že firmy budou sdílet svá data a vzájemně se tak „všichni“ propojí?

Uvidíme, jak se to vyvine, ale už před několika lety například kluci kolem dat z České spořitelny něco takového predikovali a dnes to začíná být trochu vidět. Osobně se domnívám, že to tak bude, je to logické. Čím je více informací, čím jsou složitější procesy, čím je méně lidí a tito lidé jsou dražší, tím více se to snažíme dát na stroje. Algoritmy řadu věcí zvládnou udělat lépe.

Promluví do toho také, jak se obecně předpokládá, internet věcí, a tedy i to, že se objeví zcela nové zdroje dat, které jsme doposud neměli?

V průmyslu to je jednoznačné. Teď třeba děláme projekt se SimpleCellem, kde jsou desítky tisíc zařízení. Paradoxně to obecně není o objemu dat, to je celkem vyřešené, ale problémem je komplexita. Jsou analýzy, které říkají, že v každém oddělení ve firmách mají pro to, aby se mohli dobře rozhodnout, patnáct až dvacet datových zdrojů. Ve firmách jsou tak celkem desítky až stovky datových zdrojů. Některé se mění každou sekundu a do toho přichází řada lidí, kteří potřebují s daty pracovat jiným způsobem. To je výzva, kterou vidíme.

Viděli jste někdy někde nasazený funkční blockchain, který by k něčemu byl?

Ne. Teď jsem jel tramvají. V Dejvicích nastoupil jeden kluk, měl pěkné slušné oblečení. Na Letné nastoupil druhý kluk, měl batůžek. Začali se bavit. Jeden byl samé „my teď děláme ten fintech“ a druhý „já musel odejít z té korporace, už jsem byl vyhořelý a děláme teď blockchain a děláme to úplně jinak než ostatní a místní VC investory nechceme, potřebujeme někoho se zkušenostmi“. OMG. Jeden kluk vystoupil na Náměstí Republiky a druhý v Karlíně. To je krásně popsaná Praha.

V našem světě se každopádně s blockchainem nesetkáváme. Určitě je spousta aplikací, které dnes neznáme a neumíme je popsat. O IoT se také mluví řadu let a analytiku této oblasti začínáme vnímat až teď.

Měl by se v souvislosti s růstem důležitosti dat změnit také způsob vzdělávání na různých úrovních?

Důležité mi přijde, aby se učilo, jak si rozkládat problémy na jednodušší. Problémem škol je, že se často učí hodně zastaralé věci a svět je oproti tomu napřed. Ale je pár konstant, které zde běží mnoho let, a jednou z nich je SQL. Naučit se něco takového v dnešním světě rozhodně nikomu neuškodí a velmi to otevírá dveře. SQL už přežilo několik klinických smrtí a pořád se vrací zpátky. Pro základ je tím nejlepším, co je k dispozici.

Problém je každopádně „mentální framework“ toho, jak přistupovat k analyzování problémů a jak si nezavírat oči před tím, když jsou k dispozici data, a jak je neignorovat. Také mi přijde důležité naučit se spolupracovat a nedělat v oněch silech. Důležitost dat a jejich analýzy poroste a dotkne se různých oborů. Marketing dnes například zdaleka není o tom napsat hezký text do Google AdWords. Je tam silný vliv dat, komplexity propojení a strojového učení. Otázkou je, jak tohle učit. Tady skripta moc nepomáhají. Líbí se mi, jak to dělají holky z Czechitas, kde fungují offline workshopy.

Objevuje se dnes ve firmách ve větší míře práce s nestrukturovanými daty?

Ano, čím dál více. Před patnácti lety měly firmy k dispozici data, která byla zavřená v databázích. Nebo získávaly nějaké výstupy, jako jsou reporty od Nielsenu a podobně. Jak se svět začal přesouvat do cloudu, začaly se tyto molochy rozbíjet. Dnes spousta dat „sedí“ venku, a navíc se objevují služby typu Yelp či sociální sítě, kde sedí značná masa nestrukturovaných dat. Dnešní výstupy dnes často nejdou dělat bez toho, že by se nesáhlo na nestrukturovaná data.

Pavel Doležal
Autor: Keboola

Pavel Doležal

Když sledujete, kam se práce se daty vyvíjí, je možné, že řadu oborů čeká podobná evoluce, o kterou se v rámci plně automatizovaných retailových obchodů snaží Amazon Go?

Amazon Go má třikrát až pětkrát větší obrat na stejnou plochu než normální obchody. Jde o stejný princip, jako když Amazon před lety řešil, že určité procento toho, o co rychleji se načte web, zvýší o dalších několik procent obrat. Tomáš Čupr kdysi řekl, že každé odvětví, ve kterém jsou více než čtyři formuláře, se dá disruptovat

Minulý rok jsme si s koncepty typu Amazon Go hodně hráli. Je několik cest. To, že si vše zvládnete udělat sami „doma“, zvládá pár firem na světě. Nebo to opět musíte dát do nějakého ekosystému. Vy u sebe nebudete mít ty nejlepší datové vědce. Je potřeba mít prostředí, které vám umožní se otevřít a umožní vstup externích data science firem, které vám pomohou. Na to se konkrétně soustředíme my. Tohle otevírá nové možnosti. Na Amazon Go se dnes aplikuje reverzní inženýrství, ale je třeba myslet, co bude dál, ne to jen kopírovat. Amazon Go je pouze jeden první reálný příklad.

Jak ovšem do tohoto data sharing prostředí zapadá to, že několik velkých firem sedí na datech, která nikdo nemá, a zbytek trhu tak může být znevýhodněn? Jde třeba o Amazon, Google a další.

To je specifické. Na některé věci potřebujete data, které má třeba jenom Google. Ale ve většině byznysových případů to tak není. Důležité je řízení byznysu a podstatné jsou inovace. Je řada oblastí a oborů, kde se firmy mohou profilovat. Ne všichni přeci musí dělat Amazon Go. A pokud ano, musí si najít svoji odlišnost a na tu se specializovat. Amazon pouze ukázal, že to jde.

V poslední době se opět začíná více mluvit o hybrid cloudu. Dává to v datovém prostředí smysl?

Myslím si, že smysl nedává, a pokud ano, tak pouze z důvodu regulatorních požadavků. Tento přístup je často daný tím, že jsou regulace pozadu s realitou světa. Ale to se také mění. I cloudoví provideři typu Amazon a Microsoft jsou na to velmi dobře připravení a ví, co velké firmy chtějí a proč to chtějí a jsou schopní jim to zajistit. Spíše je teď dost debat okolo edge computingu, kdy bude potřeba dělat nějaké věci v geograficky vzdálených lokalitách a budou tam muset běžet nějaké modely. To jsou zajímavější přístupy.

Ale i takový server lze v některých případech považovat za edge.

Jde o to, co se na něm dělá. Pokud funguje jako zařízení, na kterém se předzpracují data ze senzorů a běží na něm základní modely, to je v pořádku. V některých případech bude třeba data předzpracovávat přímo na místě. Problém je to, když někdo říká „já se bojím, nechci, tak to budu mít pod stolem“. Hybridní řešení je dle mého ve většině firem nějaká přechodná fáze.

Keboola nedávno oznámila založení pobočky v Chicagu. Proč zrovna tam?

Největší část B2B byznysu v oblasti enterprise upper mid market se děje ve Spojených státech. Nám se daří získávat větší a větší zákazníky a musíme jim poskytovat servis, poskytovat jim služby, seznamovat je s dalšími lidmi, budovat prostředí a ekosystém. A to se musí dělat lokálně. 

WT100 obecný tip

V Chicagu teď děláme sérii akcí, kde se servírují i drinky. Ve světě, kde jsou lidé přehlcení digitálními technologiemi, rádi chodí na offline akce. Na tyto akce vodíme i zákazníky, kteří mají zajímavé datové projekty a postupně si budujeme komunitu.

Jenom samotná oblast Chicaga má asi třikrát větší HDP než Česká republika. Také tam sídlí spousta retailových, logistických a dalších společností. To je pro nás velice zajímavá cílová skupina. V Chicagu je také řada šikovných lidí a přetlak tam není tak veliký jako jinde.