Hlavní navigace

Jiří Hlavenka: Velká data – nebo jenom velký prachy?

27. 5. 2014
Doba čtení: 8 minut

Sdílet

 Autor: Isifa
Big data, česky velká data, jsou jedním z hesel poslední doby. Kdo nejede ve velkých datech, ten žije ve třináctém století. Nejde vám podnikání? To proto, že neanalyzujete velká data.

Giganti průmyslu informačních technologií to mají těžké. Tržby musí růst, bestii je nutno krmit, ale zákazníci moc platit nechtějí. Co potřebovali, to už mají, a ještě dnes se jim dělají mžitky před očima, jaké peníze to stálo. Dnes hledají spíše úspory, a nalézají je: například odlehčené webové (cloudové) aplikace, které stojí pár dolarů měsíčně, jim lehce a elegantně nahrazují produkty systémové integrace, které kdysi stály milióny a jejichž implementace byla jeden dlouhý příběh plný utrpení. Nechci systémové integrátory nijak zesměšňovat – dělají, co mohou, a dlouhá léta nebylo nic lepšího, ale časy se mění.

Když není co prodávat, musí se vymyslet nový příběh. Tak se vymyslel termín Big data, namalovaly se grafy, dle kterých lidstvo každý rok, nebo dva, nebo pět (je to ostatně úplně jedno, protože naprostá většina dat je jen hromadou bordelu) zdvojnásobí objem dat, která vytvoří, a příběh pak odhaluje, že v těchto gigantických datech, běžnými databázovými prostředky nepropátratelných, se skrývá bohatství, úspěch vaší firmy.

A vytváří se příslušné prostředky a produkty. Jaký je rozdíl mezi analyzátorem dat a analyzátorem Big Dat? Jedna nula navíc na výsledném účtu od dodavatele řešení.

Big data jsou… vlastně nejsou. Není žádná pevně stanovená hranice mezi daty a Big daty; to, co pro jednu společnost jsou big data, je zvládnutelné (standardními) analytickými prostředky větší korporace. Big data jsou navíc jako Otesánek věrná svému jménu: neustále rostou. To, co bylo považováno v roce vzniku tohoto termínu (2008) za velká data, jsou dnes data malá.

Ne že by Big data neměla svou skorooficiální definici. Gartner – analytická firma úspěšně podporující byznys velkých IT firem – tvrdí, že big data jsou „informačními aktivy o velkém objemu, velké pestrosti a velké proměnlivosti, která vyžadují nové formy zpracování k usnadňování rozhodovacího procesu, objevnému vhledu (do problematiky) a procesní optimalizaci“. Podruhé to už prosím nečtěte, rozbolí vás hlava.

Big data skutečně existují – takový eBay používá datový cluster o rozměru 90 PB (petabytů), další největší hráči jsou na tom podobně. To jsou už zatraceně velká data – jenomže eBay (a Google, Amazon atd.) jsou čistokrevně internetové firmy, v Internetu a datech leží podstata jejich podnikání a to s sebou práci s obřími daty nese. Existence obřích datových skladů ale ještě neznamená, že se s nimi onou „big data“ formou zachází, jestli tedy skutečně existují ty inovativní prostředky k jejich analýze a jestli se právě zde skrývá klíč k úspěšnému byznysu těchto společností – nebo zda není někde jinde.

Manažerův sen

Přínos big data je zjednodušeně charakterizován zhruba takto: máte obrovské objemy dat, získaných i z různých zdrojů. Tím, že je proháníte analytickými mechanismy, objevujete netušené: ukazují se například nejrůznější překvapivé korelace, vztahy a závislosti. Skutečně zjišťujete něco, co jinak zjistit nejde.

Jenomže big data vám už neposkytnou návod k vyhodnocení těchto zjištění. Neřeknou vám, jestli zjištěné korelace jsou skutečně závislostmi, a neřeknou vám, jestli jsou významné. Neřeknou vám ani, co je příčina a co následek v řetězci korelujících zjištění.

Big data analýza vám třeba sdělí, že je velmi výrazná a zřetelná korelace mezi růstem výskytu plešatosti u mužů a počtem silikonových implantátů ňader u žen. Úžasné zjištění, které se bez big dat nedozvíte, jen je otázka, co s tím. Big data vám totiž nedají odpověď, zda mezi těmito jevy je kauzální závislost, tedy zda je jedna příčinou druhé (a pokud ano, která to je, zda pleš nebo silikon), či zda to má příčiny zcela někde jinde, zda je příčina jedna nebo zda je jich sto. Pohroužíte-li se do big dat, naleznete sto korelací mezi stovkou různých jevů. Problém ale je, že už nikdy nezjistíte, která z těchto korelací je příčinná a která je čistě náhodná.

Big data jsou svůdná. Obzvláště pro současnou generaci, pro kterou slovo „práce“ splývá s frází „sedět u počítače a klikat“. Manažerská práce je pak vnímána jako činnost, kdy sednete za počítač, zadáte big data analýzu, vyskočí vám grafy, krásné, velké, barevné, a na základě nich činíte manažerská rozhodnutí. Big data, to je sen současného manažera.

Když svět je matematizován

Ale neměli bychom se divit. Svět je matematizován. Sókratés v době, kdy svět byl ještě jednoduchý, pravil vím, že nic nevím. Dlouhou řadu století byli vůdčími duchy lidé, kteří zneklidňovali, pochybovali, zpochybňovali a kladli otázky – věděli, že nic nevědí.

Svět se mezitím dále komplikuje, až za hranici snesitelnosti a my hrozně moc toužíme jej zjednodušit, napřímit. Nechceme jej popisovat pomocí slov, protože ta jsou vždy nejednoznačná. Chceme dvě věci: první je, aby ekonomie byla určující vědou, která zastiňuje všechny ostatní, takže se není třeba jimi ani zabývat („it´s the economy, stupid!“). A dále chceme, aby se ekonomie vyjadřovala pouze v číslech, tabulkách a grafech.

První ekonomové byli lidé s tzv. klasickým vzděláním; Adam Smith, který je považován za otce ekonomických věd, byl filosof a profesor etiky, jeho slavní následovatelé byli rovněž obvykle filosofy či sociology. 

Kam jsme se to dostali za necelá dvě století? Dnešní člověk, kterému v televizi dají pod jméno podtitulek „ekonom“, si vezme big data, udělá nějaká number crunching, vyplivne mu to dvě křivky grafu, například disproporci ve mzdách mezi pohlavími a HDP na obyvatele, vyvodí z toho moudré závěry a ani mu nezčervenají uši.

Protože taková je společenská poptávka – lidé to chtějí mít rychlé, jednoduché a srozumitelné. Dvacet vteřin v hlavních zprávách a svět je pochopen. Tak to dostanou a big data jim k tomu vydatně pomohou. A bude se utrácet – však prý už nyní má průmysl big dat „hodnotu“ sto miliard dolarů ročně. (Toto číslo nebylo vypočteno na základě analýzy big dat, ale nějaký hoch od Gartnerů ho odpálil od pasu. Bude se však lidem líbit úplně stejně – a mnohem více, než kdyby napsal, že ta hodnota je 97 953 123 428 dolarů a třicet tři centů).

Slabých stránek na velkých datech je více. Datová analýza nám poskytne informace, často jinak nezjistitelné, ale nepomůže nám porozumět problému; zde musí nastoupit špičkový lidský mozek (což je problém, protože linky mohou chrlit tisíce počítačů a petabytové datové kapacity, na špičkové lidské mozky se ale stojí fronta). 

Analyzování velkých dat je velice náchylné na takzvaný žádoucí efekt: my si něco myslíme a děláme datové analýzy, abychom to dokázali. A jelikož nám velká data dávají obrovskou volnost, a možnost zkoumat závislosti kdečeho na kdečem, drtíme data tak dlouho, dokud nám nevyjde žádaný výsledek. (Nehledáme v big datech objev, ale chceme potvrdit svou domněnku). 

A konečně, big data a jejich analýza samy o sobě nemají vůbec žádnou hodnotu: data mohou být nepřesná, a analýzy mohou být špatné. Špatná analýza je špatnou analýzou vždy, bez ohledu na to, s jak velkým objemem dat pracovala.

Dobře známé a často publikované je selhání big data analýzy u firmy, kde bychom to zrovna nečekali. Google Flu Trends byl zajímavý pokus o předpovídání výskytu chřipky (flu = chřipka) na základě obrovských datových analýz, desítek miliónů zdrojových dat. První dva roky se jevily báječně – byly publikovány zprávy, že algoritmus Google Flu Trends predikuje výskyt a šíření chřipky podstatně lépe než lidé v národním zdravotnickém centru; zdálo se, že tu máme příklad par excellence, kdy stroj zjistí na analýze obrovských dat vzorce chování a závislostí, které lidské mozky nedokáží vidět a obsáhnout. Jenomže v dalších letech už Google Flu Trends předpovídala velmi špatně; podstatně hůře než doktoři. Algoritmus neprokázal svou platnost. V čem byl problém? Zajímavé je, že se na to odpověď nenašla – ani s využitím velkých dat. Prostě to chvilku fungovalo a pak ne.

Jeden z mnoha užitečných pomocníků

Největším problémem velkých dat je víra v jejich všespásnost, v jejich receptu na všechny bolístky, ve spoléhání se na to, co přinesou. Datová analýza je samozřejmě potřebná a užitečná – lidstvo s ní pracuje ke svému užitku už tisíce let. Bez datové analýzy si nelze představit podnikání. O tom nelze mít nejmenší pochyby.

Big data ale zatím neprokazují, že jsou nějak zásadně užitečnější než „small data“, než to, co můžete, s malou nadsázkou řečeno, analyzovat na laptopu s Excelem. Kromě technologické schopnosti vůbec zpracovat obrovské množství dat nepřinášejí big data fundamentálně jiný přístup k analýze, ač je nám tvrzeno, že ano a vymýšlejí se pojmy jako multilinear subspace learninggenetic algorithm

Opět, nechci to zlehčovat, je jasné, že zkoumání neuvěřitelně velkých hromad dat nasbíraných po Internetu vyžaduje, aby bylo vůbec proveditelné, nové metody matematické analýzy a že tyto metody budou dostávat vznosně znějící jména. Big data jsou nepochybně vzrušujícím vědeckým oborem, který musí překonat ještě mnoho úžasných výzev.

MMF24

Ale ani za deset let, když bude mnohé objeveno a metody vycizelovány, nebudou velká data více než jedním z mnoha pomocníků. Klesá prodej vašeho produktu, pane manažere? Sedněte do auta a objeďte prodejny, stoupněte si na dvě hodiny v každé za pokladnu a budete moudřejší než po provedení multilineárního podprostorového učení. Fabrika nevykazuje efektivitu, jakou by měla? Vstaňte od počítače, navlékněte si montérky a jděte se postavit na pět hodin k pásu, a po konci směny budete moudřejší, než kdybyste na všechna data z výroby napráskal osm generických algoritmů.

Jenomže říkat to je jako házet hrách na zeď. Jsme posedlí čísly a nechce se nám vstávat od počítače; výsledkem je závislost, která je horší než na hracích automatech, a navíc to nikdo nezakáže. Steve Jobs, který dokázal změnit svět citem, intuicí a hlubokým lidským pochopením podstatného, je mrtev a jeho duch nás už nestraší. Vracíme se k důvěrně známému svitu monitoru, k velkým datům, krásným barevným grafům a je nám tam dobře.

Byl pro vás článek přínosný?

Autor článku

Autor je zakladatel společností Computer Press a InternetShops, novinář a autor odborných publikací, v současné době soukromý investor (mj. Fayn Telecommunications.). Jeho další materiály naleznete na www.bloc.cz.

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).