Hlavní navigace

Big data: na velké objemy dat musíme jinak

Není pochyb o tom, že data nepřetržitě kynou. To není problém u těch strukturovaných, jež lze spravovat i analyzovat běžnými nástroji. Obtíž nastává s tzv. Big data, pro něž jsou standardní metody nedostačující.

Důvodem nesnází při zpracování Big data přitom nemusí být pouze ohromné objemy dat (v řádu tera-, peta- či dokonce exabajtů), ale také přílišná rychlost, s jakou jsou generovány a přenášeny po síti či jejich výrazná typologická variabilita. Všechny podniky využívají IT v nějaké formě, informační technologie jsou zkrátka všude kolem nás, od průmyslových strojů po spotřebiče v našich domovech. Krom toho hraje roli růst internetu o nové služby. Například Twitter během roku 2011 zaznamenal v průměru více jak 200 milionů uživatelských příspěvků na den. Ve stejném časovém období Facebook generoval denně přes 130 terabajtů. Dále jsou zde kvanta dat z mobilních zařízení. Jednoduše jsme bombardováni množstvím jedniček a nul, ať už se nám to líbí nebo ne. Podle zprávy IBM z letošního roku bylo dokonce celých 90 % objemu veškerých dat vygenerováno během posledních dvou let. Jen pro představu: během letu přes Atlantský oceán čtyřmotorovým letadlem je vygenerováno asi 640 terabajtů. V souvislosti s globálně více jak 25 000 lety denně jde o ve finále o ohromná čísla – a to je řeč o jediném odvětví. Obdobně na tom je například energetika či telekomunikace.

Analýza Big Data a Business Intelligence

Podle americké konzultační společnosti McKinsey čelíme datové explozi, která podnikům přináší enormní objemy dat, jež mohou být důležitým zdrojem informací vedoucích k získání konkurenční a strategické převahy na trhu. Firmy, které mají přístup k detailním údajům o vlastní činnosti i aktivitách ostatních, mohou – v případě, že je dokáží správně využít – těžit z výrazných výhod. Analytici McKinsey konstatují, že globální objem dat se mezi roky 2009 až 2020 znásobí celkem 44×, k čemuž výrazně přispívají také klesající ceny úložišť.

Analýza informací s cílem podpořit obchodní činnost není žádnou novinkou a spadá do oblasti Business Intelligence (BI). Tradiční platformy BI, databáze a nástroje, však již nejsou dostačující právě při zpracování Big Data. Samotný pojem Big Data byl poprvé použit v roce 2001 analytiky ve společnosti Meta Group. Jde o vcelku široký pojem, který nabízí řadu definic, obecně však zahrnuje data, která jsou příliš objemná nebo komplexní, než aby je bylo možno za pomoci dostupných prostředků zpracovat a zanalyzovat v reálném časovém horizontu. Tento problém v kombinaci s obchodním potenciálem řešení přitáhl pozornost mnoha vývojářských i konzultačních firem. 

Přední analytická firma Gartner označila Big Data za jedno ze tří z nejžhavějších témat oblasti BI pro následující roky. Zároveň upozorňuje, že podniky, které se rozhodnou tento trend ignorovat a neadoptují nové techniky pro zpracování a analýzu velkých a nestrukturovaných objemů dat, mohou výrazně zaostat za konkurencí. 

Odpověď je v cloudu

Strategičtí konzultanti z Booz Allen Hamilton jsou přesvědčeni, že právě cloud je ideálním prostředím pro konsolidaci Big Data. Velké objemy dat jsou totiž často roztroušeny napříč podnikovou infrastrukturou, zatímco výhodnější by byla jejich agregace na jednom „místě“. Krom toho však cloud nabízí kombinaci technologií vhodných ke zpracování těchto velkých objemů dat: virtualizaci, grid computing, utility computing a webové technologie. Lze tak získat vysoce pružnou IT architekturu, snížit náklady a zrychlit síťové přenosy. V rámci maximalizace výtěžnosti Big Data musejí podniky ovšem také přijmout nové strategie pro správu informací. To přitom učiní nejlépe s podporou zručných a zkušených profesionálů.

Koncentrace dat do jednoho místa pak umožňuje také lépe řešit bezpečnost data to nejen z hlediska zálohování a disaster recovery, ale hlavně důsledného uplatnění firemních politik pro zacházení s daty. Přecejen pokud jsou data roztroušena po firemní IT infrastruktuře, může snadno dojít k tomu, že nějakou nedůsledností vznikne skulina, která může ohrozit celistvost dat nebo umožnit únik do nepovolaných rukou. Přestože kolem cloudových platforem vzniká celá řada otázek kolem bezpečnosti, při správném nasazení technologií nehrozí ze strany poskytovatelů cloudu kompromitace dat – nikdo, kdo to s bezpečností myslí vážně asi nebude data u poskytovatele ukládat v nezašifrova­ném tvaru…

Jedním z evropských dodavatelů s potřebným záběrem a zdroji pro přenos a uložení velkých objemů dat a celých obchodních procesů do cloudu – při dosažení potřebného výkonu a zabezpečení – je společnost T-Systems, která je součástí koncernu Deutsche Telekom. Hlavní oblasti jejího zaměření letos jsou migrace komplexních aplikací a datová integrace. Z tohoto pohledu je důležitá především technologie HANA (High Performance Analytic Appliance) společnosti SAP. Ta umožňuje ad hoc analýzu objemných datových celků způsobem, který byl dříve příliš nákladný či časově náročný. Konkrétně se jedná o in-memory zpracování dat, tedy aplikace a data jsou zavedena přímo v operační paměti a přístup k nim je mnohonásobně rychlejší než při standardních přístupech. Testy ukázaly, že díky HANA lze analýzu urychlit 150–3500násobně. Datové dotazy napříč 500 miliardami záznamů jsou tak zodpovězeny za méně než minutu.

Jan Rezek, T-Systems Czech Republic