Datový sklad má pro uživatele mnoho výhod. Umožňuje vytvářet celkové pohledy na data, jenž mohou odhalit mnoho dosud neznámých vazeb, jež by bez integrace různých datových zdrojů nebylo možné objevit. Poskytuje efektivní techniky pro nakládání s daty, ve skladu archivujeme pouze užitečná data, čímž dochází k odlehčení databází produkčních systémů. V neposlední řadě je zřejmým přínosem skutečnost, že jsou firemní data logicky (případně fyzicky) centralizována, tudíž uživatelé mají k dispozici jednotnou verzi dat a nedochází ke vzniku nekonzistencí. Z výše uvedených důvodů je účelné ukládat rovněž clickstreamová data do datového skladu. Pro označení datového skladu orientovaného na clickstream se vžil název data webhouse.
Úspěšné zvládnutí webhousingu znamená vyřešit rovnici o třech neznámých. Nejprve musíme mít k dispozici zdroj clickstreamových dat. S tím bude asi nejmenší problém, protože provádíme-li webhousing, je to proto, že provozujeme WWW stránky či internetovou aplikaci a data o jejich online provozu jsou středem našeho zájmu. Clickstreamová data mohou mít různou podobu. Nejběžnějším „typem“ zdrojových clickstreamových dat je logový soubor serveru. Jeho výhody jsou zřejmé: Každý webserver je schopen generovat logový soubor, a pro získání clickstreamových dat tak nepotřebujete už žádné další zařízení nebo software. Má však i svá omezení plynoucí z toho, že logový soubor nikdy nebyl určen k tomu, aby se do něj zaznamenával clickstream. Alternativní možností je použití techniky odposlechu síťové komunikace mezi serverem a uživatelským prohlížečem. Tento postup je o něco náročnější a nákladnější, poskytuje však přesnější a úplnější data, což je pro budoucí analýzu rozhodně přínosem. Platíme za to nutností použít dodatečné zařízení a software provádějící odposlech sítě a uchovávající záznam o komunikaci se serverem. Mimo těchto dvou postupů získávání clickstreamových dat existují ještě některé další, jenž však nejsou vhodné pro webhousing.
Druhou neznámou naší rovnice jsou ETL nástroje. Máme-li clickstreamová data, musíme je určitým způsobem zpracovat a dostat do datového skladu. ETL nástroje provádějí vyčtení clickstreamových dat, jejich transformaci a nahrání do datového skladu. Pojem transformace v sobě zahrnuje vyčištění clickstream dat – odstranění irelevantních, nekompletních a chybných dat – a jejich přeměnu do podoby, v jaké budou nahrána do datového skladu. Transformace dat je v úzkém vztahu s granularitou dat, čím je vyšší požadovaná granularita, tím bude větší část z primárních hrubých dat irelevantní pro další využití. Výkonnost těchto nástrojů zásadně ovlivňuje výkonnost datového skladu a celého procesu webhousingu. Požadavky na výkon jsou dány velkým objemem clickstreamových dat a rychlostí jejich generování. U velmi navštěvovaných serverů mohou dosahovat logové soubory řádově stovky megabytů (až jednotky gigabytů) generovaných denně a ETL nástroje musí být schopny zpracovávat takovýto soubor větší rychlostí, než s jakou roste. To vede k nutnosti použít u ETL nástrojů techniky paralelního zpracování. Pochopitelně u méně navštěvovaných serverů budou tyto nároky nižší, přesto je dobré vzít v úvahu, že návštěvnost serveru může během krátké doby zaznamenat neočekávaný nárůst, a být na to připraven dostatečným dimenzováním ETL nástrojů. Také lze očekávat neustálý dlouhodobý růst počtu uživatelů Internetu, což v globálním měřítku musí vést k celkovému růstu objemu clickstreamových dat. Zvyšování rychlosti uživatelské konektivity umožňuje provést více interakcí se serverem za kratší dobu, což vede k rychlejšímu generování clickstreamových dat.
Třetí a poslední neznámou je data webhouse. Svou podstatou se neliší od běžného datového skladu, až na jednu významnou vlastnost. Webhouse musí být schopen uchovávat a spravovat data o objemech řádově stovky gigabytů (až jednotky terrabytů), pro mezní případy hojně navštěvovaných serverů. Musíme si uvědomit, že sklad ukládá historickou řadu dat a tato data jsou mnohdy za období jednoho roku, případně i delší. Cliskstreamová data jsou v současné době nejnáročnějším typem dat. Před nástupem Internetu byly nejnáročnějším typem dat informace o jednotlivých uskutečněných hovorech v sítích telekomunikačních operátorů.
Základní informace – jako záznam průchodu uživatele WWW serverem – je přínosná zejména ke stanovení toho, odkud uživatelé přicházejí na server. Této informace se využívá ke stanovení úspěšnosti reklamních kampaní nebo indexace v katalozích a vyhledávačích. Záznam průchodu uživatele serverem nám také ukáže, jak snadná nebo naopak obtížná je pro uživatele navigace na našich stránkách. Důsledkem by měla být optimalizace stránek, jež sníží počet kliknutí, která musí uživatel vykonat, aby se dostal k jádru věci. Čas strávený uživatelem na stránce nám napoví, zdali věnuje pozornost jejímu obsahu nebo jen proklikává na stránku další. My však potřebujeme zjistit o chování uživatelů na serveru co nejvíce.
Z toho důvodu obsahuje data webhouse nejen clickstreamová data, ale také data integrovaná z jiných datových zdrojů. Tato skutečnost je pro webhousing podstatná, jeho smyslem je právě integrace clickstreamových dat s ostatními firemními daty. Struktura databáze datového skladu je postavena na tzv. dimenzionálním modelování, jenž vede na strukturu tabulek faktů a tabulek dimenzí. Zatímco tabulky faktů jsou v databázi jedinečné, tabulky dimenzí jsou naopak společné a sdílené různými tabulkami faktů. Pod fakty pro případ clickstreamových dat si můžeme představit např. tabulku úspěšně dokončených online sezení (obsahující objem transakce v penězích a počet objednaných kusů), jejichž dimenzemi jsou datum a čas, informace o zákazníkovi, záznam průchodu jednotlivými stránkami, objednané zboží, způsob platby, způsob doručení atd.
U datového skladu, založeného na dimezionálním modelování, není problém provádět strukturované dotazy do databáze, dotazující se na různé fakty dle určitých dimenzí. Díky datovému skladu tak můžeme zjistit souvislosti mezi zdánlivě nesouvisejícími skutečnostmi, a to pouze proto, že jsme schopni vytvářet celkové pohledy (či dotazy) na integrovaná firemní data. Je nezbytné se dále zmínit o možnosti použití analytických nástrojů a metod, souhrnně označovaných pojmem dolování dat (data mining). Data mining v sobě zahrnuje metody pro rozpoznávání tříd, rozpoznávání vzorů, predikce a odhady chování a další. Pomocí takovýchto metod je možno mnoho analytických postupů automatizovat a doslova a do písmene vydolovat z dat maximum jejich informační hodnoty. Použití metod dolování dat je pro webhousing zásadní, neboť analýza běžnými postupy je pro informace skryté hluboko v datech neúčinná.
Příkladem výsledku analýzy může být zjištění, že zákaznicí z určitého segmentu, který jsme analýzou definovali, mají tendenci nakupovat především dražší verze určitého výrobku. Identifikujeme-li pak takového zákazníka s pomocí clickstreamové analýzy při jeho příchodu na prodejní server, nabídneme mu dražší verze výrobku přednostně, abychom dosáhli objednávky generující vyšší příjem.
Pro webhousing platí dvě zásady: Jeho výkon je ovlivněn výkonem použitých ETL nástrojů, jeho užitnou hodnotu ovlivňuje množství a kvalita analytických nástrojů. Zájemcům o další informace k webhousingu doporučuji následující publikaci The Data Webhouse Toolkit.
V příštím díle bychom se detailně zaměřili na možnosti logového souboru pro clickstreamovou analýzu.