Hlavní navigace

Audit DCCi: věřit či nevěřit?

Hynek Med 30. 9. 1998

Firma DCCi provádí již nějakou dobu audit návštěvnosti populárních serverů. Jakkoliv je tato činnost velmi chvályhodná, výsledky auditu je třeba brát s určitou rezervou.

Firma DCCi provádí audit návštěvnosti populárních serverů. Jakkoliv je tato činnost velmi chvályhodná, výsledky auditu je třeba brát s určitou rezervou.

Nejde mi ani tak o udávání Unique IP, i když tento údaj má tak malou vypovídací hodnotu, že by možná bylo lepší jím nemást veřejnost a neuvádět jej vůbec. Problém je v nepřesném vyhodnocování PageViews, tedy shlédnutí stránek. Vzhledem k tomu, jak logování přístupů na webový server probíhá, některé PageViews nejsou na některých serverech podchyceny, a naopak jako PageView jsou jinde počítány požadavky, které ve skutečnosti novým požadavkem na stránku nejsou.

Toto by nebyl problém, kdyby se tyto nepřesnosti projevovaly u všech auditovaných serverů stejně. Bohužel tomu tak není. Servery jsou různé, a v různé míře trpí níže popsanými nepřesnostmi, takže jejich výsledky jsou špatně srovnatelné, přestože analýza jejich logů probíhá stejným způsobem. Právě srovnatelnost výsledků je však smyslem nezávislého auditu.

Mezi jevy zkreslující výsledky auditu patří používání frames, problematika povolení cachování stránek a méně významné problémy, jako například nerozlišitelnost stránky a obrázku, generovaných scriptem.

Nevím, jak přesně probíha počítání PageViews z dodaných logů probíhá (škoda že na serveru DCCi není metodika podrobněji popsaná), hádám, že všechny požadavky, končící na .html, .htm apod., případně lomítkem jsou brány za PageView. To ale u stránek složených z několika HTML souborů neodpovídá skutečnosti, protože na jednu stránku je generováno několik požadavků na HTML soubor. Tím dochází k přeceňování PageViews u serverů, které používají frames (Trafika, Zelený Raoul, částečně Ringier). Těžko říci o kolik, záleží na počtu rámců a počtu stránek shlédnutých uživatelem v rámci jedné Session (při požadavcích na další stránky se typicky mění jen jeden frame). Řádově to může být několik desítek procent.

Problém cachování spočívá v tom, že na úrovni protokolu HTTP je možné zakázat cachování HTML dokumentů v proxy serverech i v lokální cache browseru. Jenže, různé servery jsou různě nastaveny, některé povolují cachování všude (donedávna Neviditelný pes, Seznam), některé nikde (ČTK). Díky tomu často požadavek vůbec nedojde k serveru, protože je obsloužen z lokální cache browseru nebo z proxy serveru. Tím dochází k podceňování PageViews u serverů, které cachování povolují. I zde je těžké odhadnout nějaká čísla, o které je výsledek auditu zkreslen. Zvláště u serverů, na nichž je typická cesta uživatele homepage – článek – homepage – článek atd. může být zkreslení poměrně značné, řádově opět v desítkách procent, možná i víc.

Jak je vidět, logy WWW serverů neposkytují informace, které by jejich provozovatelé potřebovali a pouze jejich analýzou se není možné dobrat rozumně srovnatelných výsledků. Lepší metodologie analýzy návštěvnosti WWW serverů přitom existují – stačí se podívat na řešení používané prý švýcarskou a německou unií vydavatelů (tady). Trik spočívá v počítání nikoliv samotných stránek, ale necachovatelných neviditelných mikroobrázků, které navíc umožňují rozlišit, zda se jedná o stránky s obsahem, menu, nebo reklamou, pokud se jedná o dokumenty používající frames. Necachovatelností těchto obrázků se odstíní vliv proxy serverů a cache browseru, přičemž stránky samotné mohou zůstat cachovatelné, takže se dosáhne jejich rychlejšího načítání (mikroobrázky mají délku pár desítek bajtů) i objektivnějších záznamů o čtenosti. Na druhou stranu nevýhoda pochopitelně tkví v tom, že do takové statistiky nejsou zahrnuty přístupy „bez obrázků“, jenže takovéto zkreslení je relativně malé a navíc se dá předpokládat, že se bude projevovat u všech serverů stejně.

Stálo by možná za úvahu použít tuto metodiku jako oficiální i u nás, případně se touto (nebo nějakou podobnou) metodikou nechat inspirovat. Doufejme, že se DCCi předvede profesionálněji než APO, proslavená blamáži s transparentními proxy servery.


Starší, související články:

(Na Lupě už se o auditu DCCi psalo několikrát – bohužel jsem starý nepořádník a ani přes půl hodiny trvající usilovnou snahu se mi nepodařilo ty články vyštrachat; navíc v tuto chvíli nefunguje fulltext Technetu, který jsem si chtěl vzít na pomoc. Omlouvám se tedy, pokud máte zájem, budete si je muset najít sami. Pro nás je to jen další impuls, abychom něco dělali s nepřehledným archívem komentářů.
 -man)

Našli jste v článku chybu?
Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

Podnikatel.cz: Udávání a účtenková loterie, hloupá komedie

Udávání a účtenková loterie, hloupá komedie

DigiZone.cz: Digi CZ výrazně zlevnila balíček HBO

Digi CZ výrazně zlevnila balíček HBO

DigiZone.cz: Recenze Westworld: zavraždit a...

Recenze Westworld: zavraždit a...

Měšec.cz: Kdy vám stát dá na stěhování 50 000 Kč?

Kdy vám stát dá na stěhování 50 000 Kč?

Root.cz: Vypadl Google a rozbilo se toho hodně

Vypadl Google a rozbilo se toho hodně

Root.cz: 250 Mbit/s po telefonní lince, když máte štěstí

250 Mbit/s po telefonní lince, když máte štěstí

Vitalia.cz: Jsou čajové sáčky toxické?

Jsou čajové sáčky toxické?

Vitalia.cz: Dáte si jahody s plísní?

Dáte si jahody s plísní?

120na80.cz: Stoná vaše dítě často? Upravte mu jídelníček

Stoná vaše dítě často? Upravte mu jídelníček

Vitalia.cz: Znáte „černý detox“? Ani to nezkoušejte

Znáte „černý detox“? Ani to nezkoušejte

Vitalia.cz: Jmenuje se Janina a žije bez cukru

Jmenuje se Janina a žije bez cukru

Měšec.cz: Air Bank zruší TOP3 garanci a zdražuje kurzy

Air Bank zruší TOP3 garanci a zdražuje kurzy

Měšec.cz: Platby do zahraničí: pozor na tučné poplatky

Platby do zahraničí: pozor na tučné poplatky

Podnikatel.cz: Udávání kvůli EET začalo

Udávání kvůli EET začalo

Vitalia.cz: Pravda o přibírání na zimu

Pravda o přibírání na zimu

120na80.cz: Rovnátka, která nejsou vidět

Rovnátka, která nejsou vidět

Podnikatel.cz: Na poslední chvíli šokuje výjimkami v EET

Na poslední chvíli šokuje výjimkami v EET

DigiZone.cz: Rádio Šlágr má licenci pro digi vysílání

Rádio Šlágr má licenci pro digi vysílání

DigiZone.cz: ČT má dalšího zástupce v EBU

ČT má dalšího zástupce v EBU