Hlavní navigace

Audit DCCi: věřit či nevěřit?

30. 9. 1998
Doba čtení: 3 minuty

Sdílet

Firma DCCi provádí již nějakou dobu audit návštěvnosti populárních serverů. Jakkoliv je tato činnost velmi chvályhodná, výsledky auditu je třeba brát s určitou rezervou.

Firma DCCi provádí audit návštěvnosti populárních serverů. Jakkoliv je tato činnost velmi chvályhodná, výsledky auditu je třeba brát s určitou rezervou.

Nejde mi ani tak o udávání Unique IP, i když tento údaj má tak malou vypovídací hodnotu, že by možná bylo lepší jím nemást veřejnost a neuvádět jej vůbec. Problém je v nepřesném vyhodnocování PageViews, tedy shlédnutí stránek. Vzhledem k tomu, jak logování přístupů na webový server probíhá, některé PageViews nejsou na některých serverech podchyceny, a naopak jako PageView jsou jinde počítány požadavky, které ve skutečnosti novým požadavkem na stránku nejsou.

Toto by nebyl problém, kdyby se tyto nepřesnosti projevovaly u všech auditovaných serverů stejně. Bohužel tomu tak není. Servery jsou různé, a v různé míře trpí níže popsanými nepřesnostmi, takže jejich výsledky jsou špatně srovnatelné, přestože analýza jejich logů probíhá stejným způsobem. Právě srovnatelnost výsledků je však smyslem nezávislého auditu.

Mezi jevy zkreslující výsledky auditu patří používání frames, problematika povolení cachování stránek a méně významné problémy, jako například nerozlišitelnost stránky a obrázku, generovaných scriptem.

Nevím, jak přesně probíha počítání PageViews z dodaných logů probíhá (škoda že na serveru DCCi není metodika podrobněji popsaná), hádám, že všechny požadavky, končící na .html, .htm apod., případně lomítkem jsou brány za PageView. To ale u stránek složených z několika HTML souborů neodpovídá skutečnosti, protože na jednu stránku je generováno několik požadavků na HTML soubor. Tím dochází k přeceňování PageViews u serverů, které používají frames (Trafika, Zelený Raoul, částečně Ringier). Těžko říci o kolik, záleží na počtu rámců a počtu stránek shlédnutých uživatelem v rámci jedné Session (při požadavcích na další stránky se typicky mění jen jeden frame). Řádově to může být několik desítek procent.

Problém cachování spočívá v tom, že na úrovni protokolu HTTP je možné zakázat cachování HTML dokumentů v proxy serverech i v lokální cache browseru. Jenže, různé servery jsou různě nastaveny, některé povolují cachování všude (donedávna Neviditelný pes, Seznam), některé nikde (ČTK). Díky tomu často požadavek vůbec nedojde k serveru, protože je obsloužen z lokální cache browseru nebo z proxy serveru. Tím dochází k podceňování PageViews u serverů, které cachování povolují. I zde je těžké odhadnout nějaká čísla, o které je výsledek auditu zkreslen. Zvláště u serverů, na nichž je typická cesta uživatele homepage – článek – homepage – článek atd. může být zkreslení poměrně značné, řádově opět v desítkách procent, možná i víc.

Jak je vidět, logy WWW serverů neposkytují informace, které by jejich provozovatelé potřebovali a pouze jejich analýzou se není možné dobrat rozumně srovnatelných výsledků. Lepší metodologie analýzy návštěvnosti WWW serverů přitom existují – stačí se podívat na řešení používané prý švýcarskou a německou unií vydavatelů (tady). Trik spočívá v počítání nikoliv samotných stránek, ale necachovatelných neviditelných mikroobrázků, které navíc umožňují rozlišit, zda se jedná o stránky s obsahem, menu, nebo reklamou, pokud se jedná o dokumenty používající frames. Necachovatelností těchto obrázků se odstíní vliv proxy serverů a cache browseru, přičemž stránky samotné mohou zůstat cachovatelné, takže se dosáhne jejich rychlejšího načítání (mikroobrázky mají délku pár desítek bajtů) i objektivnějších záznamů o čtenosti. Na druhou stranu nevýhoda pochopitelně tkví v tom, že do takové statistiky nejsou zahrnuty přístupy „bez obrázků“, jenže takovéto zkreslení je relativně malé a navíc se dá předpokládat, že se bude projevovat u všech serverů stejně.

Stálo by možná za úvahu použít tuto metodiku jako oficiální i u nás, případně se touto (nebo nějakou podobnou) metodikou nechat inspirovat. Doufejme, že se DCCi předvede profesionálněji než APO, proslavená blamáži s transparentními proxy servery.

MMF24


Starší, související články:

(Na Lupě už se o auditu DCCi psalo několikrát – bohužel jsem starý nepořádník a ani přes půl hodiny trvající usilovnou snahu se mi nepodařilo ty články vyštrachat; navíc v tuto chvíli nefunguje fulltext Technetu, který jsem si chtěl vzít na pomoc. Omlouvám se tedy, pokud máte zájem, budete si je muset najít sami. Pro nás je to jen další impuls, abychom něco dělali s nepřehledným archívem komentářů.
 -man)

Byl pro vás článek přínosný?

Autor článku

Autor je odborníkem na chřástala polního a Internet.

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).