AOL si se soukromím uživatelů hlavu neláme (doplněno)

Důvěrou řady internetových uživatelů otřáslo nepochopitelné rozhodnutí AOL zveřejnit seznam okolo 36 miliónů dotazů, které za období tří měsíců hledalo přes 650 tisíc vybraných uživatelů. O jak vážné narušení soukromí se jedná? Co lze z těchto statistik vyčíst? Jak významná může být analýza tohoto zdroje z pohledu SEO?

Internetové soukromí je dlouhodobě velice citlivé téma. Řada lidí se obává, že velké internetové portály o svých uživatelích vědí příliš mnoho, a jsou tak potenciální hrozbou pro jejich soukromí a bezpečí. Obavy vyvolává zejména Google se svou snahou získat od lidí maximum jejich dat – od hledaných frází přes údaje o platbách na Internetu až po index obsahu jejich disků. Přitom nikdo pořádně neví, co se všemi těmito sebranými údaji, které na vás mohou prozradit téměř vše, přesně dělá. Ačkoliv je Google momentálně nejoblíbenějším terčem vizionářů orwellovské budoucnosti, stejný problém se týká řady dalších velkých i menších společností. S tím, jak se čím dál více aktivity přesouvá na Internet, je čím dál snazší na jednom místě shromáždit ohromné množství citlivých informací o každém člověku.

V letošním roce se objevily dvě mediálně nejvíce diskutované kauzy. Na začátku roku to byla otázka spolupráce amerických společností s čínskou vládou. Zatímco Google byl „pouze“ kritizován za filtrování zakázaných stránek ze svého indexu, Yahoo mělo dokonce předat důvěrné informace z obsahu e-mailu čínského disidenta Ši Taa, který používal Yahoo Mail. Tyto údaje pak přímo vedly k jeho uvěznění, za což si Yahoo vysloužilo ostrou odezvu od organizace Human Rights Watch.

I ve druhé velké kauze, která je již bližší našemu tématu, hraje roli vláda, tentokrát americká. Ta se v rámci svého boje proti dostupnosti pornografie dětem domáhala, aby jí společnosti Google, Yahoo!, Microsoft a AOL poskytly údaje o hledaných frázích za období dvou měsíců a náhodný seznam miliard internetových stránek, později svůj požadavek poněkud zmírnila. O celé záležitosti se veřejnost dozvěděla pouze proto, že se Google, na rozdíl od ostatních společností, rozhodl požadavku nevyhovět a raději se podrobit soudnímu sporu. Ten rozhodl do značné míry v jeho prospěch, takže Google nakonec musel odevzdat pouze seznam 500 tisíc adres a žádné hledané fráze. Jak se zachovaly ostatní vyhledávače, není jisté.

Nešťastné AOL

V kontextu vřavy, která se spustila okolo sporu americké vlády s Googlem, je až nepochopitelné, co udělalo AOL. 4. srpna se na stránkách AOL Research objevil seznam hledaných frází za období tří měsíců i s řadou dalších zajímavých údajů jako adresy, na které uživatelé klikli, a jejich pozice ve vyhledávači. Celý tento materiál, který má po rozbalení komprimovaného souboru přes 2 GB, měl podle AOL posloužit jako podklad výzkumům, které potřebují reálná data o vyhledávání.

Tato data určitě skutečně řada SEO analytiků a dalších výzkumníků přivítala, uživatelé AOL (zvláště ti, jejichž údaje byly použity) ale už tak nadšeni asi nejsou. AOL se sice pokusilo anonymizovat autory jednotlivých hledání a nahradilo jejich IP adresy nic neříkajícím ID číslem, u řady z nich se však dá reálná identita poměrně snadno vyčíst jen z výpisu jejich hledání.

Zábava na dlouhé večery…

Po té, co se na hlavu AOL snesla vlna rozhořčené reakce, byla data z jejích stránek odstraněna. To však samozřejmě nezabránilo vzniku řady kopií. Řada lidí se tak dnes baví pouhým procházením záznamů a hledáním těch nejzajímavějších příběhů, objevilo se dokonce několik žebříčků. Uživatelka 672368 se například po měsíčním váhání rozhodne pro potrat, protože její přítel nechce děti. Mezitím se zajímá o křesťanství a hinduismus. Další řadu zajímavých záznamů můžete najít na Google Blogoscoped či Insomnia Blog, například smutný příběh uživatele 723190, jehož soused zabíjí kočky. Chcete-li si databází zabrouzdat sami, zkuste AOL Stalker, kde můžete použít vyhledávání podle frázi i přímo ID uživatelů. Na AOL Keyword Searches by mělo být možné hledat i podle adresy stránky.

… nebo tragické narušení soukromí?

Celá věc se může zdá být zábavná, dokud si za anonymní čísla nedosadíte reálná jména. Z velkého balíku dotazů často není až tak těžké odvodit, o koho se ve skutečnosti jedná, nemluvě o lidech, kteří – z nejrůznějších důvodů – zkusí vyhledat své vlastní jméno. The New York Times jako první přišel s článkem o jedné takto odhalené ženě, která souhlasila se zveřejněním svého případu. Thelma Arnoldová je 62letá vdova z Georgie nebo též uživatel č. 4417749. Mezi její hledané fráze patří best dog for older owner, effects of nicotine, big cuddly dog, retirement in new ealand, paranoia, plastic surgeons in gwinnett county, 60 single men, lactose intolerant a řada dalších.

Ze zájmu jsem si prošel vlastní historii hledání, jak ji zaznamenává Google, a zjistil jsem, že by v případě podobného úniku dat mohl kdokoliv vědět prakticky o všem, co jsem za poslední řadu měsíců dělal či o co se zajímal. Jen za poslední dva měsíce by se dozvěděl, že jsem si opakovaně pouštěl klip Jump In My Car, „progůgloval“ několik lidí, sháněl přenosné repráčky, hledal vzor plné moci, chtěl jít na Red Bull Letecký den a řadu dalších soukromějších věcí. Navíc právě dnes jsem hledal child porn, komu bych vysvětlil, že jen pro otestování, jak Google filtruje podobné dotazy? Ačkoliv by mi na základě mé historie vyhledávání příslušnost k Al-Kajdě nikdo neprokázal, přesto by jistě žádný uživatel nebyl nadšen, kdyby jeho aktivita na Internetu byla zcela veřejná. Ostatně organizace Electronic Frontier Foundation již podala podnět k prošetření AOL americkou Federální obchodní komisí a dává dohromady seznam dotčených osob.

Je tedy možné nějak se špehování bránit? Můžete používat IP anonymizéry a pravidelně mazat cookies. To však nikdy většina uživatelů dělat nebude. Nebo se můžete řídit radami amerického baviče Stephena Colberta, který například radí zmást vyhledávače falešnými frázemi (I´m not Stephen Colbert). Nejlepší řešení navrhuje Jason Calacanis, člověk, který má v AOL na starosti nový Netscape. Tvrdí, že hrozba narušení soukromí uživatelů tu bude existovat, dokud portály budou lidi špehovat tak jako dnes. Ostatně nemusí jít ani o takový nešťastný únik, v pokušení použít takto zajímavá data mohou být zejména například vlády. Jason Calacanis tedy svou společnost vyzývá, aby záznamy o uživatelích prostě přestala sbírat. AOL by prý dokonce na tomto kroku mohla postavit marketing svého vyhledávání („AOL Search: We don't record your searches!“). Jakkoliv to je možná přitažlivá představa, je téměř vyloučeno, že by se jakákoliv společnost připravila o tak cenné informace, které jí mohou pomoci v souboji s konkurencí. CEO Googlu Eric Schmidt se k záležitosti vyjádřil: Máme dobrý důvod být přesvědčeni… že se nic takového v Googlu nemůže stát, ačkoliv nikdy nemůžete říct nikdy.

A co SEO?

Posledním aspektem celého případu je to, kvůli čemu to vlastně vůbec začalo – význam dat pro analýzu vyhledávání. Podobně zajímavý a obsáhlý materiál je totiž poměrně unikátní. Celá věc je navíc o to zajímavější, že AOL nemá vlastní vyhledávací technologie a využívá Googlu. Vzorek hledání je navíc poměrně dost velký na to, aby měl významnou vypovídající hodnotu. Nabízí se například využití pro sběr klíčových slov, na které se vyplatí optimalizovat. Markus Frind se proto obává masivního zaspamování Googlu. Podle jeho názoru je otázkou maximálně týdnů, než spameři zpracují tyto statistiky, zahltí nejoblíbenější dotazy svými stránkami a budou těžit z provizních systémů. Přičemž potřebné informace se z celého balíku dají „sosat“ různými způsoby, on jako příklad uvádí seznam nejčastějších klíčových slov, přes která se lidé dostávají na internetový obchod s mobilním obsahem RingToneJukeBox­.com.

Dalším zajímavým údajem, který lze z uvolněných dat vyčíst, je vliv pozice ve vyhledávání na míru prokliku. Podle SEO Portalu znamenají odkazy na první pozici dohromady 42 procent všech prokliků. Druhá příčka získává 12 procent, třetí 8,42 procenta. Desátá pozici je lehce výhodnější než devátá (2,97 procenta, respektive 2,82 procenta). Odkazy na první stránce tvoří téměř 90 procent kliknutí, na druhou stránku připadá 4,37 procenta, na třetí 2,42 procenta.

Pozice ve vyhledávání Počet prokliků
1. 2 075 765
2. 586 100
3. 418 643
4. 298 532
5. 242 169
6. 199 541
7. 168 080
8. 148 489
9. 140 356
10. 147 551

Na těchto propočtech je také postaven nástroj od SEO Black Hat (podobně jako jiný od Bad Neighborhood). Ten vychází ze tří zdrojů statistik – nástroje Overture (http://inven­tory.overture­.com/d/searchin­ventory/sugges­tion/) na odhad počtu hledání určité fráze ve vyhledávání Yahoo, statistiky HitWise o podílu jednotlivých vyhledávačů a právě údajů o poměru kliků na první a dalších pozicích z AOL.

Podíl vyhledávačů
Google 60,2%
Yahoo! 22,5%
MSN 11,8%
Ostatní 5,5%

Celá věc funguje tak, že nejprve použijete Overture na vytvoření odhadu o nějaké frázi – já zkusil například „david hasselhoff“ a vyšlo mi 81503. Do nástroje SEO Black Hat vyplníte toto číslo a získáte odhad počtu kliknutí v několika vyhledávačích podle umístění stránky ve výsledkách na prvních deseti pozicích. Takto například vypadá tabulka Davida Hasselhoffa:

Pořadí ve výsledcích Google Yahoo! MSN Ostatní
1. 91 879 34 340 18 009 8 394
2. 25 942 9 696 5 085 2 370
3. 18 530 6 925 3 632 1 692
4. 13 213 4 938 2 590 1 207
5. 10 719 4 006 2 101 979
6. 8 832 3 301 1 731 806
7. 7 439 2 780 1 458 679
8. 6 572 2 456 1 288 600
9. 6 212 2 321 1 217 567
10. 6 530 2 441 1 280 596

Ačkoliv tato utilita vypadá zajímavě, určitě by měla být brána s rezervou. Předně použité tři zdroje statistik mohou být (a asi také budou) daleko od reality. Autor navíc sám přiznává, že výsledná čísla jsou silně přestřelená, pokud je porovná s dalším testováním. Předně nevzal v úvahu, že 4,9 milionu kliknutí ve vzorku vzatého z AOL je výsledkem devíti milionů hledání. Celá věc tak může být užitečná možná spíše jen jako jednoduchá ukázka poměru jednotlivých vyhledávačů – člověk jednoduše vidí, že být v MSN na prvním místě je asi jako být v Googlu na třetím, být v Yahoo na druhém je o něco horší než být v Googlu na pátém a podobně.

Máme se bát?

Celý případ jistě bude mít silně negativní vliv na již tak nepříliš dobrou image AOL, které se navíc může obávat i případné soudní dohry. V širším pohledu se také jedná o další kamínek, o další varovné světélko, které nás varuje před příliš velkou koncentrací informací o nás na Internetu. Je velice pravděpodobné, že takovéto a ještě závažnější případy se budou opakovat. Otázkou je, jestli urychlený technologický vývoj není příliš malou protihodnotou za potenciální ohrožení svobody. Uvidíme, zda existuje nějaká hranice, při jejímž překročení by se začali uživatelé masivně bouřit; zatím jsme jí stále nedosáhli.

Součástí článku mělo být také vyjádření českých vyhledávačů, jak se k problému stavějí, jak velké množství informací o svých uživatelích shromažďují a jak je mají zabezpečené. Nakonec jsme však dali přednost dřívějšímu vydání článku a odpovědi vyhledávačů do textu zpětně doplníme. V této chvíli máme k dispozici pouze vyjádření Michala Illicha z Jyxa: Uchováváme to, co je v logu Apache – tedy IP adresu, čas a URL. Přístup k těmto datům má kromě mě jen jediný člověk, kterému věřím, tedy zveřejnění myslím nehrozí. Server je dobře zajištěný, za celou historii Jyxa jej nikdo nenaboural.


18. srpna 2006, Aleš Miklík, doplnění: Kateřina Holcmanová, marketing manager portálu Atlas, nám k tématu sdělila pouze: Atlas.cz informace o tom, co konkrétní uživatel vyhledává nesbírá a analýzy chování jednotlivých uživatelů v současné době neprovádí.
19. srpna 2006 pak Kateřina Holcmanová ještě na naši žádost doplnila: pokud jde o zabezpečení záznamů vyhledávání uživatelů, tak Atlas.cz tyto záznamy k jednotlivým uživatelům neloguje a tím je zcela vyloučené riziko podobného úniku informaci.

EBF16

18. srpna 2006, David Antoš, doplnění: Martin Zedek, technický ředitel portálu Centrum.cz, se nám vyjádřil takto: Vyhledávací logy, stejně jako jakákoliv další uživatelská data a logy, jsou bezpečně uloženy na serverech Centra. Pravidelně jsou prováděny bezpečnostní aktualizace softwaru, přístup k datům je řízen a omezen na velmi úzky okruh oprávněných osob.

22. srpna 2006, David Antoš, doplnění: Rita Gabrielová, tisková mluvčí Seznamu, nám zaslala toto vyjádření: ID čísla nejsou na Seznamu spojená s hledáním.To je možná první odlišnost. Dále nejsou ani součástí loginů, které vidí naši administrátoři. Loginy obsahují jenom IP adresy, které nejsou a nemusí být unikátní, tudíž nejdou vždycky spárovat s uživateli. Loginy máme v izolované zóně, kam nesmí ani např. administrátor ve zkušební době. Celkově je ochrana uživatelů na Seznamu více než dostatečná. Veškeré looginy uchováváme dle platzné vyhlášky – na emailu po dobu 6 měsíců, na ostatních službách po dobu 1 měsíce.

Anketa

Myslíte si, že by bylo možné odhalit vaši identitu čistě na základě historie vyhledávání?

24 názorů Vstoupit do diskuse
poslední názor přidán 30. 7. 2007 2:20

Školení Google Analytics pro pokročilé

  •  
    Jak využít nové funkce Google Analytics
  • Vyhodnocování pomocí Multichannel funnels
  • Neopakujte chyby při vyhodnocování dat.

Informace o školení Google Analytics pro pokročilé »