Bílý dům umí změnit i minulost. Alespoň na webu.

25. 11. 2003

Doba čtení: 4 minuty

Orwellovskou vizi ministerstva pravdy, které neustále mění historické prameny, aby odpovídaly nové realitě, se pokusili uvést do praxe administrátoři webových stránek amerického prezidenta. Zpětně totiž změnili tiskovou zprávu, týkající se Iráku. Něco jim však k dokonalosti chybí: odstranit původní verzi i z databází vyhledávačů.

Přidat mezi oblíbené zdroje na Googlu

Koncem října se v řadě technologických weblogů objevily zprávy a posléze i více či méně bouřlivé úvahy o činu administrátorů serveru WhiteHouse.gov. Ti podle všeho v průběhu několika měsíců mezi dubnem a říjnem letošního roku zakázali internetovým vyhledávačům indexaci velkého množství stránek, obsahujících v adrese slovo „Iraq“. V květnu pak Bílý dům provedl zásahy do již vydané tiskové zprávy, oznamující konec bojů v Iráku. Zpětná úprava by se dokazovala mnohem snáze, kdyby původní verzi zprávy zaindexovaly vyhledávače, což se však kvůli omezením nestalo. Některé skutečnosti sice ukazují, že se patrně jednalo jen o souhru omylu a náhody, přesto se nad důvěryhodností Bílého domu vznášejí otazníky.

Fulltextové vyhledávače používají k vytváření svých databází tzv. roboty neboli spidery, které procházejí webové stránky a ukládají jejich obsah. Protože v raných dobách těchto automatických zvědů panovala mírná neshoda v tom, jakým způsobem mohou tyto informace získávat, a mnozí z nich tak činili způsobem značně nešetrným (vedoucím až ke kolapsu některých serverů), bylo nutné dát této proceduře alespoň nějaká pravidla. Tak vznikl soubor robots.txt, umísťovaný do kořenového adresáře webserverů. Obsahuje pokyny pro robota, jak by se měl na daném webu chovat, zejména kterých stránek si nemá všímat. Samozřejmě není možné roboty donutit, aby se tímto souborem řídily, ovšem vzhledem k tomu, že plně fungující a dobře zaindexované stránky jsou záměrem všech zúčastněných stran, všechny slušné vyhledávače tuto konvenci akceptují.

Bílý dům používá pro doménu whitehouse.gov také svůj soubor robots.txt, který ve verzi z 24. října obsahuje celkem 1619 řádků zakazujících robotům indexaci stránek v určitých adresářích. Pro lepší pochopení situace: dokumenty na webovém serveru Bílého domu jsou členěny do několika adresářů, které přitom často obsahují stránky odvozené ze stejného textu. Jako příklad mohou posloužit následující dokumenty:

/news/releases/2003/07/20030701-9.html /news/releases/2003/07/text/20030701-9.html /news/releases/2003/07/print/20030701-9.html /news/releases/2003/07/iraq/20030701-9.html

Všechny uvedené dokumenty jsou stejné, jednotlivé adresáře však určují, pro jaký účel se použijí a jaké šablony je formátují. První dokument je tak použitý jako standardní stránka pro zveřejnění, druhý je textová verze téhož, třetí je podoba určená k tisku. Čtvrtý soubor se pak liší formátováním podle šablony „iraq“, která obsahuje vizuální a navigační prvky pro stránky zařazené do speciální sekce Iraq: Special Report, věnující se problematice Iráku.

Jeden a ten samý dokument se tedy na serveru nachází ve více podobách podle toho, v jaké funkci se použije. Jak vysvětlil Bílý Dům serveru 2600 News, původní záměr při restrikci robotů na určité oblasti serveru spočíval v tom, aby vyhledávače zbytečně neindexovaly více kopií stejného souboru, což je plně pochopitelná snaha.

O něco záhadněji se však jeví způsob, jakým je tato restrikce provedena: podle pravidel v souboru robots.txt je v některých případech zakázána indexace všech verzí stránek, zatímco na druhé straně je adresář iraq využíván pro dokumenty do něj obsahově zjevně nezapadající: třeba /holiday/2002/barney/iraq.

Lze jistě považovat za poněkud nezvyklé a nesystémové, že je adresář určený primárně pro tematicky shodné dokumenty používán i pro jiné účely, případně lze mávnout rukou nad chybnou implementací pravidel v robots.txt. Co už ale takovou případnou benevolencí neprojde, je skutečnost, na kterou upozornil server Different Strings: Bílý dům zřejmě v době, kdy vyhledávače neindexovaly dokumenty o Iráku (nyní je již hlavní sekce o Iráku na serveru opět indexována), zpětně měnil některé z nich tak, aby vyhovovaly následně se vyvíjejícím skutečnostem. Oficiální zpráva na whitehouse.gov totiž 1. května tohoto roku oznamovala, že George Bush na letadlové lodi USS Abraham Lincoln prohlásil, že „boje v Iráku jsou skončeny.“ Pokusíte-li se tuto zprávu na serveru Bílého domu najít nyní, obsahuje již v záhlaví jiný nadpis: „Prezident Bush oznámil, že hlavní boje v Iráku byly ukončeny.“ Někdo tedy přidal do titulku slovo „hlavní“.

Maličkost? V Americe, tradičně citlivé na zacházení s právem na svobodný přístup k informacím, jsou mnozí zástupci z řad opozice i autoři weblogů, sledujících dění na Internetu, rozhořčeni a požadují záruky zastavení dějinného revizionismu v jakékoliv podobě. Odborníci však upozorňují, že v současné době neexistuje pro podobné požadavky odpovídající technické zázemí ani instituce, které by je zajišťovaly. V tomto případě to byla sice cache paměť Googlu (obraz stránek z doby zhruba do jednoho měsíce), která tento pokus o zpětnou úpravu již vyřčeného pomohla odhalit, Google je však plně soukromou organizací, takže po něm tato úloha může být stěží požadována. Aktivita Internet Archive by s tímto záměrem byla více slučitelná, obrazy stránek do této databáze jsou však pořizovány s příliš velkým časovým rozestupem, takže by případné změny nemusely být zachyceny. Zaznívá i otázka, zda si s rostoucím vlivem Internetu v procesu přenosu informací od státu k občanům můžeme dlouhé hledání tohoto mechanismu dovolit.

Jak však uvádí SearchEngineWatch.com, vše se nakonec může ukázat jako jeden velký omyl v nepravou chvíli, protože Bílý dům údajně požádal Internet Archive, aby ignoroval jeho soubor robots.txt ještě v době, než k celé kauze došlo. Diskuse o nutnosti kontroly vládních informačních zdrojů však budou nejspíš pokračovat, což by nakonec mohlo být to nejužitečnější, co by z celého případu mohlo vyplynout.

Považujete možnost zpětné změny obsahu na webu za problém?

Vstoupit do diskuse (11 názorů)

Aleš Miklík

Autor je ředitelem médií vydavatelství Internet Info. V letech 2005 – 2008 působil jako šéfredaktor serveru Lupa.cz. Vystudoval Fakultu informatiky MU a Fakultu sociálních věd UK. Online komunikaci se věnuje i na svém blogu www.alesmiklik.cz.

Témata:

jemomze nejspis jste nesledoval vyskyt sluvek ...podle neoverenych zprav, pry, podle nejmenovaneho zdroje...a podobne....

bez přezdívky

Sdílet

Považujete možnost zpětné změny obsahu na webu za problém?

Autor článku

Aleš Miklík

Témata:

Anketa

Dali byste si do počítače čínský SSD disk, případně čínské RAM?

Komerční sdělení

Platíte za pružnost, kterou nevyužijete. Rozhovor s Tomášem Kostkou z Webglobe o tom, kdy public cloud přestává dávat smysl

Jak stavět AI datová centra: Tři cesty z technologické pasti