Fulltextové vyhledávače používají k vytváření svých databází tzv. roboty neboli spidery, které procházejí webové stránky a ukládají jejich obsah. Protože v raných dobách těchto automatických zvědů panovala mírná neshoda v tom, jakým způsobem mohou tyto informace získávat, a mnozí z nich tak činili způsobem značně nešetrným (vedoucím až ke kolapsu některých serverů), bylo nutné dát této proceduře alespoň nějaká pravidla. Tak vznikl soubor robots.txt
, umísťovaný do kořenového adresáře webserverů. Obsahuje pokyny pro robota, jak by se měl na daném webu chovat, zejména kterých stránek si nemá všímat. Samozřejmě není možné roboty donutit, aby se tímto souborem řídily, ovšem vzhledem k tomu, že plně fungující a dobře zaindexované stránky jsou záměrem všech zúčastněných stran, všechny slušné vyhledávače tuto konvenci akceptují.
Bílý dům používá pro doménu whitehouse.gov také svůj soubor robots.txt, který ve verzi z 24. října obsahuje celkem 1619 řádků zakazujících robotům indexaci stránek v určitých adresářích. Pro lepší pochopení situace: dokumenty na webovém serveru Bílého domu jsou členěny do několika adresářů, které přitom často obsahují stránky odvozené ze stejného textu. Jako příklad mohou posloužit následující dokumenty:
/news/releases/2003/07/20030701-9.html
/news/releases/2003/07/text/20030701-9.html
/news/releases/2003/07/print/20030701-9.html
/news/releases/2003/07/iraq/20030701-9.html
Všechny uvedené dokumenty jsou stejné, jednotlivé adresáře však určují, pro jaký účel se použijí a jaké šablony je formátují. První dokument je tak použitý jako standardní stránka pro zveřejnění, druhý je textová verze téhož, třetí je podoba určená k tisku. Čtvrtý soubor se pak liší formátováním podle šablony „iraq“, která obsahuje vizuální a navigační prvky pro stránky zařazené do speciální sekce Iraq: Special Report, věnující se problematice Iráku.
Jeden a ten samý dokument se tedy na serveru nachází ve více podobách podle toho, v jaké funkci se použije. Jak vysvětlil Bílý Dům serveru 2600 News, původní záměr při restrikci robotů na určité oblasti serveru spočíval v tom, aby vyhledávače zbytečně neindexovaly více kopií stejného souboru, což je plně pochopitelná snaha.
O něco záhadněji se však jeví způsob, jakým je tato restrikce provedena: podle pravidel v souboru robots.txt je v některých případech zakázána indexace všech verzí stránek, zatímco na druhé straně je adresář iraq využíván pro dokumenty do něj obsahově zjevně nezapadající: třeba /holiday/2002/barney/iraq
.
Lze jistě považovat za poněkud nezvyklé a nesystémové, že je adresář určený primárně pro tematicky shodné dokumenty používán i pro jiné účely, případně lze mávnout rukou nad chybnou implementací pravidel v robots.txt. Co už ale takovou případnou benevolencí neprojde, je skutečnost, na kterou upozornil server Different Strings: Bílý dům zřejmě v době, kdy vyhledávače neindexovaly dokumenty o Iráku (nyní je již hlavní sekce o Iráku na serveru opět indexována), zpětně měnil některé z nich tak, aby vyhovovaly následně se vyvíjejícím skutečnostem. Oficiální zpráva na whitehouse.gov totiž 1. května tohoto roku oznamovala, že George Bush na letadlové lodi USS Abraham Lincoln prohlásil, že „boje v Iráku jsou skončeny.“ Pokusíte-li se tuto zprávu na serveru Bílého domu najít nyní, obsahuje již v záhlaví jiný nadpis: „Prezident Bush oznámil, že hlavní boje v Iráku byly ukončeny.“ Někdo tedy přidal do titulku slovo „hlavní“.
Maličkost? V Americe, tradičně citlivé na zacházení s právem na svobodný přístup k informacím, jsou mnozí zástupci z řad opozice i autoři weblogů, sledujících dění na Internetu, rozhořčeni a požadují záruky zastavení dějinného revizionismu v jakékoliv podobě. Odborníci však upozorňují, že v současné době neexistuje pro podobné požadavky odpovídající technické zázemí ani instituce, které by je zajišťovaly. V tomto případě to byla sice cache paměť Googlu (obraz stránek z doby zhruba do jednoho měsíce), která tento pokus o zpětnou úpravu již vyřčeného pomohla odhalit, Google je však plně soukromou organizací, takže po něm tato úloha může být stěží požadována. Aktivita Internet Archive by s tímto záměrem byla více slučitelná, obrazy stránek do této databáze jsou však pořizovány s příliš velkým časovým rozestupem, takže by případné změny nemusely být zachyceny. Zaznívá i otázka, zda si s rostoucím vlivem Internetu v procesu přenosu informací od státu k občanům můžeme dlouhé hledání tohoto mechanismu dovolit.
Jak však uvádí SearchEngineWatch.com, vše se nakonec může ukázat jako jeden velký omyl v nepravou chvíli, protože Bílý dům údajně požádal Internet Archive, aby ignoroval jeho soubor robots.txt ještě v době, než k celé kauze došlo. Diskuse o nutnosti kontroly vládních informačních zdrojů však budou nejspíš pokračovat, což by nakonec mohlo být to nejužitečnější, co by z celého případu mohlo vyplynout.