Google včera oznámil, že započal s vkládáním odkazů na aktuální události k relevantním odkazům. Pokud tedy Googlu položíte dotaz na Kandahár, získáte nejdříve odkaz na relevantní složku Open Directory a hned pod ní odkazy na čerstvé zprávy, teprve pak následují odkazy z indexu fulltextu. Výsledek vyhledávání z půl druhé dnes v noci ukazuje následující otisk obrazovky:
Vyhledávání ve zpravodajství bohužel ještě nefunguje v české jazykové mutaci. Druhým velkým mínusem, který pravděpodobně není chybou Googlu jako spíš nepřipraveností českých vydavatelů, je skutečnost, že mezi téměř stem zdrojů není žádný český server – zprávy z iDnes tedy na Googlu nehledejte (pokud se spokojíte se slovenským zdrojem, můžete hledat ve SME Online).
Srovnání zahraničních a českých fulltextů
Podívejte se, jak se s jednoduchým dotazem na kandahar
poperou jednotlivé vyhledavače, zahraniční:
- Google.com
- Nejdříve zobrazí odkaz na katalog, poté aktuální titulky z novin (nejnovější je starý dvě hodiny) a nakonec odkazy z webu.
- AltaVista.com
- Nabídne Kandahár ke koupi na Amazonu, odkaz na zvláštní výsledky vyhledávání ve zpravodajství, pár odkazů na několik dní staré zprávy, a teprve pak odkazy do webu.
- AllTheWeb (Fast)
- Vrátil dva odkazy na hodinu nebo jedenáct minut staré zpravodajství, pak odkazy do webu.
- Lycos
- Poskytl možnost koupit Kandahár v Amazonu a několik turistických odkazů na webu.
- Hot Bot
- Odkazuje na Amazon, telefonní seznam, Lycos a eBay, pak doporučí turistické odkazy.
…a české:
- Seznam (fulltextem)
- Odkazuje na informace z 15. června – zpravodajství tu nenajdete, ale pokud máte zájem o archeologii webu…
- Empyreum
- Empyreum na serverech Atlas, RedBox a Uzdroje odkazuje na výsledky prohledání indexu, který je starý asi deset dní; na své vlastní stránce pak vypíchne titulky novin, ale i ty jsou více než týden staré. Dokonce fulltext na iDnes vrací měsíc staré odkazy a při prohledávání článků se vracíme v historii ještě dál.
- Megatext
- Neposkytuje žádné aktuální informace, pouze odkazy do webu staré mnoho měsíců.
- WebFast (Centrum)
- Nevytrhává odkazy na zpravodajství z výpisu, ale přestože se odkazy na zprávy objevují na čelných pozicích, jsou dva týdny neaktuální.
- Tiscali
- Odpovídá úplně scestně. Snad jen, že nás směruje na titulní strany zpravodajských serverů, co když ale chceme turistické informace…
- WebSeek
- První tři odkazy byly směřovány na neexistující strany (404 Not Found) Českých Novin a jejich satelitů, ostatní byly neaktuální.
- Quick
- Vnucuje nám program kin (ano, film Kandahár měl minulý týden premieru), historické a turistické informace, zpravodajství žádné.
V zahraničí tedy boduje Fast, následován Googlem a za nimi se statečně drží AltaVista, u nás musíte aktuální informace hledat jinak než ve fulltextu. Přitom je zajímavé, že všechny české zdroje, s výjimkou Megatextu a Empyrea, na svých serverech zpravodajství mají k dispozici – pokud se podíváte, jaký zájem byl v září o aktuální témata ve fulltextu (Nejvyhledávanější slova v Google za minulý týden nebo Co hledám, zapomínám), pak vám dojde, o jak mnoho uživatelů naše slavné portály přicházejí.
Ke slovu přichází sémantický web
Zásadní překážkou pro to, aby mohl fulltext vracet aktuální odkazy, je indexovací perioda. Jak ve svém článku Lesk a bída českých vyhledavačů píše kolega Marek Prokop, roboty (crawlery) fulltextových vyhledavačů indexují stránky v různých intervalech. U celosvětových indexérů se perioda pohybuje obvykle kolem 30 dní, české lokální indexují s periodou asi poloviční. Výjimky se ovšem najdou jak v zahraničí, tak i u nás – například Megatext nebo Seznam jsou fulltexty k ničemu (viz poznámky výše a v Prokopově textu).
Klasické indexování obsahu zpravodajských serverů zde není možné používat především z důvodu vysoké náročnosti – zprávy se ve vypjatých okamžicích mění každých pár minut (Google updatuje zpravodajství co čtvrthodinu!). Navíc každý informační zdroj se obnovuje v jiných intervalech – některé servery zveřejňují informace úderem půlnoci, jiné je zařazují průběžně. Kromě toho obvykle WWW stránka obsahuje vedle zpravodajství i další rušivé texty, které nemají s aktuálními událostmi nic společného.
Řešením je tu spolupráce mezi vydavateli a indexéry. V pondělí jsem v textu článku Budoucnost patří sémantickému webu otevřel téma sémantického popisu informací a zmínil jsem se o standardu Resource Description Framework (RDF) a jeho aplikaci v Rich Site Summary (RSS). Na konci článku jsem položil anketní otázku „Za jak dlouho se Google naučí prohledávat web podle zde popsaného principu sémantického webu?“ – zdá se, že jsem měl zvolit i kratší horizont než jeden rok.
Je to první krok k využívání sémanticky zaměřených značek XML, ale o to je to krok důležitější. Dosud média používala k exportu informací o článcích vlastní formáty, obvykle upravované na míru jednotlivým partnerům – výjimkou není ani Lupa, jejíž exportní soubory najdete na adrese /coop.phtml
. Vyhledavače ale obvykle neví, co tyto textové soubory znamenají, a proto bude muset brzy dojít ke sjednocení na některém ze standardů popisujících zdrojové informace. V pondělním článku jsem odkazoval na zahraniční Moreover, dnes jako příklad uvedu exportní soubor ve formátu RSS, který najdete na Světě Namodro. Formát RDF/RSS například umožňuje u jednotlivých kanálů definovat i obnovovací periodu, takže odběratel má stále přístup k aktuálním informacím.
Teď je jen otázkou času, kdy se k nastupujícímu trendu připojí vydavatelé internetových médií. Pokud by měla implementace zpravodajských kanálů činit fulltextům potíže (jde o jiný systém), mohou se portály obrátit na některý ze serverů, které umí s aktuálním zpravodajstvím zacházet lépe. Je to příležitost pro dosud nepříliš doceněné projekty jako je WebSpy a iNews. PraveDnes.cz dokonce už standard RSS podporuje jak pro vstup, tak i pro výstup dat.