Zprávy iDnes na Googlu nehledejte
Pokud měl zářijový útok na WTC nějaký vliv na fulltextové vyhledavače, pak je to patrně zvýšený tlak na poskytování čerstvých informací. Google včerejší tiskovou zprávou oznámil, že zavádí testovací provoz vyhledávání v aktuálním zpravodajství. Zde se uplatní v pondělí zmiňovaný sémantický přístup k webu. A jak je to u nás?
Google včera oznámil, že započal s vkládáním odkazů na aktuální události k relevantním odkazům. Pokud tedy Googlu položíte dotaz na Kandahár, získáte nejdříve odkaz na relevantní složku Open Directory a hned pod ní odkazy na čerstvé zprávy, teprve pak následují odkazy z indexu fulltextu. Výsledek vyhledávání z půl druhé dnes v noci ukazuje následující otisk obrazovky:

Vyhledávání ve zpravodajství bohužel ještě nefunguje v české jazykové mutaci. Druhým velkým mínusem, který pravděpodobně není chybou Googlu jako spíš nepřipraveností českých vydavatelů, je skutečnost, že mezi téměř stem zdrojů není žádný český server – zprávy z iDnes tedy na Googlu nehledejte (pokud se spokojíte se slovenským zdrojem, můžete hledat ve SME Online).
Srovnání zahraničních a českých fulltextů
Podívejte se, jak se s jednoduchým dotazem na kandahar poperou jednotlivé vyhledavače, zahraniční:
- Google.com
- Nejdříve zobrazí odkaz na katalog, poté aktuální titulky z novin (nejnovější je starý dvě hodiny) a nakonec odkazy z webu.
- AltaVista.com
- Nabídne Kandahár ke koupi na Amazonu, odkaz na zvláštní výsledky vyhledávání ve zpravodajství, pár odkazů na několik dní staré zprávy, a teprve pak odkazy do webu.
- AllTheWeb (Fast)
- Vrátil dva odkazy na hodinu nebo jedenáct minut staré zpravodajství, pak odkazy do webu.
- Lycos
- Poskytl možnost koupit Kandahár v Amazonu a několik turistických odkazů na webu.
- Hot Bot
- Odkazuje na Amazon, telefonní seznam, Lycos a eBay, pak doporučí turistické odkazy.
…a české:
- Seznam (fulltextem)
- Odkazuje na informace z 15. června – zpravodajství tu nenajdete, ale pokud máte zájem o archeologii webu…
- Empyreum
- Empyreum na serverech Atlas, RedBox a Uzdroje odkazuje na výsledky prohledání indexu, který je starý asi deset dní; na své vlastní stránce pak vypíchne titulky novin, ale i ty jsou více než týden staré. Dokonce fulltext na iDnes vrací měsíc staré odkazy a při prohledávání článků se vracíme v historii ještě dál.
- Megatext
- Neposkytuje žádné aktuální informace, pouze odkazy do webu staré mnoho měsíců.
- WebFast (Centrum)
- Nevytrhává odkazy na zpravodajství z výpisu, ale přestože se odkazy na zprávy objevují na čelných pozicích, jsou dva týdny neaktuální.
- Tiscali
- Odpovídá úplně scestně. Snad jen, že nás směruje na titulní strany zpravodajských serverů, co když ale chceme turistické informace…
- WebSeek
- První tři odkazy byly směřovány na neexistující strany (404 Not Found) Českých Novin a jejich satelitů, ostatní byly neaktuální.
- Quick
- Vnucuje nám program kin (ano, film Kandahár měl minulý týden premieru), historické a turistické informace, zpravodajství žádné.
V zahraničí tedy boduje Fast, následován Googlem a za nimi se statečně drží AltaVista, u nás musíte aktuální informace hledat jinak než ve fulltextu. Přitom je zajímavé, že všechny české zdroje, s výjimkou Megatextu a Empyrea, na svých serverech zpravodajství mají k dispozici – pokud se podíváte, jaký zájem byl v září o aktuální témata ve fulltextu (Nejvyhledávanější slova v Google za minulý týden nebo Co hledám, zapomínám), pak vám dojde, o jak mnoho uživatelů naše slavné portály přicházejí.
Ke slovu přichází sémantický web
Zásadní překážkou pro to, aby mohl fulltext vracet aktuální odkazy, je indexovací perioda. Jak ve svém článku Lesk a bída českých vyhledavačů píše kolega Marek Prokop, roboty (crawlery) fulltextových vyhledavačů indexují stránky v různých intervalech. U celosvětových indexérů se perioda pohybuje obvykle kolem 30 dní, české lokální indexují s periodou asi poloviční. Výjimky se ovšem najdou jak v zahraničí, tak i u nás – například Megatext nebo Seznam jsou fulltexty k ničemu (viz poznámky výše a v Prokopově textu).
Klasické indexování obsahu zpravodajských serverů zde není možné používat především z důvodu vysoké náročnosti – zprávy se ve vypjatých okamžicích mění každých pár minut (Google updatuje zpravodajství co čtvrthodinu!). Navíc každý informační zdroj se obnovuje v jiných intervalech – některé servery zveřejňují informace úderem půlnoci, jiné je zařazují průběžně. Kromě toho obvykle WWW stránka obsahuje vedle zpravodajství i další rušivé texty, které nemají s aktuálními událostmi nic společného.
Řešením je tu spolupráce mezi vydavateli a indexéry. V pondělí jsem v textu článku Budoucnost patří sémantickému webu otevřel téma sémantického popisu informací a zmínil jsem se o standardu Resource Description Framework (RDF) a jeho aplikaci v Rich Site Summary (RSS). Na konci článku jsem položil anketní otázku „Za jak dlouho se Google naučí prohledávat web podle zde popsaného principu sémantického webu?“ – zdá se, že jsem měl zvolit i kratší horizont než jeden rok.
Blogujte na Lupě
Chcete mít vlastní blog o tématu kolem světa IT a internetu? Blogujte na Lupě a buďte na titulní stránce Lupy. Registrujte se na blog.lupa.cz.
Je to první krok k využívání sémanticky zaměřených značek XML, ale o to je to krok důležitější. Dosud média používala k exportu informací o článcích vlastní formáty, obvykle upravované na míru jednotlivým partnerům – výjimkou není ani Lupa, jejíž exportní soubory najdete na adrese /coop.phtml. Vyhledavače ale obvykle neví, co tyto textové soubory znamenají, a proto bude muset brzy dojít ke sjednocení na některém ze standardů popisujících zdrojové informace. V pondělním článku jsem odkazoval na zahraniční Moreover, dnes jako příklad uvedu exportní soubor ve formátu RSS, který najdete na Světě Namodro. Formát RDF/RSS například umožňuje u jednotlivých kanálů definovat i obnovovací periodu, takže odběratel má stále přístup k aktuálním informacím.
Teď je jen otázkou času, kdy se k nastupujícímu trendu připojí vydavatelé internetových médií. Pokud by měla implementace zpravodajských kanálů činit fulltextům potíže (jde o jiný systém), mohou se portály obrátit na některý ze serverů, které umí s aktuálním zpravodajstvím zacházet lépe. Je to příležitost pro dosud nepříliš doceněné projekty jako je WebSpy a iNews. PraveDnes.cz dokonce už standard RSS podporuje jak pro vstup, tak i pro výstup dat.
Anketa
Vyhledávali jste v uplynulém měsíci fulltextem informace o aktuálních událostech?
Související odkazy
Kurz SEO - Praha, Brno

- Jak fungují vyhledávače a co od nich můžete očekávat.
- Analýza klíčových slov - kde hledat, jak slova vybrat, jak optimalizovat.
- Metody linkbuildingu - jak získat zpětné odkazy aniž byste za ně museli platit.
- Vyhodnocování SEO - nesledujte jen pozice.
Akce: Využijte last minute slevu na školení v Brně!
Přehled názorů
Tento text je již více než dva měsíce starý. Chcete-li na něj reagovat v diskusi, pravděpodobně vám již nikdo neodpoví. Pro řešení aktuálních problémů doporučujeme využít naše diskusní fórum.
Jihomoravský kraj: kdo má nejrychlejší Internet
Co se v roce 2012 nejspíše nestane
Vstup Facebooku na burzu rozhýbe trh a pomůže startupům