Hlavní navigace

Zprávy iDnes na Googlu nehledejte

Martin Kopta

Pokud měl zářijový útok na WTC nějaký vliv na fulltextové vyhledavače, pak je to patrně zvýšený tlak na poskytování čerstvých informací. Google včerejší tiskovou zprávou oznámil, že zavádí testovací provoz vyhledávání v aktuálním zpravodajství. Zde se uplatní v pondělí zmiňovaný sémantický přístup k webu. A jak je to u nás?

Google včera oznámil, že započal s vkládáním odkazů na aktuální události k relevantním odkazům. Pokud tedy Googlu položíte dotaz na Kandahár, získáte nejdříve odkaz na relevantní složku Open Directory a hned pod ní odkazy na čerstvé zprávy, teprve pak následují odkazy z indexu fulltextu. Výsledek vyhledávání z půl druhé dnes v noci ukazuje následující otisk obrazovky:

559

Vyhledávání ve zpravodajství bohužel ještě nefunguje v české jazykové mutaci. Druhým velkým mínusem, který pravděpodobně není chybou Googlu jako spíš nepřipraveností českých vydavatelů, je skutečnost, že mezi téměř stem zdrojů není žádný český server – zprávy z iDnes tedy na Googlu nehledejte (pokud se spokojíte se slovenským zdrojem, můžete hledat ve SME Online).

Srovnání zahraničních a českých fulltextů

Podívejte se, jak se s jednoduchým dotazem na kandahar poperou jednotlivé vyhledavače, zahraniční:

Google.com
Nejdříve zobrazí odkaz na katalog, poté aktuální titulky z novin (nejnovější je starý dvě hodiny) a nakonec odkazy z webu.
AltaVista.com
Nabídne Kandahár ke koupi na Amazonu, odkaz na zvláštní výsledky vyhledávání ve zpravodajství, pár odkazů na několik dní staré zprávy, a teprve pak odkazy do webu.
AllTheWeb (Fast)
Vrátil dva odkazy na hodinu nebo jedenáct minut staré zpravodajství, pak odkazy do webu.
Lycos
Poskytl možnost koupit Kandahár v Amazonu a několik turistických odkazů na webu.
Hot Bot
Odkazuje na Amazon, telefonní seznam, Lycos a eBay, pak doporučí turistické odkazy.

…a české:

Seznam (fulltextem)
Odkazuje na informace z 15. června – zpravodajství tu nenajdete, ale pokud máte zájem o archeologii webu…
Empyreum
Empyreum na serverech Atlas, RedBox a Uzdroje odkazuje na výsledky prohledání indexu, který je starý asi deset dní; na své vlastní stránce pak vypíchne titulky novin, ale i ty jsou více než týden staré. Dokonce fulltext na iDnes vrací měsíc staré odkazy a při prohledávání článků se vracíme v historii ještě dál.
Megatext
Neposkytuje žádné aktuální informace, pouze odkazy do webu staré mnoho měsíců.
WebFast (Centrum)
Nevytrhává odkazy na zpravodajství z výpisu, ale přestože se odkazy na zprávy objevují na čelných pozicích, jsou dva týdny neaktuální.
Tiscali
Odpovídá úplně scestně. Snad jen, že nás směruje na titulní strany zpravodajských serverů, co když ale chceme turistické informace…
WebSeek
První tři odkazy byly směřovány na neexistující strany (404 Not Found) Českých Novin a jejich satelitů, ostatní byly neaktuální.
Quick
Vnucuje nám program kin (ano, film Kandahár měl minulý týden premieru), historické a turistické informace, zpravodajství žád­né.

V zahraničí tedy boduje Fast, následován Googlem a za nimi se statečně drží AltaVista, u nás musíte aktuální informace hledat jinak než ve fulltextu. Přitom je zajímavé, že všechny české zdroje, s výjimkou Megatextu a Empyrea, na svých serverech zpravodajství mají k dispozici – pokud se podíváte, jaký zájem byl v září o aktuální témata ve fulltextu (Nejvyhledávanější slova v Google za minulý týden nebo Co hledám, zapomínám), pak vám dojde, o jak mnoho uživatelů naše slavné portály přicházejí.

Ke slovu přichází sémantický web

Zásadní překážkou pro to, aby mohl fulltext vracet aktuální odkazy, je indexovací perioda. Jak ve svém článku Lesk a bída českých vyhledavačů píše kolega Marek Prokop, roboty (crawlery) fulltextových vyhledavačů indexují stránky v různých intervalech. U celosvětových indexérů se perioda pohybuje obvykle kolem 30 dní, české lokální indexují s periodou asi poloviční. Výjimky se ovšem najdou jak v zahraničí, tak i u nás – například Megatext nebo Seznam jsou fulltexty k ničemu (viz poznámky výše a v Prokopově textu).

Klasické indexování obsahu zpravodajských serverů zde není možné používat především z důvodu vysoké náročnosti – zprávy se ve vypjatých okamžicích mění každých pár minut (Google updatuje zpravodajství co čtvrthodinu!). Navíc každý informační zdroj se obnovuje v jiných intervalech – některé servery zveřejňují informace úderem půlnoci, jiné je zařazují průběžně. Kromě toho obvykle WWW stránka obsahuje vedle zpravodajství i další rušivé texty, které nemají s aktuálními událostmi nic společného.

Řešením je tu spolupráce mezi vydavateli a indexéry. V pondělí jsem v textu článku Budoucnost patří sémantickému webu otevřel téma sémantického popisu informací a zmínil jsem se o standardu Resource Description Framework (RDF) a jeho aplikaci v Rich Site Summary (RSS). Na konci článku jsem položil anketní otázku „Za jak dlouho se Google naučí prohledávat web podle zde popsaného principu sémantického webu?“ – zdá se, že jsem měl zvolit i kratší horizont než jeden rok.

Je to první krok k využívání sémanticky zaměřených značek XML, ale o to je to krok důležitější. Dosud média používala k exportu informací o článcích vlastní formáty, obvykle upravované na míru jednotlivým partnerům – výjimkou není ani Lupa, jejíž exportní soubory najdete na adrese /coop.phtml. Vyhledavače ale obvykle neví, co tyto textové soubory znamenají, a proto bude muset brzy dojít ke sjednocení na některém ze standardů popisujících zdrojové informace. V pondělním článku jsem odkazoval na zahraniční Moreover, dnes jako příklad uvedu exportní soubor ve formátu RSS, který najdete na Světě Namodro. Formát RDF/RSS například umožňuje u jednotlivých kanálů definovat i obnovovací periodu, takže odběratel má stále přístup k aktuálním informacím.

Teď je jen otázkou času, kdy se k nastupujícímu trendu připojí vydavatelé internetových médií. Pokud by měla implementace zpravodajských kanálů činit fulltextům potíže (jde o jiný systém), mohou se portály obrátit na některý ze serverů, které umí s aktuálním zpravodajstvím zacházet lépe. Je to příležitost pro dosud nepříliš doceněné projekty jako je WebSpy a iNews. PraveDnes.cz dokonce už standard RSS podporuje jak pro vstup, tak i pro výstup dat.

Anketa

Vyhledávali jste v uplynulém měsíci fulltextem informace o aktuálních událostech?

Našli jste v článku chybu?