Zprávy iDnes na Googlu nehledejte

12. 12. 2001

Doba čtení: 4 minuty

Pokud měl zářijový útok na WTC nějaký vliv na fulltextové vyhledavače, pak je to patrně zvýšený tlak na poskytování čerstvých informací. Google včerejší tiskovou zprávou oznámil, že zavádí testovací provoz vyhledávání v aktuálním zpravodajství. Zde se uplatní v pondělí zmiňovaný sémantický přístup k webu. A jak je to u nás?

Přidat mezi oblíbené zdroje na Googlu

Google včera oznámil, že započal s vkládáním odkazů na aktuální události k relevantním odkazům. Pokud tedy Googlu položíte dotaz na Kandahár, získáte nejdříve odkaz na relevantní složku Open Directory a hned pod ní odkazy na čerstvé zprávy, teprve pak následují odkazy z indexu fulltextu. Výsledek vyhledávání z půl druhé dnes v noci ukazuje následující otisk obrazovky:

559

Vyhledávání ve zpravodajství bohužel ještě nefunguje v české jazykové mutaci. Druhým velkým mínusem, který pravděpodobně není chybou Googlu jako spíš nepřipraveností českých vydavatelů, je skutečnost, že mezi téměř stem zdrojů není žádný český server – zprávy z iDnes tedy na Googlu nehledejte (pokud se spokojíte se slovenským zdrojem, můžete hledat ve SME Online).

Srovnání zahraničních a českých fulltextů

Podívejte se, jak se s jednoduchým dotazem na kandahar poperou jednotlivé vyhledavače, zahraniční:

Google.com: Nejdříve zobrazí odkaz na katalog, poté aktuální titulky z novin (nejnovější je starý dvě hodiny) a nakonec odkazy z webu.
AltaVista.com: Nabídne Kandahár ke koupi na Amazonu, odkaz na zvláštní výsledky vyhledávání ve zpravodajství, pár odkazů na několik dní staré zprávy, a teprve pak odkazy do webu.
AllTheWeb (Fast): Vrátil dva odkazy na hodinu nebo jedenáct minut staré zpravodajství, pak odkazy do webu.
Lycos: Poskytl možnost koupit Kandahár v Amazonu a několik turistických odkazů na webu.
Hot Bot: Odkazuje na Amazon, telefonní seznam, Lycos a eBay, pak doporučí turistické odkazy.

…a české:

Seznam (fulltextem): Odkazuje na informace z 15. června – zpravodajství tu nenajdete, ale pokud máte zájem o archeologii webu…
Empyreum: Empyreum na serverech Atlas, RedBox a Uzdroje odkazuje na výsledky prohledání indexu, který je starý asi deset dní; na své vlastní stránce pak vypíchne titulky novin, ale i ty jsou více než týden staré. Dokonce fulltext na iDnes vrací měsíc staré odkazy a při prohledávání článků se vracíme v historii ještě dál.
Megatext: Neposkytuje žádné aktuální informace, pouze odkazy do webu staré mnoho měsíců.
WebFast (Centrum): Nevytrhává odkazy na zpravodajství z výpisu, ale přestože se odkazy na zprávy objevují na čelných pozicích, jsou dva týdny neaktuální.
Tiscali: Odpovídá úplně scestně. Snad jen, že nás směruje na titulní strany zpravodajských serverů, co když ale chceme turistické informace…
WebSeek: První tři odkazy byly směřovány na neexistující strany (404 Not Found) Českých Novin a jejich satelitů, ostatní byly neaktuální.
Quick: Vnucuje nám program kin (ano, film Kandahár měl minulý týden premieru), historické a turistické informace, zpravodajství žádné.

V zahraničí tedy boduje Fast, následován Googlem a za nimi se statečně drží AltaVista, u nás musíte aktuální informace hledat jinak než ve fulltextu. Přitom je zajímavé, že všechny české zdroje, s výjimkou Megatextu a Empyrea, na svých serverech zpravodajství mají k dispozici – pokud se podíváte, jaký zájem byl v září o aktuální témata ve fulltextu (Nejvyhledávanější slova v Google za minulý týden nebo Co hledám, zapomínám), pak vám dojde, o jak mnoho uživatelů naše slavné portály přicházejí.

Ke slovu přichází sémantický web

Zásadní překážkou pro to, aby mohl fulltext vracet aktuální odkazy, je indexovací perioda. Jak ve svém článku Lesk a bída českých vyhledavačů píše kolega Marek Prokop, roboty (crawlery) fulltextových vyhledavačů indexují stránky v různých intervalech. U celosvětových indexérů se perioda pohybuje obvykle kolem 30 dní, české lokální indexují s periodou asi poloviční. Výjimky se ovšem najdou jak v zahraničí, tak i u nás – například Megatext nebo Seznam jsou fulltexty k ničemu (viz poznámky výše a v Prokopově textu).

Klasické indexování obsahu zpravodajských serverů zde není možné používat především z důvodu vysoké náročnosti – zprávy se ve vypjatých okamžicích mění každých pár minut (Google updatuje zpravodajství co čtvrthodinu!). Navíc každý informační zdroj se obnovuje v jiných intervalech – některé servery zveřejňují informace úderem půlnoci, jiné je zařazují průběžně. Kromě toho obvykle WWW stránka obsahuje vedle zpravodajství i další rušivé texty, které nemají s aktuálními událostmi nic společného.

Řešením je tu spolupráce mezi vydavateli a indexéry. V pondělí jsem v textu článku Budoucnost patří sémantickému webu otevřel téma sémantického popisu informací a zmínil jsem se o standardu Resource Description Framework (RDF) a jeho aplikaci v Rich Site Summary (RSS). Na konci článku jsem položil anketní otázku „Za jak dlouho se Google naučí prohledávat web podle zde popsaného principu sémantického webu?“ – zdá se, že jsem měl zvolit i kratší horizont než jeden rok.

Je to první krok k využívání sémanticky zaměřených značek XML, ale o to je to krok důležitější. Dosud média používala k exportu informací o článcích vlastní formáty, obvykle upravované na míru jednotlivým partnerům – výjimkou není ani Lupa, jejíž exportní soubory najdete na adrese /coop.phtml. Vyhledavače ale obvykle neví, co tyto textové soubory znamenají, a proto bude muset brzy dojít ke sjednocení na některém ze standardů popisujících zdrojové informace. V pondělním článku jsem odkazoval na zahraniční Moreover, dnes jako příklad uvedu exportní soubor ve formátu RSS, který najdete na Světě Namodro. Formát RDF/RSS například umožňuje u jednotlivých kanálů definovat i obnovovací periodu, takže odběratel má stále přístup k aktuálním informacím.

Teď je jen otázkou času, kdy se k nastupujícímu trendu připojí vydavatelé internetových médií. Pokud by měla implementace zpravodajských kanálů činit fulltextům potíže (jde o jiný systém), mohou se portály obrátit na některý ze serverů, které umí s aktuálním zpravodajstvím zacházet lépe. Je to příležitost pro dosud nepříliš doceněné projekty jako je WebSpy a iNews. PraveDnes.cz dokonce už standard RSS podporuje jak pro vstup, tak i pro výstup dat.

Vyhledávali jste v uplynulém měsíci fulltextem informace o aktuálních událostech?

Vstoupit do diskuse (19 názorů)

Martin Kopta

Autor se zabývá výkonovým marketingem na internetu. Pracoval pro Advertures, Dobrý web a Outrider. Martin byl dříve redaktorem Lupy a dalších periodik o IT.

Témata:

Zajimava interpretace. Ja to myslel tak (cestina neni muj 1. rodny jazyk), ze kdyz se pouzije prilis mnoho ficur, ktere svazuji uzivatele natolik, ze nema prilis variabilniho prostoru, tak muze dojit k paradoxu, kdy efektivita takoveho aparatu je ve skutecnosti nizsi nez naprosta svoboda (rozumejte chaos). Viz. pripady "Microsoft" v. "Unix-like", a je otazka, zda "XML" v. "totalni chaos formatu kupr. HTML" neni obdoba. Aspon jeste nikdo nepodal…

bez přezdívky

Sdílet

Srovnání zahraničních a českých fulltextů

Ke slovu přichází sémantický web

Vyhledávali jste v uplynulém měsíci fulltextem informace o aktuálních událostech?

Autor článku

Martin Kopta

Témata:

Anketa

Dali byste si do počítače čínský SSD disk, případně čínské RAM?

Komerční sdělení

M Computers míří na NVIDIA GTC Berlin 2026 jako Silver partner. Českým firmám nabízí 20% slevu na vstupenku

Zprávy iDnes na Googlu nehledejte

Sdílet

Srovnání zahraničních a českých fulltextů

Ke slovu přichází sémantický web

Vyhledávali jste v uplynulém měsíci fulltextem informace o aktuálních událostech?

Autor článku

Anketa

Dali byste si do počítače čínský SSD disk, případně čínské RAM?

Čtěte dále

Komerční sdělení