Internet Info, s.r.o. Lupa Měšec Podnikatel Root Zdroják DigiZone Slunečnice Vitalia TopDrive KupDnes Navrcholu NovýTarif Dobrý web Weblogy Woko Jagg Computer.cz SK: MojeLinky

Zprávy iDnes na Googlu nehledejte

Pokud měl zářijový útok na WTC nějaký vliv na fulltextové vyhledavače, pak je to patrně zvýšený tlak na poskytování čerstvých informací. Google včerejší tiskovou zprávou oznámil, že zavádí testovací provoz vyhledávání v aktuálním zpravodajství. Zde se uplatní v pondělí zmiňovaný sémantický přístup k webu. A jak je to u nás?

Google včera oznámil, že započal s vkládáním odkazů na aktuální události k relevantním odkazům. Pokud tedy Googlu položíte dotaz na Kandahár, získáte nejdříve odkaz na relevantní složku Open Directory a hned pod ní odkazy na čerstvé zprávy, teprve pak následují odkazy z indexu fulltextu. Výsledek vyhledávání z půl druhé dnes v noci ukazuje následující otisk obrazovky:

559

Vyhledávání ve zpravodajství bohužel ještě nefunguje v české jazykové mutaci. Druhým velkým mínusem, který pravděpodobně není chybou Googlu jako spíš nepřipraveností českých vydavatelů, je skutečnost, že mezi téměř stem zdrojů není žádný český server – zprávy z iDnes tedy na Googlu nehledejte (pokud se spokojíte se slovenským zdrojem, můžete hledat ve SME Online).

Srovnání zahraničních a českých fulltextů

Podívejte se, jak se s jednoduchým dotazem na kandahar poperou jednotlivé vyhledavače, zahraniční:

Google.com
Nejdříve zobrazí odkaz na katalog, poté aktuální titulky z novin (nejnovější je starý dvě hodiny) a nakonec odkazy z webu.
AltaVista.com
Nabídne Kandahár ke koupi na Amazonu, odkaz na zvláštní výsledky vyhledávání ve zpravodajství, pár odkazů na několik dní staré zprávy, a teprve pak odkazy do webu.
AllTheWeb (Fast)
Vrátil dva odkazy na hodinu nebo jedenáct minut staré zpravodajství, pak odkazy do webu.
Lycos
Poskytl možnost koupit Kandahár v Amazonu a několik turistických odkazů na webu.
Hot Bot
Odkazuje na Amazon, telefonní seznam, Lycos a eBay, pak doporučí turistické odkazy.

…a české:

Seznam (fulltextem)
Odkazuje na informace z 15. června – zpravodajství tu nenajdete, ale pokud máte zájem o archeologii webu…
Empyreum
Empyreum na serverech Atlas, RedBox a Uzdroje odkazuje na výsledky prohledání indexu, který je starý asi deset dní; na své vlastní stránce pak vypíchne titulky novin, ale i ty jsou více než týden staré. Dokonce fulltext na iDnes vrací měsíc staré odkazy a při prohledávání článků se vracíme v historii ještě dál.
Megatext
Neposkytuje žádné aktuální informace, pouze odkazy do webu staré mnoho měsíců.
WebFast (Centrum)
Nevytrhává odkazy na zpravodajství z výpisu, ale přestože se odkazy na zprávy objevují na čelných pozicích, jsou dva týdny neaktuální.
Tiscali
Odpovídá úplně scestně. Snad jen, že nás směruje na titulní strany zpravodajských serverů, co když ale chceme turistické informace…
WebSeek
První tři odkazy byly směřovány na neexistující strany (404 Not Found) Českých Novin a jejich satelitů, ostatní byly neaktuální.
Quick
Vnucuje nám program kin (ano, film Kandahár měl minulý týden premieru), historické a turistické informace, zpravodajství žád­né.

V zahraničí tedy boduje Fast, následován Googlem a za nimi se statečně drží AltaVista, u nás musíte aktuální informace hledat jinak než ve fulltextu. Přitom je zajímavé, že všechny české zdroje, s výjimkou Megatextu a Empyrea, na svých serverech zpravodajství mají k dispozici – pokud se podíváte, jaký zájem byl v září o aktuální témata ve fulltextu (Nejvyhledávanější slova v Google za minulý týden nebo Co hledám, zapomínám), pak vám dojde, o jak mnoho uživatelů naše slavné portály přicházejí.

Ke slovu přichází sémantický web

Zásadní překážkou pro to, aby mohl fulltext vracet aktuální odkazy, je indexovací perioda. Jak ve svém článku Lesk a bída českých vyhledavačů píše kolega Marek Prokop, roboty (crawlery) fulltextových vyhledavačů indexují stránky v různých intervalech. U celosvětových indexérů se perioda pohybuje obvykle kolem 30 dní, české lokální indexují s periodou asi poloviční. Výjimky se ovšem najdou jak v zahraničí, tak i u nás – například Megatext nebo Seznam jsou fulltexty k ničemu (viz poznámky výše a v Prokopově textu).

Klasické indexování obsahu zpravodajských serverů zde není možné používat především z důvodu vysoké náročnosti – zprávy se ve vypjatých okamžicích mění každých pár minut (Google updatuje zpravodajství co čtvrthodinu!). Navíc každý informační zdroj se obnovuje v jiných intervalech – některé servery zveřejňují informace úderem půlnoci, jiné je zařazují průběžně. Kromě toho obvykle WWW stránka obsahuje vedle zpravodajství i další rušivé texty, které nemají s aktuálními událostmi nic společného.

Řešením je tu spolupráce mezi vydavateli a indexéry. V pondělí jsem v textu článku Budoucnost patří sémantickému webu otevřel téma sémantického popisu informací a zmínil jsem se o standardu Resource Description Framework (RDF) a jeho aplikaci v Rich Site Summary (RSS). Na konci článku jsem položil anketní otázku „Za jak dlouho se Google naučí prohledávat web podle zde popsaného principu sémantického webu?“ – zdá se, že jsem měl zvolit i kratší horizont než jeden rok.

Blogujte na Lupě

Chcete mít vlastní blog o tématu kolem světa IT a internetu? Blogujte na Lupě a buďte na titulní stránce Lupy. Registrujte se na blog.lupa.cz.

       

Je to první krok k využívání sémanticky zaměřených značek XML, ale o to je to krok důležitější. Dosud média používala k exportu informací o článcích vlastní formáty, obvykle upravované na míru jednotlivým partnerům – výjimkou není ani Lupa, jejíž exportní soubory najdete na adrese /coop.phtml. Vyhledavače ale obvykle neví, co tyto textové soubory znamenají, a proto bude muset brzy dojít ke sjednocení na některém ze standardů popisujících zdrojové informace. V pondělním článku jsem odkazoval na zahraniční Moreover, dnes jako příklad uvedu exportní soubor ve formátu RSS, který najdete na Světě Namodro. Formát RDF/RSS například umožňuje u jednotlivých kanálů definovat i obnovovací periodu, takže odběratel má stále přístup k aktuálním informacím.

Teď je jen otázkou času, kdy se k nastupujícímu trendu připojí vydavatelé internetových médií. Pokud by měla implementace zpravodajských kanálů činit fulltextům potíže (jde o jiný systém), mohou se portály obrátit na některý ze serverů, které umí s aktuálním zpravodajstvím zacházet lépe. Je to příležitost pro dosud nepříliš doceněné projekty jako je WebSpy a iNews. PraveDnes.cz dokonce už standard RSS podporuje jak pro vstup, tak i pro výstup dat.

Anketa

Vyhledávali jste v uplynulém měsíci fulltextem informace o aktuálních událostech?

       

Martin Kopta

Autor se zabývá výkonovým marketingem na internetu. Pracoval pro Advertures, Dobrý web a Outrider. Martin byl dříve redaktorem Lupy a dalších periodik o IT.

Kurz SEO - Praha, Brno

DW - Školení SEO
  • Jak fungují vyhledávače a co od nich můžete očekávat.
  • Analýza klíčových slov - kde hledat, jak slova vybrat, jak optimalizovat.
  • Metody linkbuildingu - jak získat zpětné odkazy aniž byste za ně museli platit.
  • Vyhodnocování SEO - nesledujte jen pozice.

Další informace o kurzu SEO »

Akce: Využijte last minute slevu na školení v Brně!

Přehled názorů

kandahar vs. kandahár na iDnes
pinus 12. 12. 2001 06:54
Nový
└ 
Re: kandahar vs. kandahár na iDnes
Martin Kopta 12. 12. 2001 07:18
Nový
 
└ 
Re: kandahar vs. kandahár na iDnes
J.K. 12. 12. 2001 17:17
Nový
Semanticky web?
Michal Illich 12. 12. 2001 09:18
Nový
└ 
Re: Semanticky web?
Martin Kopta 12. 12. 2001 09:28
Nový
Co je s Empyreum.cz?
Tom 12. 12. 2001 10:45
Nový
└ 
Re: Co je s Empyreum.cz?
Martin Kopta 12. 12. 2001 11:08
Nový
Kandahar na iDNES je !
Vincent 12. 12. 2001 13:05
Nový
divne srovnani - jako ZDNet x Zive
Jiri 12. 12. 2001 13:31
Nový
IDNES fulltext ? !
dave 12. 12. 2001 13:49
Nový
Co resite, je tu NewsML
Patrick Zandl 12. 12. 2001 17:18
Nový
├ 
Re: Co resite, je tu NewsML
Martin Kopta 12. 12. 2001 17:37
Nový
│
└ 
Re: Co resite, je tu NewsML
Patrick Zandl 12. 12. 2001 17:45
Nový
│
 
└ 
Re: Co resite, je tu NewsML
Thomas 13. 12. 2001 00:01
Nový
│
 
 
└ 
Re: Co resite, je tu NewsML
Martin Kopta 13. 12. 2001 20:02
Nový
│
 
 
 
└ 
Re: Co resite, je tu NewsML
MK 13. 12. 2001 23:19
Nový
│
 
 
 
 
└ 
Re: Co resite, je tu NewsML
Martin Kopta 14. 12. 2001 04:07
Nový
│
 
 
 
 
 
└ 
Re: Co resite, je tu NewsML
Thomas 14. 12. 2001 22:02
Nový
└ 
Re: Co resite, je tu NewsML
Thomas 12. 12. 2001 23:40
Nový
       

Tento text je již více než dva měsíce starý. Chcete-li na něj reagovat v diskusi, pravděpodobně vám již nikdo neodpoví. Pro řešení aktuálních problémů doporučujeme využít naše diskusní fórum.

Zasílat nově přidané příspěvky e-mailem