Hlavní navigace

Vyhledávání aktuálních zpráv

Martin Kopta

Obracíme se na web s očekáváním lepší informovanosti pokaždé, když světem nebo naším okolím pohne nějaká událost. Jakou ale máme šanci opravdu se k informacím dostat? Pokud neznáme zdroj, tak mizivou. Katalogy a vyhledavače portálů na okamžité informace nejsou stavěné. Nezbývá, než obrátit se na specializované vyhledavače.

Kdykoli se pozornost světa upře k aktuální události, obracejí se uživatelé Internetu na vyhledavače, aby o ní našli co nejvíce informací. Lhostejno, jedná-li se o teroristické útoky v New Yorku, nebo povodně v Čechách, lidé automaticky předpokládají, že vyhledavač jim najde odkazy na nejlépe informované zdroje. Není to vždy dobrý nápad.

Hledat aktuální události v katalogu a fulltextu nemá smysl
Boje v Iráku zuří už čtvrtým dnem, ale výsledky vyhledávání fráze válka v iráku na Seznamu, Atlasu, Centru ani Klikni tomu stále ještě nenasvědčují. Zcela výjimečně se na první straně výpisu objeví aktuální informace. Seznam rozumně okamžitě přidal speciální kategorii do katalogu a zařadil do svůj speciál z Novinek, ale pak už se do výsledků vměstnali jen pohotoví webmasteři, kteří pochopili, že musí své válečné stránky zaregistrovat do katalogu sami, protože to za ně nikdo neudělá.

Na všech českých portálech je situace obdobná. Důvod je nasnadě: primárním zdrojem pro vyhledávání jsou katalogy odkazů. Ty fungují podobně jako zlaté stránky – co si do „inzerátu“ sami nenapíšete, to tam nikdo nenajde. Má tedy smysl hledat v katalogu zpravodajství, ale už nikoli klíčová slova aktuálních informací. Při zájmu o válku v Iráku z katalogu dostanete především informace o té, kterou vedl Bush starší.

Ani s fulltextovými vyhledavači, jejichž roboti procházejí web sami a umožňují tak hledat výrazy, které se vyskytují přímo na stránkách, na tom z hlediska aktuálních informací nejsou lépe. Platí to i pro oslavované Jyxo. Příčinou je dlouhý interval mezi doplňováním indexů pro vyhledávání. Moderní fulltexty se sice snaží rozeznat zpravodajské servery (spíše často aktualizované stránky), ale ty jim nevycházejí příliš vstříc – například na iDnes jejich postup zarazí instrukce v hlavičce noindex, follow, která robotu sice dovolí webem procházet, ale nesmí si jeho obsah ukládat.

I v relativně příznivém případě, kdy si fulltextový vyhledavač doplňuje index často a je schopen rozeznat zpravodajské weby, vlivem hodnotících hledisek, která s prosazováním aktuálních informací nepočítají, dochází k tomu, že ve výsledcích jsou upřednostněny odkazy, které neodpovídají nejlépe informovaným zpravodajským a publicistickým zdrojům.

Nejlepším řešením při hledání aktuálních informací je zamířit rovnou na zpravodajský server. Návštěvník portálu by neměl o opravdu nejdůležitější zprávy přijít, protože všechny je výrazně inzerují už na domovské straně, takže na deziluzi z vyhledávání ani nedojde. Co si ovšem počít, pokud hledáme aktuální informaci nižší společenské závažnosti? Například v současné době oficiální seznamy agentů StB?

Pomohou s hledáním blogy?
V anglicky hovořící části Internetu bychom se mohli obrátit na blogy, respektive na některý ze systémů sledování odkazů napříč blogy. Už ve článcích Marka Prokopa byly zmiňovány služby jako Blogdex, Popdex, Daypop, Organica nebo Cosmos. Jak nám mohou pomoci při vyhledávání aktuálních informací? Zvláště v případě, kdy je o události k dispozici informací více, hodil by se nám nějaký způsob pro klasifikaci významu jednotlivých zdrojů. Právě s touto veličinou můžeme ve službách sledujících blogy počítat.

Pokud chceme najít významný zdroj informací (řekněme zpravodajský server s vysokým renomé), pak se můžeme spolehnout na to, že k němu povede mnoho odkazů. Pokud tedy necháme vyhledat frázi a posléze zjistíme, kolik odkazů celkem na daný zdroj vede (ať už přímo stránku nebo server jako celek), získáme jakousi „hitparádu“ zpravodajských serverů. Týž princip můžeme použít i na nezpravodajské případy. Tahle metoda sama o sobě nestačí. Mohli bychom s ní skončit na stejných výsledcích jako u fulltextových vyhledavačů.

Potřebujeme nějakým způsobem zohlednit aktuálnost informací. K tomu může posloužit sledování nárůstu počtu odkazů na obsah ve zvoleném čase. Takto budeme moci vysledovat odkazy i na informace, které byly aktuální v nějakém okamžiku v historii. Nejlepší výsledky tato metoda poskytuje u zdrojů, které nejsou masivně odkazovány a zazáří právě v souvislosti s nějakou událostí, proto je tu vhodné sledovat odkazy přímé, nikoli odkazy na server jako celek.

Brand

Dovedeno do důsledků: sledováním velkých nárůstů odkazů bychom mohli aktuální události zásadní povahy odhalovat dokonce strojově. O to se velmi úspěšně pokouší právě Cosmos, kde můžete sledovat nejdůležitější události podle hustoty odkazování z blogů za poslední tři hodiny. Předpokladem pro aplikaci těchto metod je ovšem velká základna blogů, a tu bohužel pro události z pohledu obyvatele České republiky nemáme. Přesto poskytují blogy zajímavý způsob reflexe světa alespoň z pohledu západu severní polokoule.

Východiskem je specializovaný vyhledavač na zprávy
Východiskem by byl specializovaný vyhledavač na zprávy. Takový provozuje třeba Google, který zvládá i seskupování zpráv o téže události. Ovšem nemáme tu možnost stanovit si, od kdy do kdy nás události zajímají, a problém je také v tom, že zde nenajdeme zprávy české. Pokud ale opravdu chcete srovnávat české zpravodajské zdroje, můžete se s důvěrou obrátit na server Právě dnes, který sice neumí výsledky vyhledávání kategorizovat tak jako Google a neumí ani omezit časový úsek, ale disponuje dostatečným počtem českých zdrojů, takže při vhodně položeném dotazu informace dostanete.

Anketa

Vyhledáváte na webu aktuální zprávy?

Našli jste v článku chybu?
24. 3. 2003 19:04
Martin Kopta (neregistrovaný)
Žádný rozpor v tom nevidím. Řazení je nevhodné pro vyhledávání aktuálních informací, ale je tomu tak dobře, protože obecný fulltext je určen pro jiný typ zadání.
24. 3. 2003 17:48
Michal Illich (neregistrovaný)
Zrovnatak nevhodne radi vysledky AllTheWeb nebo Google a myslim, ze je tomu tak dobre

Tucne vyznacene casti teto vety se zdaji byt ve vzajemnem rozporu. A priblizne o tomtez byl muj predesly diskusni prispevek. Pokud je "tomu tak dobre", tak prece nerikejte, ze je to serazene "nevhodne" ci ze hledat aktualni informace ve fulltextu nema smysl...