Hlavní navigace

Vyhledávání aktuálních zpráv

Martin Kopta 24. 3. 2003

Obracíme se na web s očekáváním lepší informovanosti pokaždé, když světem nebo naším okolím pohne nějaká událost. Jakou ale máme šanci opravdu se k informacím dostat? Pokud neznáme zdroj, tak mizivou. Katalogy a vyhledavače portálů na okamžité informace nejsou stavěné. Nezbývá, než obrátit se na specializované vyhledavače.

Kdykoli se pozornost světa upře k aktuální události, obracejí se uživatelé Internetu na vyhledavače, aby o ní našli co nejvíce informací. Lhostejno, jedná-li se o teroristické útoky v New Yorku, nebo povodně v Čechách, lidé automaticky předpokládají, že vyhledavač jim najde odkazy na nejlépe informované zdroje. Není to vždy dobrý nápad.

Hledat aktuální události v katalogu a fulltextu nemá smysl
Boje v Iráku zuří už čtvrtým dnem, ale výsledky vyhledávání fráze válka v iráku na Seznamu, Atlasu, Centru ani Klikni tomu stále ještě nenasvědčují. Zcela výjimečně se na první straně výpisu objeví aktuální informace. Seznam rozumně okamžitě přidal speciální kategorii do katalogu a zařadil do svůj speciál z Novinek, ale pak už se do výsledků vměstnali jen pohotoví webmasteři, kteří pochopili, že musí své válečné stránky zaregistrovat do katalogu sami, protože to za ně nikdo neudělá.

Na všech českých portálech je situace obdobná. Důvod je nasnadě: primárním zdrojem pro vyhledávání jsou katalogy odkazů. Ty fungují podobně jako zlaté stránky – co si do „inzerátu“ sami nenapíšete, to tam nikdo nenajde. Má tedy smysl hledat v katalogu zpravodajství, ale už nikoli klíčová slova aktuálních informací. Při zájmu o válku v Iráku z katalogu dostanete především informace o té, kterou vedl Bush starší.

Ani s fulltextovými vyhledavači, jejichž roboti procházejí web sami a umožňují tak hledat výrazy, které se vyskytují přímo na stránkách, na tom z hlediska aktuálních informací nejsou lépe. Platí to i pro oslavované Jyxo. Příčinou je dlouhý interval mezi doplňováním indexů pro vyhledávání. Moderní fulltexty se sice snaží rozeznat zpravodajské servery (spíše často aktualizované stránky), ale ty jim nevycházejí příliš vstříc – například na iDnes jejich postup zarazí instrukce v hlavičce noindex, follow, která robotu sice dovolí webem procházet, ale nesmí si jeho obsah ukládat.

I v relativně příznivém případě, kdy si fulltextový vyhledavač doplňuje index často a je schopen rozeznat zpravodajské weby, vlivem hodnotících hledisek, která s prosazováním aktuálních informací nepočítají, dochází k tomu, že ve výsledcích jsou upřednostněny odkazy, které neodpovídají nejlépe informovaným zpravodajským a publicistickým zdrojům.

Nejlepším řešením při hledání aktuálních informací je zamířit rovnou na zpravodajský server. Návštěvník portálu by neměl o opravdu nejdůležitější zprávy přijít, protože všechny je výrazně inzerují už na domovské straně, takže na deziluzi z vyhledávání ani nedojde. Co si ovšem počít, pokud hledáme aktuální informaci nižší společenské závažnosti? Například v současné době oficiální seznamy agentů StB?

Pomohou s hledáním blogy?
V anglicky hovořící části Internetu bychom se mohli obrátit na blogy, respektive na některý ze systémů sledování odkazů napříč blogy. Už ve článcích Marka Prokopa byly zmiňovány služby jako Blogdex, Popdex, Daypop, Organica nebo Cosmos. Jak nám mohou pomoci při vyhledávání aktuálních informací? Zvláště v případě, kdy je o události k dispozici informací více, hodil by se nám nějaký způsob pro klasifikaci významu jednotlivých zdrojů. Právě s touto veličinou můžeme ve službách sledujících blogy počítat.

Pokud chceme najít významný zdroj informací (řekněme zpravodajský server s vysokým renomé), pak se můžeme spolehnout na to, že k němu povede mnoho odkazů. Pokud tedy necháme vyhledat frázi a posléze zjistíme, kolik odkazů celkem na daný zdroj vede (ať už přímo stránku nebo server jako celek), získáme jakousi „hitparádu“ zpravodajských serverů. Týž princip můžeme použít i na nezpravodajské případy. Tahle metoda sama o sobě nestačí. Mohli bychom s ní skončit na stejných výsledcích jako u fulltextových vyhledavačů.

Potřebujeme nějakým způsobem zohlednit aktuálnost informací. K tomu může posloužit sledování nárůstu počtu odkazů na obsah ve zvoleném čase. Takto budeme moci vysledovat odkazy i na informace, které byly aktuální v nějakém okamžiku v historii. Nejlepší výsledky tato metoda poskytuje u zdrojů, které nejsou masivně odkazovány a zazáří právě v souvislosti s nějakou událostí, proto je tu vhodné sledovat odkazy přímé, nikoli odkazy na server jako celek.

Dovedeno do důsledků: sledováním velkých nárůstů odkazů bychom mohli aktuální události zásadní povahy odhalovat dokonce strojově. O to se velmi úspěšně pokouší právě Cosmos, kde můžete sledovat nejdůležitější události podle hustoty odkazování z blogů za poslední tři hodiny. Předpokladem pro aplikaci těchto metod je ovšem velká základna blogů, a tu bohužel pro události z pohledu obyvatele České republiky nemáme. Přesto poskytují blogy zajímavý způsob reflexe světa alespoň z pohledu západu severní polokoule.

Východiskem je specializovaný vyhledavač na zprávy
Východiskem by byl specializovaný vyhledavač na zprávy. Takový provozuje třeba Google, který zvládá i seskupování zpráv o téže události. Ovšem nemáme tu možnost stanovit si, od kdy do kdy nás události zajímají, a problém je také v tom, že zde nenajdeme zprávy české. Pokud ale opravdu chcete srovnávat české zpravodajské zdroje, můžete se s důvěrou obrátit na server Právě dnes, který sice neumí výsledky vyhledávání kategorizovat tak jako Google a neumí ani omezit časový úsek, ale disponuje dostatečným počtem českých zdrojů, takže při vhodně položeném dotazu informace dostanete.

Anketa

Vyhledáváte na webu aktuální zprávy?

Našli jste v článku chybu?

24. 3. 2003 19:04

Martin Kopta (neregistrovaný)
Žádný rozpor v tom nevidím. Řazení je nevhodné pro vyhledávání aktuálních informací, ale je tomu tak dobře, protože obecný fulltext je určen pro jiný typ zadání.

24. 3. 2003 17:48

Michal Illich (neregistrovaný)
Zrovnatak nevhodne radi vysledky AllTheWeb nebo Google a myslim, ze je tomu tak dobre

Tucne vyznacene casti teto vety se zdaji byt ve vzajemnem rozporu. A priblizne o tomtez byl muj predesly diskusni prispevek. Pokud je "tomu tak dobre", tak prece nerikejte, ze je to serazene "nevhodne" ci ze hledat aktualni informace ve fulltextu nema smysl...



Vitalia.cz: Pravda o přibírání na zimu

Pravda o přibírání na zimu

Root.cz: Nová třída SD karet A1 s vysokým výkonem

Nová třída SD karet A1 s vysokým výkonem

DigiZone.cz: Mňam TV splnila slib a odešla z DVB-T

Mňam TV splnila slib a odešla z DVB-T

Měšec.cz: Zdravotní a sociální pojištění 2017: Připlatíte

Zdravotní a sociální pojištění 2017: Připlatíte

Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

Měšec.cz: Platby do zahraničí: pozor na tučné poplatky

Platby do zahraničí: pozor na tučné poplatky

Vitalia.cz: Chtějí si léčit kvasinky. Lék je jen v Německu

Chtějí si léčit kvasinky. Lék je jen v Německu

Podnikatel.cz: 3, 2, 1..EET startuje. Na co nezapomenout?

3, 2, 1..EET startuje. Na co nezapomenout?

DigiZone.cz: Digi CZ výrazně zlevnila balíček HBO

Digi CZ výrazně zlevnila balíček HBO

Root.cz: Telegram spustil anonymní blog Telegraph

Telegram spustil anonymní blog Telegraph

Podnikatel.cz: Na poslední chvíli šokuje vyjímkami v EET

Na poslední chvíli šokuje vyjímkami v EET

Lupa.cz: Babiš: E-shopů se EET možná nebude týkat

Babiš: E-shopů se EET možná nebude týkat

DigiZone.cz: Recenze Westworld: zavraždit a...

Recenze Westworld: zavraždit a...

Podnikatel.cz: Babiše přesvědčila 89letá podnikatelka?!

Babiše přesvědčila 89letá podnikatelka?!

Lupa.cz: Google měl výpadek, nejel Gmail ani YouTube

Google měl výpadek, nejel Gmail ani YouTube

Podnikatel.cz: Víme první výsledky doby odezvy #EET

Víme první výsledky doby odezvy #EET

Vitalia.cz: Tesco: Chudá rodina si koupí levné polské kuře

Tesco: Chudá rodina si koupí levné polské kuře

Podnikatel.cz: K EET. Štamgast už peníze na stole nenechá

K EET. Štamgast už peníze na stole nenechá

Vitalia.cz: Manželka je bio, ale na sex moc není

Manželka je bio, ale na sex moc není

120na80.cz: Pánové, pečujte o svoje přirození a prostatu

Pánové, pečujte o svoje přirození a prostatu