Internet Info, s.r.o. Lupa Měšec Podnikatel Root Zdroják DigiZone Slunečnice Vitalia Tuesday TopDrive KupDnes Navrcholu Bomba NovýTarif Dobrý web Weblogy Woko Jagg Computer.cz SK: MojeLinky

Názory k článku
Test vyhledávačů pragmaticky (1.)

Michal Kara
Michal Kara (neregistrovaný)
24. 10. 2003 8:40 Nový

Errata

celé vlákno
U Testu 2 u katalogu je vypoustene slovo pochopitelne "program", nikoli "seznam" :-)
Jirka Lahvička
Jirka Lahvička (neregistrovaný)
24. 10. 2003 10:08 Nový

Testování sloučeného hledání Atlasu

celé vlákno
Atlas má jako defaultní a drtivou většinou uživatelů používané hledání ve sloučené databázi katalog/fulltext. Dostat se k hledání v čistém katalogu nebo čistém fulltextu není úplně jednoduché (musí se do pokročilého hledání) a v drtivé většině případů to vrací méně relevantní výsledky. Byly tedy v testu za Atlas hodnoceny jen čistý katalog a čistý fulltext, nebo je aspoň jedno z toho defaultní sloučené hledání, které je podle mě to nejlepší, co lze na hledání na českém internetu použít?
Michal Kara
Michal Kara (neregistrovaný)
24. 10. 2003 10:14 Nový

Re: Testování sloučeného hledání Atlasu

celé vlákno
Jako "fulltext atlasu" je pouzito prave ono sloucene hledani. V druhem dilu clanku bude odkaz na kompletni pracovni poznamky vcetne screenshotu jednotlivych vysledku, budete se moci presvedcit.

Jinak mate pravdu, ze pouzit cisty katalog Atlasu opravdu neni trivialni :-)

Jirka Lahvička
Jirka Lahvička (neregistrovaný)
24. 10. 2003 14:21 Nový

Re: Testování sloučeného hledání Atlasu

celé vlákno
To netriviální použití hledání čistém katalogu je záměr - došli jsme k závěru, že většina uživatelů vůbec v těchto kategoriích neuvažuje, prostě hledá nějakou stránku/informaci a je jim úplně jedno, ve které databázi to najdou. Naopak pro lidi, co vůbec neví, jaký je rozdíl mezi katalogem a fulltextem, je volba mezi nimi jen matoucí a kontraproduktivní. A ten zlomeček odborníků jistě zvládne najít odkaz na pokročilé hledání :-)
Defaultní hledání Atlasu je tedy sloučený fulltext s katalogem - v jádře fulltext, jen jsou záznamy o každé stránce, která je současně v katalogu, obohaceny o katalogové položky, což může a nemusí pro danou stránku znamenat výrazný posun ve výsledcích.
Michal Kara
Michal Kara (neregistrovaný)
24. 10. 2003 14:46 Nový

Re: Testování sloučeného hledání Atlasu

celé vlákno
To je mi jasne :-) O tom, ze k vysledkum Jyxa pridavate katalog samozrejme vim, take to rozebiram v zaverecnem hodnoceni v dalsi casti serialu. Ale nepredbihejme :-)
Marek Prokop
Marek Prokop (neregistrovaný)
24. 10. 2003 15:21 Nový

Re: Testování sloučeného hledání Atlasu

celé vlákno
A je to správné rozhodnutí. Utkvělá představa některých portálů, že uživatele zajímá jen/především vyhledávání v jejich katalogu je poněkud nepochopitelná. Už i Microsoft dospěl k závěru, že hledání v katalogu (Looksmart na MSN) je méně kvalitní než ve fulltextu, ale u nás to všem ještě nedochází.
noname
noname (neregistrovaný)
24. 10. 2003 10:55 Nový

ovlivněný test

celé vlákno
imho je test až příliš ovlivněný vašimi zkušenostmi. Takových lidí, co by zadávaly tak složité víceslovné konstrukce je velmi málo. Optimální test by byl ten, kde by se srovnávaly nejčastěji vyhledávané české fráze (zveřejňuje každý český vyhledavač) a odhadovalo by se, které stránky uživatelé hledali a kde a jak složitě je v daném vyhledavači našli. optimálně by bylo mít z nějakého vyhledavače logy aby se vědělo na které odkazy při daném vyhledávání nejvíce uživatelů kliklo jako první (nejvhodněji umístěný a pojmenovaný) a poslední (zřejmě ten správný, pakliže to nevzdali).
Krom toho jsou ještě další důležité parametry vyhledavače - rychlost (ta je nyní vesměs u všech zanedbatelná), podoba výsledků (tedy aby měl uživatel šanci poznat bez kliknutí, zda-li ta stránka je vhodná, tedy které informace se objeví v tabulce výsledků) a hlavně aktuálnost. Nejčastější dotazy jsou totiž na některé aktuální informace a zde má většina hledacích serverů největší problémy.
Michal Kara
Michal Kara (neregistrovaný)
24. 10. 2003 11:18 Nový

Re: ovlivněný test

celé vlákno
Castecne s vami souhlasim. Koneckoncu o techto problemech v clanku pisi.

Stejne tak pisi o tom, ze podle mne "obycejny ozivatel" vyhledavac moc neotestuje. Jak byste hodnotil vysledky vyhledavani treba takovych slov jako "warez" nebo "praha"?

To, ze uzivatel na nejaky link klikne, jeste neznamena, ze vede na to, co hledal (znamena to, ze si mysli, ze vede na to co hledal, co je rozdil).

Rychlost vyhledavani je opravdu zanedbatelna a v testu jsem se ji nevenoval, nebot nikde necinila zavaznejsi prekazky.

Podoba vysledku rovnez vetsinou necinila vetsi problemy. Pokud ano, je mozne, ze jsem vysledek prehledl (v zadnem pripade jsem neproklikaval vsechny nalezene odkazy u vsech vyhladavacu a dotazu - to bych se uklikal :-). V tomto smeru je tedy zohlednena. Jediny problem byl trochu na Empyreu, nebot jsem tam u jednoho testu (bude v dalsi casti clanku) napoprve odkaz prehledl a nasel ho az pri kontrole. Vahal jsem, zda to uznat, ale nakonec jsem to uznal.

Pokud jde o aktualni informace - to se velmi casto rika. Mozna jsem vyjimka, ale ja pokud chci najit "horkou" informaci, jdu na zpravodajske servery, ne na vyhledavac. V testu tedy zadny test na "horkou informaci" neni.

Jinak je aktualnost v testu opet zohlednena neprimo - pokud vyhledavac nema aktualni informaci, tak ji nenajde a dostane spatne hodnoceni. Dokonce u Testu 3 je pozadavek aktualnosti informace explicitne uveden.

Ale pokud ma nacachovanou rok starou verzi stranky a presto je vysledek (soucasna podoba stranky) relevantni, nevidim duvod toto penalizovat, nebot to nema na pouzitelnost vliv.
Marek Prokop
Marek Prokop (neregistrovaný)
24. 10. 2003 12:09 Nový

Re: ovlivněný test

celé vlákno
Nemyslím si, že je velmi málo lidí, kteří zadávají složitější víceslovné dotazy. Naopak, je jich poměrně dost a stoupá počet těch, kteří zadávají dotazy v přirozeném jazyce (jaký je rozdíl mezi A a B, kde koupit C, atd.). Ať už je to ale jak chce, souhlasím s autorem, že vyhledavač lze otestovat jen inteligentními dotazy. Sice by měl přijatelně zvládnout i dotazy hloupé, ale kvalitu výsledků pak nejde objektivně posoudit.

Co se týče tzv. nejčastěji vyhledávaných frází, které konkrétně myslíte? Top 10, top 100, top 1000, top 100000? AFAIK všechny tyto TopN tvoří jen nepatrný zlomek ze všech položených dotazů. Většinu naopak mají dotazy unikátní, které někdo položí jen jednou.

Informace zobrazované u každého odkazu ovlivňuje majitel cílových stránek, takže do testu vyhledavačů to rozhodně nespadá. Tyto informace spolu s pozicí také ovlivňují klikatelnost.

Pokud jde o aktuálnost databáze, souhlasím s vámi bez výhrad.
Michal Kara
Michal Kara (neregistrovaný)
24. 10. 2003 12:27 Nový

Re: ovlivněný test

celé vlákno
> Ať už je to ale jak chce, souhlasím s autorem, že
> vyhledavač lze otestovat jen inteligentními dotazy.
> Sice by měl přijatelně zvládnout i dotazy hloupé,
> ale kvalitu výsledků pak nejde objektivně posoudit.

100% souhlas :-)

To, ze topN muze byt jen zlomek z vyhledavanych dotazu je rovnez dobry postreh (ale chtelo byt o overit z logu vyhledavace).

Nemohu souhlasit s tim, ze podobu informaci u odkazu ovlivnuje majitel stranek. Castecne snad ano (titulek), ale o tom, jaky vysek z textu stranky se u nej objevi, a jak na nem budou vyznacena vyhledavana slova (a vubec ergonomii/design cele stranky) ovlivnuje vyhledavac, respektive rozhrani k nemu.

O aktualnosti jsem jiz psal ve sve predchozi odpovedi.
Marek Prokop
Marek Prokop (neregistrovaný)
24. 10. 2003 13:11 Nový

Re: ovlivněný test

celé vlákno

Převaha výjimečných dotazů nad často se opakujícími je všeobecně známá, viz např. Jeden den v životě vyhledavače (Sova v síti, 17.4.03). Znají to i ti, kdo si analyzují dotazy, přes které přicházejí návštěvníci na jejich web, i když zde se projevují relativně značné odchylky dle oboru.

Pokud jde o informace ve výsledcích vyhledávání, každý vyhledavač je zobrazuje podle poměrně jednoduchého algoritmu. Je v životním zájmu majitele webu, aby toho využil a navrhl stránku tak, aby se ve vyhledavači zobrazovalo něco smysluplněho. Proto tvrdím, že to je věc cílových stránek a nikoli vyhledavače. Ten s tím opravdu nemůže moc čarovat, zvlášť když cílová stránka třeba neobsahuje žádný text ani meta data -- viz klasika Nový dokument 1.

Michal Kara
Michal Kara (neregistrovaný)
24. 10. 2003 13:56 Nový

Re: ovlivněný test

celé vlákno
Pokud nekdo na ty vyjimecne dotazy delal vyzkum, pak je to OK. Jen jsem nechtel neco tvrdit bez toho, ze bych mel svoji domenku alespon trochu podporenou prakticky.

Porad mi nejak uchazi, co muze webamster na zobrazeni ovlivnit, krome zadani smysluplneho title (coz je bez debat a ovlivnuje to hodne). A nejde jen o algoritmus - treba ten dokument co jsem u Emyprea prehledl ostatni vyhledavace zobrazily tak, ze jsem si jej vsiml a vyhodnotil jako relevantni bez problemu.

A zkuste si porovnat "citelnost" vysledku z uvedenych vyhledavacu. Dle meho nazoru tam jsou dost zretelne rozdily.



Marek Prokop
Marek Prokop (neregistrovaný)
24. 10. 2003 15:00 Nový

Co se zobrazuje ve vyhledavačích

celé vlákno

Zřejmě nějak neberete v úvahu, že vyhledavač si text zobrazený u odkazu nevymýšlí. Vybírá ho z nalezené stránky. Pokud tedy na stránce nebude vůbec nic (poměrně časté) zobrazí se jen URL (příklad 1 - porovnejte 2. a 3. odkaz). Pokud na stránce bude jen informace, že nepodporuje framy (ještě častější), bude tam jen tato informace (příklad 2 - porovnejte 1. a 2. odkaz).

Zatím to byly příklady elementárních chyb. Pak ale také jde o to, jak je napsaný text, zda je opravdu tematicky konzistentní, zda se v něm klíčová slova nacházejí v logických souvislostech, nebo naopak jen v nějakých zmatených výčtech (příklad 3 - porovnejte 1. odkaz se 4. a 6.).

Konečně lze často dosáhnout i toho, aby se alespoň na hlavní klíčová slova nezobrazoval běžný text stránky, nýbrž meta discription (příklad 4 - 1. odkaz).

Michal Kara
Michal Kara (neregistrovaný)
24. 10. 2003 15:26 Nový

Re: Co se zobrazuje ve vyhledavačích

celé vlákno
Dobre, mate hodne argumentu pro sve tvrzeni :-) Jasne, ze pokud na to uzivatel kasle, tak s tim vyhledavac nic moc neudela.

Ale pripustte, ze vyhledavac ma na tu interpretaci taktez docela podstatny vliv. Porovnejte jednoduchost posouzeni relevance prvniho a druheho nalezeneho vysledku.

Marek Prokop
Marek Prokop (neregistrovaný)
24. 10. 2003 16:12 Nový

Re: Co se zobrazuje ve vyhledavačích

celé vlákno

Moment, to je ovšem úplně jiný problém. Ta stránka evidentně někdy měla (teď už ho nemá) meta description, které znělo "Oddělení tělovýchovy,hudedební,jazykové a rukodělné výchovy". Tiscali.cz, které používá AlltheWeb/FAST, je nastavené tak, že je-li meta description, zobrazuje jen to. Pokud se podíváte přímo na AlltheWeb, zjistíte, že tam je jak úryvek (prakticky shodný s Morefeem), tak meta description. To, že to meta description bylo napsané úplně blbě, je přeci chyba webmastera, nebo snad ne?

Michal Kara
Michal Kara (neregistrovaný)
24. 10. 2003 16:17 Nový

Re: Co se zobrazuje ve vyhledavačích

celé vlákno
Ale ja jsem psal "porovnat citelnost vysledku", nikoli vysledky samotne, ty jsou irelevantni. Jen jsem chtel ilustrovat, ze ve vysledcich Morfea se (alespon mne) orientuje podstatne lepe, nez ve vysledcich TIscali.
Standa
Standa (neregistrovaný)
24. 10. 2003 17:08 Nový

Re: Co se zobrazuje ve vyhledavačích

celé vlákno
Orientujete vy není totéž jako špatně vyhledává?
Kdo tedy podle Vás vyhledává lépe. Morfeo a nebo Tiscali?
Michal Kara
Michal Kara (neregistrovaný)
25. 10. 2003 9:05 Nový

Re: Co se zobrazuje ve vyhledavačích

celé vlákno
Zalezi na tom, jak chapete slovo "vyhledavat". V sirsim pojmu do nej je pochopitelne zahrnuta i orientace ve vysledku a dalsi veliciny. Ale v uzsim slova smyslu chapu "vyhledavani" ciste jako transformaci dotaz => usporadana mnozina odkazu. A prezentaci povazuji ne za vlastnost vyhledavaciho stroje, ale rozhrani k nemu. Sice se to spatne oddeluje, ale ma to smysl, nebot i v soucasne situaci k jednomu stroji existuje nekolik rozhrani.

Ale k tematu threadu: Trochu jsem o tom premyslel a dosel k nasledujicimu zaveru.

Aby byl vysledek dobry, musi se snazit uzivatel i vyhledavac. Uzivatel musi dobre zadat TITLE, frames, meta tagy atp. Vyhledavac potom musi titulek, meta, vysek textu dobre zobrazit. Pokud jeden nebo druhy odvedou praci spatne, vysledek bude spatny.

V praxi to nyni vypada tak, ze vyhledavace svou praci odvadi vsechny pomerne dobre. Ale neni to samozrejmost. Klidne muzu napsat rozhrani ktere "vysype" jen odkazy nadepsane "Odkaz 1", "Odkaz 2" atp., ukazujici na URL nalezenych odkazu. Potom toho uzivatel opravdu moc neovlivni :-)

Na druhou stranu uzivatelu je vic a je podstatne castejsi, ze se na sve strane dopousteji prohresku. Proto to muze vypadat, ze odpovednost je jenom na strane uzivatele. Ale neni, jak ukazuje priklad vyse. Pouze vyledavace jsou (logicky) udelany s durazem na dobre vyhledavani :-))) Tedy zodpovednost je rozdelena tak 50:50.
Michal Illich
Michal Illich (neregistrovaný)
24. 10. 2003 13:53 Nový

Super

celé vlákno
Pekny test.

Nacasovani je z meho pohledu trosku nestastne, protoze jsme v uplynulem mesici dost intenzivne ladili algoritmus hledani (a mimochodem, zrychlili jsme Jyxo o 40% :) ). Takze na zacatku testu hodnotite jiny algoritmus Jyxa nez na konci...

Zaroven jsme ted v takovem hupu s velikosti databaze - tu jsme ted procistovali (klesla velikost o 3 miliony dokumentu) a zacala opet rust od predevcerejska.

Tyhle dve veci by mohly vysledek Jyxa ovlivnit, ale to konec koncu neni starosti autora ani uzivatelu... to jen ja jsem napnuty, jak to dopadne u dalsich dotazu, ktere uz casove budou spadat do obdobi zmen algoritmu a zmensene databaze.


Michal Kara
Michal Kara (neregistrovaný)
24. 10. 2003 14:11 Nový

Re: Super

celé vlákno
Testy byly delany od 19. to 24. zari. Take bych byl rad, kdyby clanky vysly drive, ale nejdrive jsem si myslel, ze jsem mail odeslal, ale odeslany nebyl, pak ho poskodil SpamAssasin, pak jsem se domlouval s redakci atp...

Asi ohledne tech zmen - testoval jsem si ted cca ctyri z tech zbylych sedmi dotazu a odpovedi jsou (co mohu narychlo posoudit) zhruba stejne - dostaly by zrejme shodne hodnoceni jako koncem zari.

Citruelo
Citruelo (neregistrovaný)
24. 10. 2003 15:52 Nový

Re: Super

celé vlákno
A stejne....jyxo rulez! :) Tedy..na ceskych strankach.
wolf
wolf (neregistrovaný)
24. 10. 2003 19:13 Nový

Re: Super

celé vlákno
jasne. stejne nic jinyho nez jyxo.cz neznam. fakt! (v CZ)
cc
cc (neregistrovaný)
24. 10. 2003 20:21 Nový

Re: Super

celé vlákno
Jedině Google, Jyxo toho moc nenajde.
Citruelo
Citruelo (neregistrovaný)
25. 10. 2003 16:45 Nový

Re: Super

celé vlákno
Mno...google je dobry na zahranicnich strankach, nejlepsi. Ale tohle je test na CZ, tam podle me je googlem jyxo. A taky se kouknete na mou cestinu, jyxo mi tam hodi hacky a carky. Hec!
Citruelo
Citruelo (neregistrovaný)
25. 10. 2003 16:48 Nový

Re: Super

celé vlákno
Jyxo teds me teda zklamal, autobusova doprava ti teda vazne nejde, mas u me majnus! I seznam te zvalcoval.
Venkovan
Venkovan (neregistrovaný)
24. 10. 2003 20:42 Nový

Re: Super

celé vlákno
A jake tedy nastaly zmeny? Jako obycejneho uzivatele me zajimaji vysledky. A mohu-li posoudit, google.com je proste v ceske domene lepsi nez cokoliv jineho. A nejake ohybani slov, nezlobte se, ale to opravdu nepotrebuju : )
Michal Illich
Michal Illich (neregistrovaný)
24. 10. 2003 23:04 Nový

Re: Super

celé vlákno
A nejake ohybani slov, nezlobte se, ale to opravdu nepotrebuju : )

Mne se zda, ze ohybat docela potrebujete - v tech trech napsanych radcich jste si zaohybal nejmene tricetkrat :)

A jak vite, delaji to i ostatni, kdyz pisi sve stranky. A tak pokud se u vyhledavace, ktery ohybat neumi, netrefite do presne stejneho tvaru jaky pouzil autor stranky, tak ji proste nenajdete - coz muze byt skoda, pokud prave ona obsahovala kyzenou informaci.

Venkovan
Venkovan (neregistrovaný)
25. 10. 2003 0:16 Nový

Re: Super

celé vlákno
Problem vidim v tom, ze takove ohybani nepomaha nalezat kyzene informace. Treba kdyz jsem hledal klicovym slovem "Vanoce", tak jsem chtel "Vanoce" (nejake obecne povidani) a ne nejake vanocni cukrovi a la komercni stranky atp.

Osobne (nejsem odbornik, jen hobbik) si myslim, ze ohybani by pomohlo, kdyby ten stroj jeste vedel, co clovek dotazem mysli. Jinak to jen zbytecne zveda recall a precision jde jak nerizena strela dolu.
Michal Kara
Michal Kara (neregistrovaný)
25. 10. 2003 8:56 Nový

Re: Super

celé vlákno
Vyckejte druheho pokracovani :-) Ten clanek byl napsan mimo jine proto, aby overil podobne dohady a dojmy.
minde
minde (neregistrovaný)
25. 10. 2003 13:22 Nový

Nádrže

celé vlákno
Jen tak pro zajímavost, zkuste si vyhledat slovo nádrže. Obzvláště na Seznamu je zajímavý výsledek.
W.K.
W.K. (neregistrovaný)
25. 10. 2003 14:18 Nový

Re: Nádrže

celé vlákno
Nejlepsi je IVA. ;-)
Zasílat nově přidané příspěvky e-mailem