Názory k článku
Test vyhledávačů pragmaticky (1.)
Errata
celé vláknoTestování sloučeného hledání Atlasu
celé vláknoRe: Testování sloučeného hledání Atlasu
celé vláknoJinak mate pravdu, ze pouzit cisty katalog Atlasu opravdu neni trivialni :-)
Re: Testování sloučeného hledání Atlasu
celé vláknoDefaultní hledání Atlasu je tedy sloučený fulltext s katalogem - v jádře fulltext, jen jsou záznamy o každé stránce, která je současně v katalogu, obohaceny o katalogové položky, což může a nemusí pro danou stránku znamenat výrazný posun ve výsledcích.
Re: Testování sloučeného hledání Atlasu
celé vláknoRe: Testování sloučeného hledání Atlasu
celé vláknoovlivněný test
celé vláknoKrom toho jsou ještě další důležité parametry vyhledavače - rychlost (ta je nyní vesměs u všech zanedbatelná), podoba výsledků (tedy aby měl uživatel šanci poznat bez kliknutí, zda-li ta stránka je vhodná, tedy které informace se objeví v tabulce výsledků) a hlavně aktuálnost. Nejčastější dotazy jsou totiž na některé aktuální informace a zde má většina hledacích serverů největší problémy.
Re: ovlivněný test
celé vláknoStejne tak pisi o tom, ze podle mne "obycejny ozivatel" vyhledavac moc neotestuje. Jak byste hodnotil vysledky vyhledavani treba takovych slov jako "warez" nebo "praha"?
To, ze uzivatel na nejaky link klikne, jeste neznamena, ze vede na to, co hledal (znamena to, ze si mysli, ze vede na to co hledal, co je rozdil).
Rychlost vyhledavani je opravdu zanedbatelna a v testu jsem se ji nevenoval, nebot nikde necinila zavaznejsi prekazky.
Podoba vysledku rovnez vetsinou necinila vetsi problemy. Pokud ano, je mozne, ze jsem vysledek prehledl (v zadnem pripade jsem neproklikaval vsechny nalezene odkazy u vsech vyhladavacu a dotazu - to bych se uklikal :-). V tomto smeru je tedy zohlednena. Jediny problem byl trochu na Empyreu, nebot jsem tam u jednoho testu (bude v dalsi casti clanku) napoprve odkaz prehledl a nasel ho az pri kontrole. Vahal jsem, zda to uznat, ale nakonec jsem to uznal.
Pokud jde o aktualni informace - to se velmi casto rika. Mozna jsem vyjimka, ale ja pokud chci najit "horkou" informaci, jdu na zpravodajske servery, ne na vyhledavac. V testu tedy zadny test na "horkou informaci" neni.
Jinak je aktualnost v testu opet zohlednena neprimo - pokud vyhledavac nema aktualni informaci, tak ji nenajde a dostane spatne hodnoceni. Dokonce u Testu 3 je pozadavek aktualnosti informace explicitne uveden.
Ale pokud ma nacachovanou rok starou verzi stranky a presto je vysledek (soucasna podoba stranky) relevantni, nevidim duvod toto penalizovat, nebot to nema na pouzitelnost vliv.
Re: ovlivněný test
celé vláknoCo se týče tzv. nejčastěji vyhledávaných frází, které konkrétně myslíte? Top 10, top 100, top 1000, top 100000? AFAIK všechny tyto TopN tvoří jen nepatrný zlomek ze všech položených dotazů. Většinu naopak mají dotazy unikátní, které někdo položí jen jednou.
Informace zobrazované u každého odkazu ovlivňuje majitel cílových stránek, takže do testu vyhledavačů to rozhodně nespadá. Tyto informace spolu s pozicí také ovlivňují klikatelnost.
Pokud jde o aktuálnost databáze, souhlasím s vámi bez výhrad.
Re: ovlivněný test
celé vlákno> vyhledavač lze otestovat jen inteligentními dotazy.
> Sice by měl přijatelně zvládnout i dotazy hloupé,
> ale kvalitu výsledků pak nejde objektivně posoudit.
100% souhlas :-)
To, ze topN muze byt jen zlomek z vyhledavanych dotazu je rovnez dobry postreh (ale chtelo byt o overit z logu vyhledavace).
Nemohu souhlasit s tim, ze podobu informaci u odkazu ovlivnuje majitel stranek. Castecne snad ano (titulek), ale o tom, jaky vysek z textu stranky se u nej objevi, a jak na nem budou vyznacena vyhledavana slova (a vubec ergonomii/design cele stranky) ovlivnuje vyhledavac, respektive rozhrani k nemu.
O aktualnosti jsem jiz psal ve sve predchozi odpovedi.
Re: ovlivněný test
celé vláknoPřevaha výjimečných dotazů nad často se opakujícími je všeobecně známá, viz např. Jeden den v životě vyhledavače (Sova v síti, 17.4.03). Znají to i ti, kdo si analyzují dotazy, přes které přicházejí návštěvníci na jejich web, i když zde se projevují relativně značné odchylky dle oboru.
Pokud jde o informace ve výsledcích vyhledávání, každý vyhledavač je zobrazuje podle poměrně jednoduchého algoritmu. Je v životním zájmu majitele webu, aby toho využil a navrhl stránku tak, aby se ve vyhledavači zobrazovalo něco smysluplněho. Proto tvrdím, že to je věc cílových stránek a nikoli vyhledavače. Ten s tím opravdu nemůže moc čarovat, zvlášť když cílová stránka třeba neobsahuje žádný text ani meta data -- viz klasika Nový dokument 1.
Re: ovlivněný test
celé vláknoPorad mi nejak uchazi, co muze webamster na zobrazeni ovlivnit, krome zadani smysluplneho title (coz je bez debat a ovlivnuje to hodne). A nejde jen o algoritmus - treba ten dokument co jsem u Emyprea prehledl ostatni vyhledavace zobrazily tak, ze jsem si jej vsiml a vyhodnotil jako relevantni bez problemu.
A zkuste si porovnat "citelnost" vysledku z uvedenych vyhledavacu. Dle meho nazoru tam jsou dost zretelne rozdily.
Co se zobrazuje ve vyhledavačích
celé vláknoZřejmě nějak neberete v úvahu, že vyhledavač si text zobrazený u odkazu nevymýšlí. Vybírá ho z nalezené stránky. Pokud tedy na stránce nebude vůbec nic (poměrně časté) zobrazí se jen URL (příklad 1 - porovnejte 2. a 3. odkaz). Pokud na stránce bude jen informace, že nepodporuje framy (ještě častější), bude tam jen tato informace (příklad 2 - porovnejte 1. a 2. odkaz).
Zatím to byly příklady elementárních chyb. Pak ale také jde o to, jak je napsaný text, zda je opravdu tematicky konzistentní, zda se v něm klíčová slova nacházejí v logických souvislostech, nebo naopak jen v nějakých zmatených výčtech (příklad 3 - porovnejte 1. odkaz se 4. a 6.).
Konečně lze často dosáhnout i toho, aby se alespoň na hlavní klíčová slova nezobrazoval běžný text stránky, nýbrž meta discription (příklad 4 - 1. odkaz).
Re: Co se zobrazuje ve vyhledavačích
celé vláknoRe: Co se zobrazuje ve vyhledavačích
celé vláknoMoment, to je ovšem úplně jiný problém. Ta stránka evidentně někdy měla (teď už ho nemá) meta description, které znělo "Oddělení tělovýchovy,hudedební,jazykové a rukodělné výchovy". Tiscali.cz, které používá AlltheWeb/FAST, je nastavené tak, že je-li meta description, zobrazuje jen to. Pokud se podíváte přímo na AlltheWeb, zjistíte, že tam je jak úryvek (prakticky shodný s Morefeem), tak meta description. To, že to meta description bylo napsané úplně blbě, je přeci chyba webmastera, nebo snad ne?
Re: Co se zobrazuje ve vyhledavačích
celé vláknoRe: Co se zobrazuje ve vyhledavačích
celé vláknoKdo tedy podle Vás vyhledává lépe. Morfeo a nebo Tiscali?
Re: Co se zobrazuje ve vyhledavačích
celé vláknoAle k tematu threadu: Trochu jsem o tom premyslel a dosel k nasledujicimu zaveru.
Aby byl vysledek dobry, musi se snazit uzivatel i vyhledavac. Uzivatel musi dobre zadat TITLE, frames, meta tagy atp. Vyhledavac potom musi titulek, meta, vysek textu dobre zobrazit. Pokud jeden nebo druhy odvedou praci spatne, vysledek bude spatny.
V praxi to nyni vypada tak, ze vyhledavace svou praci odvadi vsechny pomerne dobre. Ale neni to samozrejmost. Klidne muzu napsat rozhrani ktere "vysype" jen odkazy nadepsane "Odkaz 1", "Odkaz 2" atp., ukazujici na URL nalezenych odkazu. Potom toho uzivatel opravdu moc neovlivni :-)
Na druhou stranu uzivatelu je vic a je podstatne castejsi, ze se na sve strane dopousteji prohresku. Proto to muze vypadat, ze odpovednost je jenom na strane uzivatele. Ale neni, jak ukazuje priklad vyse. Pouze vyledavace jsou (logicky) udelany s durazem na dobre vyhledavani :-))) Tedy zodpovednost je rozdelena tak 50:50.
Super
celé vláknoNacasovani je z meho pohledu trosku nestastne, protoze jsme v uplynulem mesici dost intenzivne ladili algoritmus hledani (a mimochodem, zrychlili jsme Jyxo o 40% :) ). Takze na zacatku testu hodnotite jiny algoritmus Jyxa nez na konci...
Zaroven jsme ted v takovem hupu s velikosti databaze - tu jsme ted procistovali (klesla velikost o 3 miliony dokumentu) a zacala opet rust od predevcerejska.
Tyhle dve veci by mohly vysledek Jyxa ovlivnit, ale to konec koncu neni starosti autora ani uzivatelu... to jen ja jsem napnuty, jak to dopadne u dalsich dotazu, ktere uz casove budou spadat do obdobi zmen algoritmu a zmensene databaze.
Re: Super
celé vláknoAsi ohledne tech zmen - testoval jsem si ted cca ctyri z tech zbylych sedmi dotazu a odpovedi jsou (co mohu narychlo posoudit) zhruba stejne - dostaly by zrejme shodne hodnoceni jako koncem zari.
Re: Super
celé vláknoRe: Super
celé vláknoRe: Super
celé vláknoRe: Super
celé vláknoRe: Super
celé vláknoRe: Super
celé vláknoRe: Super
celé vláknoMne se zda, ze ohybat docela potrebujete - v tech trech napsanych radcich jste si zaohybal nejmene tricetkrat :)
A jak vite, delaji to i ostatni, kdyz pisi sve stranky. A tak pokud se u vyhledavace, ktery ohybat neumi, netrefite do presne stejneho tvaru jaky pouzil autor stranky, tak ji proste nenajdete - coz muze byt skoda, pokud prave ona obsahovala kyzenou informaci.
Re: Super
celé vláknoOsobne (nejsem odbornik, jen hobbik) si myslim, ze ohybani by pomohlo, kdyby ten stroj jeste vedel, co clovek dotazem mysli. Jinak to jen zbytecne zveda recall a precision jde jak nerizena strela dolu.