Internet Info, s.r.o. Lupa Měšec Podnikatel Root Zdroják DigiZone Slunečnice Vitalia TopDrive KupDnes Navrcholu NovýTarif Dobrý web Weblogy Woko Jagg Computer.cz SK: MojeLinky

Názory k článku
Který vyhledávač je nejlepší?

Martin
Martin (neregistrovaný)
13. 12. 2004 6:58 Nový

Nic nového

celé vlákno
Žádné velké překvapení, já používám nejlepší "český" vyhledávač již několik let :-)
meky
meky (neregistrovaný)
13. 12. 2004 7:58 Nový

Subjektivní pohled

celé vlákno
Myslím, že výběr vyhledavače je do značné míry dán subjektivním názorem. Mě třeba Morfeo vůbec nevyhovuje. Ten interval indexace stránek je oproti jyxu mnohem delší.

Na portálech nevyhledávám už vůbec. Tu všelijakou bezúčelnou a nerelevantní reklamu nepotřebuju už vůbec.
Borek
Borek (neregistrovaný)
13. 12. 2004 8:40 Nový

Není divu

celé vlákno

"Do pořadí výsledků nejsou započteny reklamní odkazy."

To je docela škoda. Tím spíš pokud nejsou jako reklama označené a o to víc pokud uživatel pod nimi najde "doporučujeme". Na subjektivní dojem z nalezeného výsledku to má dle mého názoru velký vliv.

"To, že tu máme zákon o regulaci reklamy, asi ještě nezaznamenaly." (portály)

To mnohé vypovídá o jejich přístupu k etice a hodnotám. Na druhou stranu pokud někdo slovy zástupce ředitele seznam.cz - Tomáše Kapalína tvrdí, že už nedokáže rozlišovat mezi Seznam.cz a trhem ... pak jsou ostatní z obliga (jsouli tak malí nezbývá jim nic jiného než dělat totéž nebo jít dělat něco úplně jiného). Skoro je mi jich líto, že jsou do toho natlačeni.

"Portály před standardní výsledky přidávají nalezené sekce ve vlastním katalogu a samotné odkazy z katalogu."

Co jim také zbývá. Katalogy odchází do věčných lovišť a s tím se těžko smiřuje. Podívejte se na Seznam.cz. Od excesu se spuštěním Nového Seznamu uběhl už rok a půl!! a téměř nic se nezměnilo! Jestli tohle není důkaz odumírání katalogu, pak už nic!

Borek
Borek (neregistrovaný)
13. 12. 2004 8:54 Nový

Re: Není divu

celé vlákno
Ps. nechte si vyhledat v Seznamu, Centru a Atlasu slovo prodej her. Na tom je vidět, že někdy jsou opravdu bližší peníze než relevance ... tedy košile než plášť.

viz. Seznam, první výsledek:

E-MAILOVÉ NOVINY pro podnikatele, jednatele a ředitele Nové okno

Zdarma aktuální informace z oblasti řízení firmy, práva a investování prostřednictvím Vašeho e-mailu. Nejnovější legislativní zprávy, články na aktuální témata, vzory smluv, adresáře úřadů, poradenský servis, rejstříky, sazby a poplatky atd.
(Seznam doporučuje)

Relevance naprosto nulová .... Seznam.cz najdu tam co neznám. Atlas.cz je na tom nicméně mnohem hůř. Jen Centrum.cz v zásadě vrátilo něco co mi přijde OK a "porozumělo" tomu co chci já a ne někdo kdo jen měl dost peněz aby mi jima cpal nesmysly přímo pod nos.
Daniel Hejduk
Daniel Hejduk (neregistrovaný)
12. 1. 2005 17:31 Nový

Re: Není divu

celé vlákno
Katalogy odchází do věčných lovišť a s tím se těžko smiřuje. - To bych nerad. Odkud vyhledávače berou stránky? Myslím, že roboti najdou odkazy hlavně v katalogu. Nebo se mýlím?
Martin
Martin (neregistrovaný)
13. 12. 2004 8:48 Nový

msn search

celé vlákno
Škoda, že jste taky do testu nezařadili http://search.msn.com/ Já sice produkty microsoftu dvakrát nemusím, ale msn search vrací často relevantnější odkazy než google...
Standa
Standa (neregistrovaný)
13. 12. 2004 8:50 Nový

skloňování

celé vlákno
Myslím že Jyxo doplatilo na svůj boj za nejvyšší počet nalezených odkazů. Jen u Jyxa je možné považovat při ohnutí slova byt za relevantní odkaz "stranky byly presmerovany " které se ukazují jako první. No a pak hledejte v realitách.
Prostě čím všeobecnější slovo tím větší zmatek. Jsem - Cos, Kdy atd.
Borek
Borek (neregistrovaný)
13. 12. 2004 8:59 Nový

Re: skloňování

celé vlákno
Jak kdo si to udělá je ale v zásadě jedno. Důležitý je výsledek. Kdyby v Google byla desetina odkazů co má Jyxo, ale výsledek by byl, že Google mi najde co hledám a Jyxo sice bude hledat "všude", ale najde to co najde... preferuji Google.
Michal Illich
Michal Illich (neregistrovaný)
13. 12. 2004 11:59 Nový

Re: skloňování

celé vlákno
Díky za upozornění.

Při zadání 'byt' Jyxo skutečně nejdřív doplnilo diakritiku a pak časovalo výsledné 'být'. Šlo to sice lehce vypnout jedním kliknutím, ale máte pravdu, že to nebylo ideální.

Mimochodem, Morfeo tím v jisté míře trpí také (na dotaz byt odpoví i BUDU.cz, STE.cz, JSI.cz, atd.).

Každopádné na Jyxu je to již opravené.
Děkuji, to byla dobrá připomínka. Jen více takových! - naše maily (viz stránka z hlavičky tohoto komentáře) jsou přístupné stále.
David Špinar
David Špinar (neregistrovaný)
13. 12. 2004 9:02 Nový

Diakritika ve vyhledávání?

celé vlákno
Jyxo ve vyjádření v článku píše: "v praxi je asi polovina položených dotazů bez českých znaků."

Dívám do našich kampaní v AdWords, kde máme pokrytá slova s diakritikou i varianty bez diakritiky, a rozhodně mi nepřijde, že je to polovina. Spíše bych to označil mnohem menším podílem.

Může Jyxo tuhle informaci nějak rozvést? Nepočítá do této skupiny i slova, která prostě diakritiku nemají? (tj. např. hrnek, web, design?)
Michal Kára
Michal Kára (neregistrovaný)
13. 12. 2004 14:42 Nový

Re: Diakritika ve vyhledávání?

celé vlákno
Odhadoval bych, ze je to tim, ze na Jyxu je stale pomerne velky pomer "techies" (jako treba ja), kteri pisi ze zvyku bez diakritiky.
Petr Staníček
Petr Staníček (neregistrovaný)
13. 12. 2004 10:13 Nový

Nekopejte a neprskejte

celé vlákno
Pane Illichu, kdybyste místo toho agresivně obranného postoje aspoň malinko uznal, že kritika může být oprávněná, udělal byste lépe (a to nejen pro image Jyxa). Osobně jsem byl docela dlouho zarytý "Jyxista" - ale poté, co mi Jyxo několikrát nenašlo VŮBEC NIC (nebo jen půl stránky nerelevantních odkazů), dávám raději přednost Morfeu. Resp. abych byl přesný - používám takřka výhradně Google a tyto české stroje jen tehdy, když potřebuju skloňovat a hledat různé varianty diakritiky.

A vyhledávání obrázků na Jyxu je ostudná kapitolka sama pro sebe...
Michal Illich
Michal Illich (neregistrovaný)
13. 12. 2004 11:02 Nový

Re: Nekopejte a neprskejte

celé vlákno
Myslím, že jsem udělal přesně to, co chcete - uznal (částečnou) opravněnost kritiky (viz třetí bod). Ale pouze v takové míře, jakou si zaslouží. Ten test skutečně testuje jen vyhraněnou část dotazů, a to nikoliv takovou, jakou pokládá většina uživatelů. Pokud někdo otestuje třeba desetinu toho, co by mělo být testováno, a vydává to za test vyhledavače (tedy jaksi "všeho"), tak se prostě ozvat musím.

Agresivního tam nevidím nic, jsou to bez vyjímky věcné argumenty.
Z té stránky vyjádření má snad jedno jediné slovo ("troufalé") slovo jakýsi emotivní náboj. Vzhledem k tomu, že je to doložené konkrétními argumenty, tak si myslím, že je na místě.

Prošel jsem si mailbox a tenhle rok jste nic nepsal - když jste nic nenašel, mohl jste to ohlásit. Samozřejmě bychom to řešili a mohl jste být spokojenější vy i my.
Petr Staníček
Petr Staníček (neregistrovaný)
13. 12. 2004 11:20 Nový

Re: Nekopejte a neprskejte

celé vlákno
Absolutně netuším, proč bych měl něco takového dělat. Když je to služba jediná, kterou mám k dispozici, tak ano - obracím se na provozovatele a snažím se řešit nedostatky, rotože sám chci, aby to fungovalo. Ale když to není služba nijak unikátní a vedle sedí konkurence, tak jdu prostě jinam - nevím, proč bych se měl zdržovat a trápit řešením VAŠICH problémů.

A vlastně ani nechápu, proč jsem ten předchozí příspěvek psal. A nenechal vás, ať se dál hádáte se všemi, kazíte si (tj. Jyxu) už tak pošramocenou image a působíte tak nevstřícně. Vždyť co mně je vlastně do toho. Vlastně lituju, že jsem ten příspěvek vůbec napsal.
madmax
madmax (neregistrovaný)
13. 12. 2004 21:27 Nový

Re: Nekopejte a neprskejte

celé vlákno
Stve Vas to hodne, ze? I nam je to lito...
Bochi
Bochi (neregistrovaný)
13. 12. 2004 22:27 Nový

Re: Nekopejte a neprskejte

celé vlákno
Pixy, asi jste se dnes spatne vyspal. Ten vas prispevek mi prijde naprosto zbytecne utocny, dalo se to rict i jinak, ne?
Petr Staníček
Petr Staníček (neregistrovaný)
13. 12. 2004 23:31 Nový

Re: Nekopejte a neprskejte

celé vlákno
Omlouvam se, ze jsem se podepsal a nenapsal ho jako nejaky anonym. Ja jsem ale opravdu nechtel nekoho chlacholit a byt vstricny. Napsal jsem to jako normalni radovy nespokojeny zakaznik, ktery byl kvuli sve nespokojenosti s poskytovanymi sluzbami nucen (ac nerad) ke konkurenci, a ted musi sledovat, jak se provozovatel stale zarputile snazi zakryt si oci a stale se obhajuje.

A me vadi principialne, kdyz si "zakaznik" na neco stezuje a "dodavatel" se mu jen snazi vysvetlit, jak se plete a ze pravdu ma prece ON. I kdyby ji stokrat mel, tak pred zakaznikem se maji sklapnout kramfleky, pravdu ma vzdycky zakaznik, sluzebnik, usluha, poctivec.
Michal Illich
Michal Illich (neregistrovaný)
13. 12. 2004 23:56 Nový

Re: Nekopejte a neprskejte

celé vlákno
Nebyl jste k ničemu donucen. Řekněme, že jste byl z nějakého důvodu nespokojen. Já bych byl rád, kdybyste v takovém případě napsal a řekl nám konkrétně s čím, jinak se to totiž nedovíme. Rozhodl jste se nenapsal a jít jinam. Ok, i to je naprosto regulérní rozhodnutí. Já z něj sice radost nemám, ale vy nejste povinen nám s čímkoliv pomáhat, to je jasné.

Nerozumím tomu, že mluvíte o zakrývání očí. Pořád dokola tu naopak vyzývám všechny, ať nám posílají konkrétní případy, kdy se jim cokoliv nelíbilo. Chceme je znát, řešíme je, pomáhá to jak nám, tak uživatelům.

Pokud se pamatuji, tak jsem žádnému uživateli neřekl, že se plete (tedy že je nespokojen nějak "špatně"). Padly zde tuším dvě konkrétní připomínky z řad uživatelů. Jedné (byt) jsem dal za pravdu a problém okamžitě odstranil. U druhé (ten dotaz mp3) jsem také s uživatelem souhlasil a pracujeme na vylepšení.

Jediné moje výtky jsou vůči *testu*. On totiž takový test má jistá pravidla. Nevymyslel jsem je já, ony jsou známé už desítky let, dobře popsané, vyučují se na vysokých (a některých osvícených středních) školách. Tento zmíněný test se jimi neřídil a výsledky jsou z nereprezentativního vzorku neopodstatněle zobecněné. Není ani jasné, jak autor dotazy vybral. Přál bych si, aby se zde objevil konečně test, který je nezávislý a dobře zvládnutý. Kupodivu si myslím (možná naivně), že tato diskuse by k němu mohla přispět.



Petr Svestka
Petr Svestka (neregistrovaný)
14. 12. 2004 13:43 Nový

Re: Nekopejte a neprskejte

celé vlákno
No ja souhlasim s panem Illichem v tom, ze ten test je nedokonaly, dalo by se rici odflaknuty (jako ty predesle).

Portaly a vyhledavace maji slozite funkce na vyhledavani ve svych databazich a hodnotit jejich "uspesnost" na zaklade necele desitky "dotazu" mi prijde docela scestne.
Skoro to vypada, ze ten test delal stejny clovek jako test "Zvednou Vam operatori telefon na lince 800 ..." (nevim jak znel presny nazev) co tu probehl pred par dny.

Takovehle "testy" by se mi jako provozovateli dane sluzby vubec nelibily a byt jimi, tak se proti tomu ostre ohradim.

Je to jakoby nekdo udelal "test" s automobilem, a behem testu otestoval kvalitu svetlometu, blinkru, jak dobre sedne volant do ruky a kolik to auto stoji a jakou ma spotrebu. A v pripade ze mi volant nesedne, tak to zkritizuji.

S takovym pristupem bude Lupa brzo celit zalobe ...
Jirka Lahvička
Jirka Lahvička (neregistrovaný)
13. 12. 2004 10:20 Nový

Metodika

celé vlákno
Pokud už testovat vyhledávače, tak dotazy, které lidé používají (co vyjít třeba z http://www.jyxo.cz/top/ ?), a dostatečným počtem - z 8 dotazů může dělat závěry jen člověk, který nemá nejmenší ponětí o statistice.
Před provedením testu je třeba jednoznačně definovat, které nalezené stránky jsou ty správné, to nemůže vycházet pouze ze subjektivních pocitů autora.
Maximální možný počet reklamních pozic vůbec nevypovídá o tom, kolik jich uživatel uvidí při průměrném dotazu.
Roman Pudil
Roman Pudil (neregistrovaný)
13. 12. 2004 11:13 Nový

Re: Metodika

celé vlákno
S navrhem vychazet pri vyberu dotazu z http://www.jyxo.cz/top/ to nemyslite vazne, ze ne? V prvnich 15 se 8x objevuje tematika sexu, ostatni slova jsou pro jakykoliv test naprosto zavadejici...

Jirka Lahvička
Jirka Lahvička (neregistrovaný)
13. 12. 2004 11:24 Nový

Re: Metodika

celé vlákno
Myslím to vážně. Nikdo neříká, že testovací výraz má být třeba www.seznam.cz, ten opravdu mnoho neotestuje, ale pokud lidé houfně hledají sex, tak by to mělo být součástí testu. Moje představa o testovacích výrazech je něco jako "horoskopy", "erotické povídky", "ester ládová", "slovník cizích slov", "java hry", "spanking", "autobazary", "mapa evropy", "pohlednice", "porno video", "O-Zone", "maturitní otázky" (vše vybráno z Jyxo TOP 500).
Dusan
Dusan (neregistrovaný)
13. 12. 2004 12:04 Nový

Re: Metodika

celé vlákno
Tim se dostavame k otazce: "Ktery vyhledavac je NA CO a PRO KOHO nejlepsi?" Jestli pro pornonadsence, sekretarku, IT experta, pravnika, ... Kazdy ma jine pozadavky, kazdemu muze vyhovet jiny vyhledavac.
Pri vami navhovanem zprumerovani je pri tak malem poctu dotazu otazkou statisticka relevantnost (vybrane dotazy predstavuji 2% z TOP 500, coz neni prilis vypovidajici skupina. Jina dve procenta mohou dat uplne jine vysledky. Pokud by se to takhle melo udelat a mit nejakou realnou informaci o kvalite (a ne o "stesti" daneho vyhledavace), bylo by potreba dle meho nazoru vybrat minimalne padesat spise vice slov a obratu. Ale takovou dukladnou analyzu uz by vam II prodalo, nikoliv nalupovalo. ;-)
Jirka Lahvička
Jirka Lahvička (neregistrovaný)
13. 12. 2004 12:11 Nový

Re: Metodika

celé vlákno
Souhlasím s tím, že test by se měl provádět minimálně na několika stech výrazů zastupujících všechny typy dotazů. Uvedené příklady slouží spíš jako ilustrace toho, jak vypadají běžné reálné dotazy namísto testovaných nesmyslů.
Roman Pudil
Roman Pudil (neregistrovaný)
13. 12. 2004 14:15 Nový

Re: Metodika

celé vlákno
Stale nechapu, proc by se testovaci vyrazy mely brat z nejakeho top listu toho ci onoho serveru? Proc by mel autor testovat prave tyto? To je prece naprosta blbost! Vyhledavace musi byt schopny vyhledat odkazy na "vsechny" vyrazy, ktere uzivatel pro vyhledani zada. Tim nerikam, ze pocet testovacich vyrazu byl dostatecny (spis naopak) a ze jejich vyber byl nejstastnejsi.

Navic spousta techto TOP vyrazu je tzv. sezonnich (viz. Ester Ladova (nemusim snad komentovat), java hry (pred Vanoci), mapa evropy (pred letni/zimni dovolenou) atp.
Jirka Lahvička
Jirka Lahvička (neregistrovaný)
13. 12. 2004 14:24 Nový

Re: Metodika

celé vlákno
Testovat vyhledavače na výrazech, které lidé skutečně hledají, mi jako naprostá blbost nepřipadá.
Michal Kára
Michal Kára (neregistrovaný)
13. 12. 2004 14:57 Nový

Re: Metodika

celé vlákno
Tak si polozte vyhledavacum takovy dotaz jako treba "superstar" (jednu dobu byl mezi nejvyhledavanejsimi) nebo "sex" a zkuste zhodnotit, ktery je lepsi... Vsadil bych se, ze dojdete k zaveru, ze je to proste nehodnotitelne.

Viz tez moje uvahy v 1. dilu clanku "Test vyhledavacu pragmaticky".
JeromeHeretic
JeromeHeretic (neregistrovaný)
13. 12. 2004 22:09 Nový

Re: Metodika

celé vlákno
Me to naopak pripada jako ta uplne nejvetsi kravina, jakou clovek pri testu vyhledavace udelat muze.
Rekl bych, ze clovek v nezanedbatelnem mnozstvi pripadu hodla pouzit vyhledavac ve chvili, kdy se pokousi vyhledat cosi o cem se domniva, ze je to informace, kterou nemuze jinak "trivialne" ziskat. Takze naopak, ne top10, ale button 1000 dotazu je vhodny reprezentativni vzorek na testovani kvality vyhledavace. Teprve vyhledavac, ktery dokaze najit "fajfku a pantofle Alberta Einsteina", "navod na vyrobu vodikoveho motoru z mixeru a pytliku lentilek", eventuelne vrati relevantni odkaz i pri zadani dotazu "hacknuti bankomatu pomoci krabicky zapalek" je v mych ocich tim jedinym spravnym vyhledavacem. IMHO na tech top10 staci ty prasive katalogy...
Bochi
Bochi (neregistrovaný)
13. 12. 2004 22:39 Nový

Re: Metodika

celé vlákno
Jiri, vam to mozna tak nepripada, ale nesmyl to je. Kazdy, kdo nekdy aspon trochu pricich k matematicke statistice vi, ze jediny spravny vzorek ne ten zcela nahodne vybrany (krome toho je samozrejme dulezita dostatecna ve3likost testovaciho vzorku). Takze zadne top 10 ani top 1000. Potazmo by se dalo cekat, ze na "top" vyrazy budou vyhledavace nejakym zpusobem optimalizovane, coz by mohlo vysledky dost zkreslit.
Takze nevidim jedine opodstatneni "testovat na vyrazech, ktere lide skutecne hledaji". Lide muzou hledat prakticky cokoliv, takze testovat byste mel nahodny vyber toho "cokoliv" (pro stouraly: je samozrejme vhodne omezit se na "smysluple" dotazy, tedy netestovat treba na "ubnh834hchw8a91wfx"). Zvolene vyrazy by pak mohly nanejvys odrazet realne zastoupeni poctu slov v jednom vyrazu a mozna jeste zastoupeni dotazu s diakritikou.
No a pak by asi bylo vhodne vygenerovat urcity pocet dotazu se zamernymi preklepy, ovsem takto bych spise vytvoril novy vzorek dotazu, ktery by o zkoumanem vyhledavaci cosi vypovidal, rozhodne bych ho neslucoval se vzorkem puvodnim.
Zustava tedy uz jen metodicka otazka, jak takovy nahodny vzorek dotazu ziskat.
Jirka Lahvička
Jirka Lahvička (neregistrovaný)
14. 12. 2004 9:21 Nový

Re: Metodika

celé vlákno
K matematicke statistice jsem pricichl. Vybrane vyrazy z TOP treba 1000 se nahodnemu vzorku blizi daleko vice nez vyrazy pouzite v testu. Ziskani nahodneho vzorku dotazu, pokud by byl recenzent ochoten testovat na stovkach vyrazu, je trivialni - staci odchytit kazdy n-ty dotaz polozeny vyhledavaci.

"Takze nevidim jedine opodstatneni "testovat na vyrazech, ktere lide skutecne hledaji"."
Test na nahodnem vzorku je ale presne toto.
jk
jk (neregistrovaný)
14. 12. 2004 9:42 Nový

Re: Metodika

celé vlákno
"Vybrane vyrazy z TOP treba 1000 se nahodnemu vzorku blizi daleko vice nez vyrazy pouzite v testu."

Tak to je temer statisticky oxymoron :-) Prosimvas, kde jste k te statistice pricichl?

"Ziskani nahodneho vzorku dotazu, pokud by byl recenzent ochoten testovat na stovkach vyrazu, je trivialni - staci odchytit kazdy n-ty dotaz polozeny vyhledavaci."

Nesmysl.

a) Vzorek je treba porizovat nahdonym vyberem z logu alespon za tyden, aby se vyloucily ruzne casove vlivy. (dotazy v 23.00 muzou vypadat jinak, nez v 8.30)

b) Vsadil bych se, ze vysledky budou dobre konvergovat uz u desitek mereni.
Petr Jakubec
Petr Jakubec (neregistrovaný)
20. 12. 2004 11:29 Nový

Re: Metodika

celé vlákno
>(pro stouraly: je samozrejme vhodne omezit se na "smysluple" dotazy, tedy netestovat treba na "ubnh834hchw8a91wfx").

tak momeeent! to mi pripomina me nejcastejsi vhledavani procesouru dle vyrobniho / typoveho cisla... to ma asi stejny smysl jako tento patvar a presto to mas jasny kontextovy vaznam.

apropos napriklad funkcionalita jyxo me treba absolutne nezajima, protoze bohate mi staci jeho skvele vyhledavani v usenet konferencich - tzn. jednoucelove vice-mene specialni pouziti...
PJ
Tomáš Hodboď
Tomáš Hodboď (neregistrovaný)
13. 12. 2004 14:58 Nový

Re: Metodika

celé vlákno
> Před provedením testu je třeba jednoznačně definovat, které nalezené stránky jsou ty správné, to nemůže vycházet pouze ze subjektivních pocitů autora.

??? Opravdu? A jak byste to chtěl jednoznačně definovat?

"horoskopy", "erotické povídky", "ester ládová", "slovník cizích slov", "java hry", "spanking", "autobazary", "mapa evropy", "pohlednice", "porno video", "O-Zone", "maturitní otázky"

A jak chcete u těchto slov jednoznačně určit, které odkazy uspokojí vyhledávání uživatele, průměrného uživatele (a to plošně!).

Souhlasím, že testovaných dotazů mělo být více, také jsem jich mnohem více testoval. Z vašeho seznamu to např. byly horoskopy, něco v souvislosti s auty a ještě myslím mapa evropy. Jenomže do výsledné tabulky jsem je nezařadil z jednoho prostého důvodu. Např. při hledání oné mapy evropy mi google vrátil nějaký český mapový server, který mi postačoval, ale ostatní, např. Jyxo nějaký obrázek punkové mapy evropy a prodej nějakých map s jejich náhledy. A měl jsem brát tyto odkazy za relevantní? Někomu postačit mohli a někomu ne. Do seminárky bych je opravdu použít nemohl. Ale psal jsem o tom již v úvodu článku v metodice.

Jirka Lahvička
Jirka Lahvička (neregistrovaný)
13. 12. 2004 15:10 Nový

Re: Metodika

celé vlákno
Tzn. nejlepší je ten vyhledávač, který vrací nejlepší výsledky pro velmi specifickou a v praxi nehledanou skupinu dotazů, která se recenzentovi dobře hodnotí? Nezávisle na tom, že drtivá většina dotazů vypadá úplně jinak a kvalita jim odpovídajících výsledků nejspíš vypadá úplně jinak?
Tomáš Hodboď
Tomáš Hodboď (neregistrovaný)
13. 12. 2004 19:24 Nový

Re: Metodika

celé vlákno
A můžete mi tedy prosím říci, jak chcete hodnotit např. vámi navrhovovaná slova jako o-zone, autobazary atd.? Hledáte o o-zone článek, oficiální stránku, recenzi, neoficiální stránku, texty písní, ...? Jak to podle vás mám nesubjektivně hodnotit? Vyhledávač, který nenajde ani jedno z toho a nabídne odkazy zcela mimo mísu je špatný vyhledávač, ale jak mám hodnotit ty, co to najdou?
Michal Kára
Michal Kára (neregistrovaný)
13. 12. 2004 19:45 Nový

Re: Metodika

celé vlákno
> Tzn. nejlepší je ten vyhledávač, který vrací nejlepší výsledky pro velmi
> specifickou a v praxi nehledanou skupinu dotazů, která se recenzentovi dobře
> hodnotí?

I tak by se to dalo rict ;-) Predne je nutno hodnotit neco, co vubec lze hodnotit. A to velke mnozstvi vyrazu z Top N neni, vetsina jich je "najdi neco o ...". Obecne pokud nezname motivaci tazatele, muzeme vyhodnotit jen velmi malo dotazu [z logu] (vyjimku tvori pouze dotazy typu "výsledek finále ME 2004").

A s tim, ze test testoval "uzkou skupinu dotazu": Podle p. Illicha tvori 2-3 slovne dotazy 54% dotazu na vyhledavac a vetsina polozenych dotazu do tohoto rozmezi smeruje (kdyz vynechame predlozky, tak jeste vice). Jedine, co je mozne vytknout testu je prave absence jednoslovnych dotazu - ale to podle meho uzce souvisi prave s dosti omezenou hodnotitelnosti vysledku podobnych dotazu.

Vemte si, kdyby se podle vasi metodiky testovaly treba auta. To bysle se docetl, jak auto popojizi v mestske zacpe, jede plynule po meste, po silnici... Za normalniho provozu je "projev" vetsiny aut velmi podobny. Stejne tak si troufam tvrdit, ze vysledky vyhledavacu na "obycejne" dotazy budou +/- srovnatelne (s prihlednutim k ruznym motivacim tazatelu). Auta se v testech testuji hodne v situaci, kdy jedou "na limit", ackoli se takove podminky v beznem provozu vyskytuji zridka. A totez IMHO plati o vyhledavacich - jejich opravdova kvalita se projevi az kdyz se ptate po dost konkretni informaci.
Tomáš Hodboď
Tomáš Hodboď (neregistrovaný)
13. 12. 2004 20:11 Nový

Re: Metodika

celé vlákno
děkuji, přesně tak, velmi pěkně řečeno
JeromeHeretic
JeromeHeretic (neregistrovaný)
13. 12. 2004 22:13 Nový

Re: Metodika

celé vlákno
Amen
Michal Illich
Michal Illich (neregistrovaný)
13. 12. 2004 22:26 Nový

Re: Metodika

celé vlákno
> Podle p. Illicha tvori 2-3 slovne dotazy 54% dotazu na vyhledavac

Jistě, a proto by mělo být v testu cca 54% takových dotazů (a totéž platící pro ostatní počty).
Stejně tak by měl poměr dotazů s diakritikou a bez odpovídat tomu, jak je uživatelé pokládají.
Totéž s typem dotazů.
Totéž s hledaným obsahem (stránky, obrázky, hudba, atd.).
Totéž s ... atd. atd.

Prostě test by měl odpovídat skutečnému chování uživatelů.
Tento test to bohužel nesplňoval.
To je v podstatě vše, co jsem říkal v tom druhém bodu vyjádření.

-
> Auta se v testech testuji hodne v situaci, kdy jedou "na limit"

Moc tyhle pořady nesleduji, ale opravdu se třeba rodinná auta testují při závodění, offroad jízdě nebo brodění? To jistě ne :) - co jsem si všiml, tak se v porovnání aut uvádějí takové nudné věci jako je objem zavazadlového prostoru či nastavitelnost sedaček. Prostě to, co uživatele zajímá a co využívají.




Michal Kára
Michal Kára (neregistrovaný)
14. 12. 2004 9:10 Nový

Re: Metodika

celé vlákno
Ja s tim v podstate souhlasim, jen upozornuji, ze nevidim jinou moznost jak takovy test provest, nez vzit N statisticky korektnich vzorku uzivatelu. Nakazat jim, at pouziva kazda jiny vyhledavac a postavit k nim draba, ktery bude cekat az budou neco hledat (ze sve iniciativy). A bude merit, jak dlouho jim trva nalezeni informace, pripadne jak moc jsou spokojeni s vysledkem.

Sam asi uznate, ze tento test je bez velkeho grantu tezko uskutecnitelny. Pokud to nebudu delat takto, tak nelze IMHO udelat _vyznamne_ lepsi test, nez je tento (nebo muj pred rokem, ktery mel, BTW, propracovanejsi metodiku hodnoceni).

Veskere pokusy o dotazovani se dotazy z logu ztroskotavaji na nemoznosti hodnotit alespon trochu objektivne nalezene vysledky.

Ad ty testy: Treba velikost zavazadloveho prostoru je spis parametr auta, neexistuje "nejlepsi" hodnota - nekdo uprednostni auto s vetsim, nekdo s mensim. Testuji se treba takove veci jako prudke brzdeni, zrychleni 0-100, ostry prujezd zatackami, "losi test", hodnoti se vysledky crashtestu (jak casto bourate?). Naopak spolehlivost zajima drtivou vetsinu zakazniku, ale hodnoti se jen zridka (a ve specialnich testech), protoze je dost obtizne ji "merit".
Michal Illich
Michal Illich (neregistrovaný)
13. 12. 2004 15:11 Nový

Re: Metodika

celé vlákno
Na ten dotaz Jyxo odpoví na obou předních místech mapami Evropy:

http://jyxo.cz/s?s=mapa+evropy&d=cz

na té první stránce si můžete dokonce vybrat, zda chcete automapu, mapu evropských PSČ, mapu EU, panoramatickou mapu, železniční sítě (vše evropa).

Nic punkového tam nevidím.

Nemyslel jste náhodou "Metalová mapa Evropy - Nejrozsáhlejší databáze evropských kapel extrémně metalových žánrů", což je první odkaz na Morfeu?


Tomáš Hodboď
Tomáš Hodboď (neregistrovaný)
13. 12. 2004 15:45 Nový

Re: Metodika

celé vlákno
Mně Jyxo našel nástinné mapy evropy k prodeji, do seminární práce bych je použít nemohl, i když pro někoho mohou být dobré. Proto jsem takovéto dotazy do tabulky nepočítal. S tou metalovou mapou Evropy jste měl pravdu, to jsem se spletl, bylo to u Morfea, ale to na druhém místě nabídlo komplexní mapy evropy na idnesu. Ale nechci se tady hádat o jednotlivých dotazech. Takto byly vybrány a nevidím důvod, proč by je nemohli uživatelé takto vyhledávat.
Zednář
Zednář (neregistrovaný)
13. 12. 2004 18:00 Nový

Re: Metodika

celé vlákno
"Pro někoho mohou být dobré"

Pro kolik procent lidí hledajících dotaz "mapa evropy" je vhodná mapa metalových skupin? Takoví lidé zadají trochu jiný dotaz... Podle mého názoru lze metodiku určit celkem snadno.
Czskittle
Czskittle (neregistrovaný)
13. 12. 2004 18:16 Nový

Re: Metodika

celé vlákno
Ono to imho není tak jednoduché, je spousta dotazů, u kterých nelze tak jednoduše určit, co je to "správné". Řešením bude až personalizované vyhledávání.
JeromeHeretic
JeromeHeretic (neregistrovaný)
13. 12. 2004 22:20 Nový

Re: Metodika

celé vlákno
Tomuto dotazu se da oponovat dotazem "kolik lidi pri zadani dotazu 'mapa evropy' hleda obchod, kde si takovou mapu muze zakoupit?" Uznavam tedy, ze vetsina tech lidi asi nehleda metalovou mapu evropy :-), nicmene pokud morfeo v tomto pripade vratilo odkaz na stranku s mapou, pak mi vysledek nerelevantni nepripada.
Tomáš Hodboď
Tomáš Hodboď (neregistrovaný)
13. 12. 2004 22:30 Nový

Re: Metodika

celé vlákno
Nemluvil jsem ani tak o relevantnosti, ale o tom, jak může být daný odkaz prospěšný pro toho, kdo dotaz zadává. Tzn. že někdo může hledat nástěnnou mapu evropy, někdo podklady pro seminárku. Pro prvního bude odkaz použitelný, pro druhého nikoli, i když oba zadali stejný dotaz.
Michal Illich
Michal Illich (neregistrovaný)
13. 12. 2004 22:41 Nový

Re: Metodika

celé vlákno
Jistě, mluvit o konkrétních dotazech nemá moc smysl, to bychom tu byli do konce týdne.

Jde bohužel o to, že jste si prostě ty dotazy vybíral. Nemám důvod vám nevěřit, že jste měl při tom čestné úmysly, ale přece když něco testujete, tak nejde v průběhu testu si říct: "hmm, safra, tady to Morfeo hází nějaké metalové kapely, já nevím, jak to hodnotit, tak škrtnu radši celý dotaz." (opakuji, že nejde o debatu o tomto konkrétním dotazu, ten vem čert, použil jsem jej jen jako příklad. Jde o princip, že v průběhu testu děláte změny potom, co jste prozkoumal výsledky jednotlivých vyhledavačů). Z necelých třiceti dotazů, které jste vyzkoušel, se jich v testu objevilo osm. Já nevím, proč jste vybral právě tyto dotazy, neví to ani čtenáři, ani Lupa, jen vy.





j.
j. (neregistrovaný)
13. 12. 2004 10:49 Nový

Velka DB, ale NEaktualni

celé vlákno
>Nejprve k jedné nepravdě, k tvrzení, že Jyxo má "oproti konkurenci menší databázi".

>Jak si čtenář může lehce zjistit, pro těch osm autorem vybraných dotazů vrátí Jyxo v šesti případech více odpovědí než Google a v sedmi více než Morfeo.

Casto se mi stava, ze jyxo sice najde hromadu stranek, ale jsou hluboce neaktualni - stranka nenalezena a podobne. V indexu ma velkou cast stranek, na kterych byl jyxobot pred hodne dlouhou dobou - tak dlouho, ze jiz stacily zaniknout.
noname
noname (neregistrovaný)
13. 12. 2004 11:31 Nový

no já nevím

celé vlákno
v tomto si troufnu z velké části souhlasit s Michalem Illichem.
1. uživatelé opravdu nezadávají takováto slova a fráze. Bylo by podstatně lepší vzít si databázi top dotazů, která je pokládána na seznamu a jyxu (určitě by Michal pomohl) a vzít vybraných deset z první stovky.
2. nesouhlasím s Michalem, že uživatelé zadávají slova bez diakritiky - to je specifikum Jyxo.cz, který používají vesměs zkušenější uživatelé než třeba google či seznam - právě seznam by mohl být pro toto zjištění zajímavý. Nicméně určitě je to nějakých 20-30% dotazů (můj odhad z AdWords) a imho by to v testu mělo být zohledněno (tj. stejný dotaz položený bez diakritiky s 30% váhou)
3. uživatelé také často nepokládají slova v prvním pádu atd.

Můj osobní názor - Seznam nesnáším - výsledky až na na druhé stránce, vše předtím nesouvisející reklama. Morfeo hrůza. Jyxo - je z nich nejaktuálnější, na některé specifické dotazy jej používám (když potřebuji skloňování atd.). Jinak je také mým favoritem Google, ovšem je relativně neaktuální, zejména co se týče popisků, neumí vyhledávat v českých textech (ohýbání slov) a nejde to ani řešit nějakými otazníky či asterixy a to mě na něm dost vadí.
Bochi
Bochi (neregistrovaný)
13. 12. 2004 22:47 Nový

Re: no já nevím

celé vlákno
Vas zpusob vyberu testovacich slov je nesmyslny a uz vzhledem k tomu, z jake oblasti je drtiva vetsina slov z top100, je jasne, ze byste tim pokryl jen uzkou (ac u uzivatelu internetu nejpopularnejsi) oblast. Viz take muj prispevek vyse.
Leni Reifestahl
Leni Reifestahl (neregistrovaný)
13. 12. 2004 11:56 Nový

atlas

celé vlákno
proti Atlas-u navíc pracuje jeho TEMNÁ minulost
jk
jk (neregistrovaný)
13. 12. 2004 13:10 Nový

Statistika

celé vlákno
Aneb uvedení některých omylů na pravou míru.

Vůbec není jasné, že "nejčastěji pokládané dotazy" jsou reprezentativní. Dotazy na vyhledávač mají nepochybně nějaké frekvenční rozdělení - které může vypadat třeba takhle (uvedená čísla jsou zvolená náhodně)

top 100 ... 10% dotazů
top 500 ... 35% dotazů
top 1000 ... 45% dotazů
top 5000 ... 50% dotazů
top 10000 ... 60% dotazů
...

při takovém to rozdělení je samozřejmě "typický dotaz" "velmi netypický" - 40% dotazů se nevejde ani do top 10000.

Navíc se domnívám, že tahle frekvenční charakteristika může být různá u různých vyhledávačů. Tipoval bych, že čím zkušenější a inteligentnější uživatelé, tím větši je podíl "méně obvyklých dotazů". Dotazy např. z "jyxo top 10" zkušený uživatel zřejmě vůbec nepokládá.

Proč to sem píšu? Mámení "top 500" podléhají tvůrci stránek a zdá se i tvůrci vyhledávačů. Vzhledem k odhadované korelaci mezi zkušeností uživatele a "unikátností dotazů" se tak optimalizuje na blbé dotazy blbých uživatelů.

Taky bych chtěl požádat Michala Illicha, jestli by frekvenční charakteristiku dotazů na Jyxu nezveřejnil, místo mlžení o "netypickosti dotazů". Jsem si jistý, že popsaný "problém" se statistikou jistě chápe (narozdíl třeba od pana Lahvičky, kterému věřím, že plácá nesmysly, protože statistice opravdu nerozumí).

Mimochodem, statisticky vhodný způsob výběru dotazů pro testování je překvapivě jednoduchý. Zapomenout na top500 a různé ad-hoc ruční výběry. Vzít třeba 20 náhodných dotazů. Otázka je čích - například "Test vyhledávačů pana X.Y." - stačí vygrepnout dotazy z vlastní historie. Obdobně třeba pro uživatele za nějakou cachí. A nebo pro uživatele nějakého vyhledávače - vzít dvacet náhodných dotazů na ten vyhledávač. Možná by se ukázalo, že třeba BFU uživatelům Seznamu jejich portál vyhovuje.

Mým vyhledávačem zůstavá Google. Zaprvé většinou hledám anglicky a z adresního řádku. Zadruhé pokud mě stačí nějaká konkrétní informace, v Googlu mívá nejlepší pozici. Zatřetí, pokud dělám "důkladnou rešerši" a zajímá mě co nejvíc zdrojů, tak Google jako jediný opravdu vyhledává v českých stránkách (=stránka v jazyce českém) a né podle tld a podobných nesmyslů.
Michal Illich
Michal Illich (neregistrovaný)
13. 12. 2004 13:41 Nový

Re: Statistika

celé vlákno
Jistě, klidně zveřejním:

Top 100 znění dotazů - 4,4%
Top 1000 znění dotazů - 14,1%
Top 5000 znění dotazů - 25%

V testu by podle mě měly být jak časté, tak málo časté dotazy, ve správném poměru. Prostě by měl co nejvíce odpovídat skutečnosti.

Jirka Lahvička statistice rozumí poměrně dost, soudě podle jeho různých příspěvků.

Souhlasím s tím, že aby byl test opravdu vypovídající, je potřeba nejméně 20 dotazů (a samozřejmě stovky jsou nejlepší). Vybírat je náhodně z logů je dobrý způsob.

Mimochodem, Jyxo se také orientuje na "česky psané" stránky. Cz doména je jen výchozí skupinou indexovaných stránek.
Bochi
Bochi (neregistrovaný)
13. 12. 2004 22:58 Nový

Re: Statistika

celé vlákno
Pan Lahvicka statistice mozna rozumi, ale podle nekterych jeho komentaru zde to tak vubec nevypada. (Bez urazky, to nema byt zadna utocna osobni poznamka, ale pouze konstatovani meho dojmu z toho, co zde prezentuje.)
Erik Brozek
Erik Brozek (neregistrovaný)
13. 12. 2004 13:26 Nový

Seznam: zalozky "u nas" a "ve svete"

celé vlákno
Dovolim si par poznamek k ponekud nepresnem a zavadejicim udajum:

---
Pro vyhledávání "u nás" používá technologii Jyxo, při hledání "ve světě" jsou výsledky totožné s Googlem
---

Chtel bych rici, ze Seznam pro zalozku "U nas" nepouziva Jyxo. Je to trochu jinak. Pokud se hleda v katalogu pouziva svou vlastni technologii a pokud fulltextem, tak pote se pouziva technologie Jyxo od Michala Illicha.

Zalozka "ve svete". Vysledky nejen ze jsou totozne z google, ale hlavne by melo byti receno, ze se pouziva technologie google. Na stranakach je to napsane.

Diky E;)
Leos Ondra
Leos Ondra (neregistrovaný)
15. 12. 2004 18:16 Nový

Re: Seznam: zalozky "u nas" a "ve svete"

celé vlákno
"Pokud se hleda v katalogu pouziva svou vlastni technologii"

Muzete to trochu rozvest? Leo
Michal Illich
Michal Illich (neregistrovaný)
13. 12. 2004 14:11 Nový

Dotaz na autora

celé vlákno
Koukáme tady do logů a zdá se, že autor testu položil v době testování asi 29 různých dotazů. Vypadají, že by se také mohly týkat testu.

Mohl by autor uveřejnit kompletní výsledky ze všech dotazů, které položil, a ne jen ty vybrané?

Autor
Autor (neregistrovaný)
13. 12. 2004 14:47 Nový

Re: Dotaz na autora

celé vlákno
Ze bychom tady meli tedy skandal? - autor si vybral pouze dotazy, ktere vyhovovali jeho zameru umistit jyxo dolu v hodnoceni? Ty ostatni dotazy by me taky zajimali.
Tomáš Hodboď
Tomáš Hodboď (neregistrovaný)
13. 12. 2004 15:14 Nový

Re: Dotaz na autora

celé vlákno
Nic nebylo záměrné. Nevím jaký bych měl důvod někoho shazovat.
Na toto téma jsem reagoval již výše. Opravdu jsem testoval mnohem více dotazů. Nevím jak jste je mohl z logů vyčíst, testování probíhalo ve více dnech a z různých PC.

Nevím přesně kolik jich bylo, ale nemohu vám dát výsledky z důvodu, že již je jednoduše nemám. Postupně jsem zadával dotazy z předem připraveného seznamu a pokud jsem zjistil jejich nevhodnost (viz. výše uvedený příklad s dotazem "mapa světa" kde nejdříve Google vrátil asi na druhém místě použitelný výsledek, ale dále u Jyxa jsem si nebyl jistý, zda-li dané odkazy uznat) ze seznamu jsem je tedy vyškrtl.
Bochi
Bochi (neregistrovaný)
13. 12. 2004 22:55 Nový

Re: Dotaz na autora

celé vlákno
Hm, a to je prave chyba, takhle se to proste nema delat. Nejdrive se ma nezavisle a nahodne vybrat testovaci vzorek a pak ho pouzit, bez nejake zpetne filtrace. Filtraci do celeho testu prave vnasite subjektivitu.
A pokud jste nebyl vyseldky po zadani dotazu "mapa sveta" schopen nijak klasifikovat, pak jde o nedostatek vasi metody. Nemuzete z toho ale vybruslit tim, ze "nehodici se" pokusy odstranite z hodnoceni.
Yuhů
Yuhů (neregistrovaný)
14. 12. 2004 2:42 Nový

Re: Dotaz na autora

celé vlákno
A to byla myšlenka dne. Podepisuju.
Michal Kára
Michal Kára (neregistrovaný)
14. 12. 2004 9:00 Nový

Re: Dotaz na autora

celé vlákno
Mozna by misto takovych vykriku bylo lepsi dodat metodu, ktera umoznuje podobne dotazy hodnotit.
Pavel Kolesnikov
Pavel Kolesnikov (neregistrovaný)
14. 12. 2004 9:44 Nový

Re: Dotaz na autora

celé vlákno
Na druhou stranu lepsi vykrik nez nic (prinejmensim v tomto pripade).
Martin Koníček
Martin Koníček (neregistrovaný)
13. 12. 2004 14:50 Nový

Jyxo

celé vlákno
Podle mě je testování také neobjektivní. Jyxo má sice ne moc propracovaný algoritmus řazení výsledků, ale při hodně podrobných či hodně jednoduchých dotazech vrací velmi dobré výsledky.

Navíc to skloňování slov je tam opravdu značná výhoda. Když budu třeba hledat "měření protokol charakteristika křemíkové diody" nejlepší výsledek bude u Jyxa, Morfeo se úplně propadne spolu s Googlem. Myslím, že zejména na dost složitých českých výrazech jyxo podává vynikající výsledky.

Podle mě by bylo v článku nejlepší rozdělit způsob vyhledávání na amatéry a profesionály. Někteří lidé vyhledávají jedno či dvě slova, ale myslím že většina lidí tady umí klást i mnohem složitější dotazy či postupně upřesňovat svůj záběr.

U jyxo se mi hodně často stalo, že jsem vyhledával špatné synonymum a poradilo mi díky levému menu co by bylo lepší. Dávat tomuto vyhledávači poslední místo mi tedy přijde opravdu hodně zběsilé.
j.
j. (neregistrovaný)
15. 12. 2004 9:28 Nový

Re: Jyxo

celé vlákno
> Navíc to skloňování slov je tam opravdu značná výhoda. Když
> budu třeba hledat "měření protokol charakteristika křemíkové
> diody" nejlepší výsledek bude u Jyxa, Morfeo se úplně
> propadne spolu s Googlem. Myslím, že zejména na dost
> složitých českých výrazech jyxo podává vynikající výsledky.


nechapu, kde jste prisel na to, ze Morfeo nema sklonovani a synonyma ,-)

staci se poradne podivat.
Tomáš Hodboď
Tomáš Hodboď (neregistrovaný)
13. 12. 2004 15:27 Nový

Vyjádření k vyjádření

celé vlákno

Poznámka: V době testování Jyxo indexovalo něco přes 50 miliónů dokumentů, zatímco Morfeo přes 58 mil. Proto ta informace o menší databázi v odstavci u Jyxa.

Dále přidávám svůj názor k vyjádření Michala Illicha pod článkem:

1. Nejprve k jedné nepravdě, k tvrzení že Jyxo má "oproti konkurenci menší databázi". Jak si čtenář může lehce zjistit, tak pro těch 8 autorem vybraných dotazů vrátí Jyxo v šesti případech více odpovědí než Google, a v sedmi více než Morfeo. Osobně se mi zdá, že právě větší databáze Jyxa pak pomohla k horšímu výsledku v tomto testu - pro yhledavač je těžší z nich vybrat.

Celková databáze indexovaných dokumentů Jyxa je opravdu menší než Morfea, ale příliš na ní nezáleží. V celém článku jsem se snažil zdůrazňovat, že tolik nezáleželo na různých „pokročilých funkcích“ vyhledávače atd. ale na skutečné prospěšnosti pro uživatele. Z tohoto pohledu nám může být celkem jedno, kolik ve skutečnosti vyhledávač má ve své databázi stránek. Ostatně, Google jich pro český web indexuje nejméně a výsledky má nejlepší.

2. Test zkoumal jen dost úzkou oblast dotazů. Zatímco skuteční uživatelé pokládají v 40% případů jednoslovné dotazy, a jen málokdy (8%) víc jak trojslovné, tak test neměří žádné jednoslovné dotazy, naopak z poloviny je zaměřen na mnohoslovná spojení. Druhý zdroj zkreslení je diakritika - zatímco v testu je důsledně užívána, v praxi je asi polovina položených dotazů bez českých znaků. Kdyby používání diakritiky v testu odpovídalo skutečnosti, tak by se Google výrazně propadl. Uživatelé chtějí také od vyhledavače různé věci - najít firmu, kontakt, informaci, provést důkladnou rešerši, poradit s jazykem, najít citát, dohledat, co už jednou viděli, atd. Ale test samotný je zaměřen jen na jeden druh dotazů. Vybraná témata jsou málo obvyklá, nejčastější je Jaroslav Seifert s 0,001% hledanosti, ostatní jsou řádově méně časté. Kdyby se nazýval "Hodboďův subjektivní test mnohoslovných, s diakritikou psaných informačních dotazů na neobvyklá témata", tak prosím. Ale prezentovat jej za "test vyhledavačů" je trochu troufalé a nepodložené.

Metodiku testu jsem vybíral dlouho a je mi jasné, že cokoli bych zvolil, bylo by založené na subjektivitě autora. Je to problém jakéhokoli testu. Pokud navrhnete takovou metodiku, která bude jasná a zřetelná, bude zohledňovat především uživatele a jeho běžné chování, prosím, potom můžeme výsledky porovnat. Těžko se vám to ale povede...

Michal Illich
Michal Illich (neregistrovaný)
13. 12. 2004 16:13 Nový

Re: Vyjádření k vyjádření

celé vlákno
> Celková databáze indexovaných dokumentů Jyxa je opravdu menší než Morfea

Máte toto své tvrzení nějak podložené? Nemáte, ale přesto jej opakujete.

Pokud byste tvrdil, že "na hlavní stránce Morfeo je zobrazené větší číslo než hlavní stránce Jyxo", tak je to pravda. Ale o ničem nevypovídající.
Ona totiž ta "celková čísla" každé měří něco zcela odlišného. A jablka s hruškami, jak už pár lidí přede mnou povídalo, se srovnávat nedají.

Když - jak říkáte - chcete posoudit prospěšnost vyhledavače pro uživatele, tak se to nepozná podle čísel na hlavních stránkách, ale podle skutečných výsledků, které vyhledavače vracejí.

Zkuste si projít své dotazy a udělat si tabulku z počtu vrácených stránek a zjistíte skutečné výsledky. To je ostatně námět na jeden test. Relevance je jedním (a zřejmě nejlepším) kritériem, rozsah databáze je hned druhou nejdůležitější veličinou.

V celosvětovém měřítku dělával vynikající testy Greg Notess:
http://www.searchengineshowdown.com/stats/size.shtml
je tam popsaná i metodika.

> Pokud navrhnete takovou metodiku, která bude jasná a zřetelná, bude zohledňovat především uživatele

Pár návrhů tady padlo. Pokud budete vy nebo Lupa chtít dobrou metodiku, tak není nic jednoduššího než před testem obmailovat vyhledavače a případně i někoho školeného ve statistice a jistě vám poradí.
Neřeknou vám žádné novoty, jen dávno odzkoušené a vědecky ověřené postupy. O tom, jaká pravidla musí splňovat výzkumy, aby byly dostatečně reprezentativní (aby z nich bylo možné usuzovat), jsou v mnoha učebnicích.

Ostatně to, co jsem testu vytýkal, tedy že položené dotazy nemají stejné charakteristiky jako dotazy, které uživatelé používají, je úplně ta nejzákladnější chyba, o které se dočtete hned na začátku oněch knih o metodologii.



Lubomír Hauerland
Lubomír Hauerland (neregistrovaný)
13. 12. 2004 15:57 Nový

Jyxo

celé vlákno
Jyxo má sice v db spoustu stránek a nové indexuje rychlostí blesku, ale vyhledávání je opravdu na nic. Podobný článek s jinými výrazy vyšel na Lupě již před časem, pan Illich uznal, že některé výrazy jsou nesmyslně řazeny. Sám jsem ho upozorňoval na některé své weby, pár dnů bylo vše v pořádku a pak se zase propadly a přeskočily je linky na obchody, články na recenze a nevím jaké další harampádí. Manuální posouvání špatných odkazů ale nikam nevede. Chyba je v systému, ale to autoři nechtějí přiznat. Teď jeden můj web úplně vypadl z výsledků a osobně se domnívám, že jen proto, že Bonusweb stěhoval jeden den servery. Jyxo je jako vzteklá koza, která neustále poskakuje bez stabilního základu a navíc jde pozpátku. Jinak si to nedovedu vysvětlit. Omlouvat špatné řazení nízkou hledaností je podivné. Co třeba výraz mp3? Proč je první firma na obnovu dat a internetovou bezpečnost?
Michal Illich
Michal Illich (neregistrovaný)
13. 12. 2004 16:30 Nový

Re: Jyxo

celé vlákno
> Teď jeden můj web úplně vypadl z výsledků a osobně se domnívám, že jen proto, že Bonusweb stěhoval jeden den servery.

Pokud byly stránky nedostupné, tak je správné, že vypadly. Uživatelé nechtějí klikat na 404ky a nedostupné stránky.

Jyxobot to bude zkoušet každou noc znovu, a pokud ten server zase bude dostupný, budete opět zařazen.

Na to mp3 se podíváme. Ten divný odkaz je tam nejvýš pár dnů, z toho těžko něco obecného vysoudíte.

Na ostatní věci vám nejsem schopen odpovědět, neudáváte detaily.

Mimochodem, žádný nástroj na manuální posouvání jednotlivých odkazů v Jyxu není. Souhlasím s vámi, že by k ničemu nevedl.
shrek
shrek (neregistrovaný)
14. 12. 2004 19:08 Nový

Re: Jyxo

celé vlákno
No nevim, ja jakozto uzivatel mam radsi stranky se 404kou a ulozenim v kesi vyhledavace nez nic. A odstranit stranky serveru (zvlast srovnatelneho s bonuswebem) po jednom dni vypadku mi opravdu prijde jako prehnana reakce. Jako rozumna doba mi prijdou spise tydny az nekolik mesicu.
Czskittle
Czskittle (neregistrovaný)
14. 12. 2004 19:48 Nový

Re: Jyxo

celé vlákno
Ale proč? Jak Michal Illich psal, Jyxo bude stránky zkoušet každou noc a pokud budou v pořádku, začne je opět zobrazovat. Myslím, že jste výjimka, protože mně by ty stránky s 404 vadily dost.

Btw, myslím, že Jyxo ty stránky neodstraňuje, ale pouze je přestává zobrazovat ve vyhledávání a to je rozdíl...
shrek
shrek (neregistrovaný)
14. 12. 2004 20:02 Nový

Re: Jyxo

celé vlákno
To je uplne jedno. Ja ty stranky hledam ted a to, ze tam zitra nebo za par dni zase budou, mi nijak zvlast nepomuze. To je docela podstatne, kdyz hledam treba adresu nebo kontaktni telefonni cislo nejakeho obchodu, ktery dnes chci navstivit - tady mi kesovana stranka uplne staci a jsem za ni vdecny. A prikladu bychom urcite nasli vice.

Na druhou stranu je jiste mozne, ze nektere jine uzivatele takova stranka zajimat nebude, ale myslim, ze by mnoha lidem pomohlo, kdyby to bylo mozne menit.
j.
j. (neregistrovaný)
15. 12. 2004 9:41 Nový

Re: Jyxo

celé vlákno
Ne vsechny stranky, ktere ma jyxo v databazi, umi zjistit, ze jsou prave nedostupne. Nechodi na ne prilis casto, aby si toho vsiml.

Proto se vam dost casto muze stat, ze narazite na stranky, ktere jsou sice nalezeny, ale po rozkliknuti se dostanete na stranku 404.
Ladislav Bittner
Ladislav Bittner (neregistrovaný)
13. 12. 2004 16:25 Nový

Testy vyhledávačů

celé vlákno
Pokud se pánové budete bavit o testech vyhledávačů vytvářených pro magazínové články, závěru se nedoberete. Autor je prostě limitován výší honoráře. Testování několika desítek výrazů je námět minimálně pro diplomovou práci...

Tomášovi patří dík. Za odvahu vydat test vyhledávačů právě na Lupě ;-)
Michal Illich
Michal Illich (neregistrovaný)
13. 12. 2004 16:39 Nový

Re: Testy vyhledávačů

celé vlákno
Řekněme že takhle dostal autor 700 Kč.
Kdyby test dělali tři lidi, každý položil deset dotazů, tak už je test slušně zobecnitelný (je-li metodika formálně ok). Řekněme že by to Lupu stálo 700+500+500 Kč? Nebojím se, že by na to neměla :)
A klidně ať to vydají jako dva články.

Navíc rozdíl z výsledného dojmu "test s chybami a nejasnostmi" vs "dobře promakaný test" je věc image, jakého chce ten který časopis docílit.

Vezměte si třeba magazíny o hardware, když třeba testují grafické karty. Dokážu si představit, jak tam půlka redakce běhá kolem počítačů, vyndavá a zandavá karty, restartuje, pouští desítky benchmarků, dělá z toho tabulky. To je náročný test! (a přesto jej časopisy platí, protože ví, že právě tohle čtenáři chtějí). Oproti tomu je dobře udělaný test vyhledavačů úplná pohoda :)

Tomáš Hodboď
Tomáš Hodboď (neregistrovaný)
13. 12. 2004 20:08 Nový

Re: Testy vyhledávačů

celé vlákno
Michale, nemluvil jste výše něco o jabkách a hruškách?

Testy vyhledávačů v papírových magazínech:
Svět Počítačů:
5 víceslovných dotazů: Datum narození Pavla Nedvěda, Kdy má svátek Markéta, Délka Václavského náměstí, Termín koncert Metallica, Otevírací doba Petřínská rozhledna

Chip 6/04:
také 5 dotazů - problém mýtného v EU, celebrální ischemie, technické vlastnosti Athlon 64, návod na odinstalování Internet Exploreru a návod na obsluhu k telefonu Siemens.

Hlavně že víte, co jejich čtenáři chtějí...

Michal Illich
Michal Illich (neregistrovaný)
13. 12. 2004 22:12 Nový

Re: Testy vyhledávačů

celé vlákno
Nerozumím, co chcete říct.

Já říkal, že čtenáři technických magazínů (tedy alespoň někteří) chtějí velmi obsáhlé recenze grafických karet. Nic víc, nic míň.
A byla to reakce na pan Bittnera, který poměrně správně uvedl, že dobře udělané testy jsou náročné.

A když přeskočíme k těm zmíněným testům vyhledavačů: ano, ty také svým složením neodpovídají tomu, co uživatelé nejčastěji vyhledávají. Na to upozorňujete správně, jen nevím proč, ani jak to souvisí s těmi testy grafických karet. (ani co jsou v tomto případě jablka a co hrušky)

Ale když už to srovnáváme: Testy grafických karet se dělají přímo na hrách, které uživatelé hrají (= dobrá validita testu). Jsou lehce zopakovatelně změřitelné (= test je objektivní). Většinou se testuje třikrát (= dobrá reliabilita). Je uvedena hardwareová konfigurace počítačů i ostatní faktory, které test ovlivňují (= kontrola proměnných).

Jak je na tom s validitou, reliabilitou, objektivitou a kontrolou proměnných váš test, autore?



Tomáš Hodboď
Tomáš Hodboď (neregistrovaný)
13. 12. 2004 22:27 Nový

Re: Testy vyhledávačů

celé vlákno
Mluvil jste o nekvalitních testech a o tom, jak půlka redakce kolem testu běhá. Na příkladech z časopisových magazínu jsem vám ukázal, že ne vždy to tak nutně musí být. (aniž bych chtěl nějak zmíněné testy degradovat, špatné se mi nezdají)
Michal Illich
Michal Illich (neregistrovaný)
13. 12. 2004 23:19 Nový

Re: Testy vyhledávačů

celé vlákno
Jak jsem řekl, testy grafických karet u technických magazínů bývají podle mého názory zpravidla dobré (objektivní, validní, reliabilní). Byl to příklad kvalitních testů.
Netvrdím samozřejmě (ani předtím ani teď), že všechny testy v časopisech jsou dobré. Nevidím tady mezi námi spor.

Zůstávají jen množící se nezodpovězené otázky na vás :)

Petr Jakubec
Petr Jakubec (neregistrovaný)
20. 12. 2004 12:51 Nový

Re: Testy vyhledávačů

celé vlákno
DD,
tak tady (poprve :-) s Vami Michale nemohu souhlasit.

Pokud hledate tu spravnou kartu pro dva a vice monitory tak si to tam neprectete.

Pokud hledate tu spravnou kartu pro svuj novy linuxovy (obecneji NEWin32) desktop, je vam to take na nic.

...a urcite bych nasel dalsich par naprosto knock-out hledisek.
PJ.
Jirka
Jirka (neregistrovaný)
13. 12. 2004 22:29 Nový

Nesouhlas s Michalem Illichem

celé vlákno
M.I. ma sice pravdu, ze takto polozene dotazy jsou nejcastejsi, ale zapomina na dve veci:

1) Uzivatel, ktery zada jednoslovny a velmi obecny pojem jako "sex" nebo "prace" neceka nijak extra relevantni vysledky. Bude mu bohate stacit, kdyz se mu ukazi nejake nahotinky a nebo mu vyjede seznam agentur nabizejici praci. Uz se ale urcite nechce v prvnim okamziku nic dovedet o podrobnostech. Chce hlavne rychle _nejake_ vysledky. Na druhou stranu, kdyz se clovek chce opravdu neco dovedet, zadava delsi fraze, ktere dotaz specifikuji.

2) Pokud bychom vychazeli z predpokladu, ze nejlepsi vyhledavac najde nejlepsi vysledky pro tech 500 nejhledanejsich frazi, ktere jsou na http://www.jyxo.cz/top/, tak by asi nejefektivnejsi bylo pro ne rucne udelat index. Razem by takovy vyhledavac byl nejlepsi. Evidentne, toto neni to prave orechove.

Podle me, musi samozrejme vyhledavac byt schopen vyhledat relevantni stranky jak pro ty nejcastejsi dotazy, tak hlavne i pro ty mene caste. Pricemz samozrejme ty dotazy mene caste jsou pro uzivatele mnohem bolestivejsi. Je mu jedno, jakou nahotinku mu vyhledavac najde, kdyz zada "porno". Za to mu uz vubec neni jedno, ze mu vyhledavac najde na dotaz "atrofie dasni" clanek z www.islamweb.cz .

Jinymi slovy by se to dalo vyjadrit takto: Ano, hodnotme kvalitu vyhledavace podle vyrazu, ktera uzivatele vyhledavaji, ale vybirejme je spravedlive. Tedy treba tak, ze udelame databazi vsech hledanych vyrazu, priradime jim pravdepodobnosti polozeni a seradime je od nejcasteji vyhledavanych k nejmene casto vyhledavanym. Pak v celem seznamu udelejme 99 car, kterymi ho rozskatulkujeme na 100 casti, pricemz v prvni bude nejmene vyrazu, ale za to takove, ktere se nejcasteji vyskytuji, a v posledni budou nejspis jen vyrazy, ktere byly zadany jen jednou, ale za to jich bude opravdu hodne.

Nyni z techto vsech skatulek vyberme reprezentativni vzorky tak, aby soucet vyrazu pro danou skupinu byl, rekneme, 0.01%. Uz ted je jasne, ze v pripade prvni skatulky mame problem, protoze vyraz "sex" a nektera dalsi se asi vyskytuji casteji. Ale to neni zas takovy problem. Bud vysledky pro tuto skatulku pozdeji preskalujeme (pouzijeme vahy), nebo z ni vybereme takova slova, aby soucet jejich pravdepodobnosti se blizil co nejlepe te hranici 0.01%. Obecne by bylo nejlepsi, kdyby vyber vyrazu ze skatulky byl nahodny (myslim, ze by stacilo pouzit jednoduche uniformni rozdeleni, ale nejlepsi by zase byly nejake vahy odpovidajici pravdepodobnostem daneho vyrazu).

Je jasne, ze v posledni skatulce bude spousta vyrazu, z nichz kazdy da do vysledku jen velmi malo, ale za to dohromady daji do vseskatulkoveho vysledku uplne stejne jako to malo vyrazu vybranych z prvni skatulky.

Snad jsem to moc nezamlzil :-). Chtel jsem jen naznacit, ze Michal Illich je velmi schopny v PR (a nastesti nejen tam) a tak je nutno nad jeho reakcemi trochu premyslet.
Jirka
Jirka (neregistrovaný)
13. 12. 2004 22:47 Nový

Re: Nesouhlas s Michalem Illichem

celé vlákno
Kdyz tak o tom premyslim, mozna by to slo jeste jednoduseji: Udelat seznam vsech vyhledavanych vyrazu s jejich pravdepodobnostmi. Z nich uniformne vybrat, rekneme, 1000 vyrazu. Preskalovat jejich pravdepodobnosti tak, aby dohromady daly 100%. Pak otestovat jejich relevanci a pri vypoctu celkove kvality brat relevanci kazdeho vyrazu s takovou vahou, jakou ma vyraz pravdepodnost.

Tohle ma nicmene problem, ze s velmi velkou pravdepodobnosti se nepouziji nejvice vyhledavana slova.

Jeste me napadlo, ze kdyby se ze seznamu vsech spojeni vyloucila spojeni, ktera se za dany casovy usek hledala mene nez, dejme tomu, petkrat, relevanci testu by to nejspis prospelo, protoze by se asi vyloucilo dost spojeni, ktera uzivatele vlastne ani nechteli hledat (preklepy, chyby apod...)

Jeste par, snad samozrejmych poznamek. U te me prvni navrhovane metody neni potreba testovat x set vyrazu z posledni skatulky. Staci jen nahodne vybrat treba 3 (cim vice, tim lepe) a vysledky naskalovat tak, aby tyto 3 vyrazy mohly reprezentovat vysledky cele skatulky.

Skatulek nemusi byt nutne 100, staci treba 20. Ale cim vic skatulek, tim presnejsi vysledek.

Jo a abych nezapomnel - operuje se tu vsude s pravdepodobnosti, takze by bylo zahodno test spustit nekolikrat a jako relevantni vysledek brat prumer.

!Kazdopadne, vydavat za relevantni test, ktery obsahuje 10 vyrazu, neni vubec profesionalni a Lupa si jiste zaslouzi vice!
Michal Illich
Michal Illich (neregistrovaný)
13. 12. 2004 22:58 Nový

Re: Nesouhlas s ... kým vlastně?

celé vlákno
Naprosto s vámi souhlasím! :)

Toto jsem také měl na mysli, když jsem říkal, že by měly být hodnoceny jak časté, tak méně časté dotazy. Totéž jsem měl na mysli, když tady pořád dokolečka říkám, že testované dotazy by měly ve svých vlasnostech odpovídat tomu, co uživatelé skutečně vyhledávají.

Možná nesouhlasíte spíš s Jirkou Lahvičkou, ten navrhoval testovat hlavně Top dotazy.

Snad jen dílčím způsobem nesouhlasím s tím, že u dotazů 'sex' či 'práce' uživatel nečeká nějaké extra výsledky, že mu stačí prostě "nějaké" výsledky. Podle mě je důležité, aby i na tyto dotazy dostal uživatel co nejlepší stránky.

A také malý zlepšovák: není úplně potřeba dělat nějaké škatulky a složitě to vážit, stačí vybírat dotazy náhodně. Tím zajistíte nejen to, že bude váš vzorek vyvážený ve vlastnosti, kterou kontrolujete (třeba četnost nebo diakritika), ale i ve vlastnostech ostatních.
Aha, teď čtu váš příspěvek ještě jednou a vidím, že náhodnost také navrhujete, takže spolu opravdu souhlasíme téměř ve všem :)
Jirka
Jirka (neregistrovaný)
13. 12. 2004 23:30 Nový

Re: Nesouhlas s ... kým vlastně?

celé vlákno
Fajn, jsem rad, ze Vase i me PR funguje uplne stejne :-). Skutecne jsem hlavne proti testovani tech top500 dotazu.

Na druhou stranu, kritizoval jste vyber testovanych frazi (z 2. odstavce Vaseho vyjadreni uvedeneho v clanku jsem vycitil, ze byste mnohem radsi prave tech top500). Ony by zas tak moc nemusely byt od toho nahodneho vyberu daleko. Ale to je velmi tezke posoudit, kdyz clovek nema pred sebou tu tabulku pravdepodobnosti (a rekl bych, ze Vy ji muzete mit). Kazdopadne vyber byl autorem clanku proveden naprosto nesystematicky.

Co se tyce toho "sex"u, take nevim, jak to presne zohlednit, proto jsem reseni ani nenavrhnul. On je vubec problem s tim, jak poznat, ktery vysledek je relevantni. Podle me je u takoveto slova vysledek tim relevantnejsi, cim vic hambatych fotek na nem najdu. Technicky popis souloze by vetsinu tazatelu asi nenadchnul. A podobne "vlak jizdni rad Praha Kolin" a "panda cervena" maji zcela jina kriteria relevantnosti. K tomu vsemu posuzovani relevantnosti je veci velmi subjektivni. Test by mel byt proveden alespon nekolika lidmi.

U tech nejhledanejsich frazi je podle me skutecne asi zdaleka nejlepsi prachsprosty index.
jk
jk (neregistrovaný)
14. 12. 2004 9:07 Nový

Re: Nesouhlas s Michalem Illichem

celé vlákno
Jezkovy voci, proc tak slozite? ;-) Vahy, kvantily,... Staci vybirat nahodne, a ono to dokonverguje. (tzv. "zakon velkych cisel")
Jirka
Jirka (neregistrovaný)
14. 12. 2004 9:43 Nový

Re: Nesouhlas s Michalem Illichem

celé vlákno
To jiste. Ale otazka je jak rychle. A taky jak zohlednit nektere veci, ktere tak uplne do statistiky nepatri.
Marek Zelenka
Marek Zelenka (neregistrovaný)
14. 12. 2004 1:44 Nový

Podstatný problém

celé vlákno
Myslím, že v celé probíhající diskuzi nikdo nezmínil, že výsledky vyhledávání se budou radikálně lišit, pokud se dotaz strefí náhodou do komerční nebo naopak nekomerční oblasti. Zatím co člověk poptává a hodnotí kvalitu obsahu (text, obrazové informace nebo i zvuk), robot hodnotí kvalitu podle algoritmu optimalizace. Otázkou tedy zůstává, co je tím relevantním a kvalitním výsledkem. Pro vyhledavač to často bude technicky dobře optimalizovaná stránka. To zas nemusí vůbec svědčit o kvalitě obsahu, jen o pozici ve výsledcích vyhledávání. Pokud náhodný dotaz zrovna padne do komerční oblasti seznámené se SEO, může být výsledkem kvality často jen technická zdařilost webu. Pokud padne dotaz do nekomerční oblasti na hony od SEO vzdálené, tu bychom mohli opravdu dostat výsledky neovlivněné technickými úpravami, kde např. zpětné odkazy jsou čistě přirozené a svědčí o opravdové popularitě daného webu. Naproti tomu nemusel být tvůrce nekomerčního webu žádný expert na HTML a má pouze kvalitní obsah, ted třeba samotný text. Nemá klíčová slova v titulku, v URL, prostě je to zbastlené, přičemž obsah může být bezkonkurenční na dané téma, přesto nenalezitelný. To se může lišit oblast od oblasti. Jak tedy z toho ven?

Tím se zase vracím zpět na začátek k otázce, co má vůbec být podstatou testu vyhledávače? Je nutno nejprve jasně definovat, zdali se testuje tech. zdatnost vyhledávače nalézt nejlépe optimalizované stránky, nebo skutečně jen kvalitní obsah. Mám ale takový pocit, že soudobé vyhledávače fandí spíš technické optimalizaci a nejsou dosud na takové úrovni, aby měly schopnost kvalitní obsah rozeznat. Proto si myslím, že jakýkoliv test bude tak hluboce subjektivní, že o nějaké objektivitě nemůže být ani řeč a zcela se mi tak ztrácí smysl jakéhokoliv testu dělaný kýmkoliv.
To jen taková pozdně noční úvaha :)
Tomáš Hodboď
Tomáš Hodboď (neregistrovaný)
14. 12. 2004 14:58 Nový

Tak tedy jak?

celé vlákno
Jak by tedy podle vás měla vypadat metodika správného testu? Všichni jsme se zde bavili o malém počtu vzorků atd. Dobře, souhlasím, že čím větší vzorek dotazů (ať již počet, či různorodost) tím lépe.

Pokud ale má z této diskuse být něco prospěšného pro příští testy, tak by to měla být ta správná metodika. Tu zatím nikdo nikde nenavrhl.
Tedy očekávám návrhy, zda-li hodnotit všelijaká cinkrlátka (funkce, synonyma, skloňování, pokročilé hledání) nebo čistě kvalitu výsledků a o ostatní se v testu příliš nezajímat. IMHO je lepší se soustředit jen na kvalitu vyhledávače. Ostatně ty pokročilé funkce k ní směřují, takže bych je jednotlivě nechal stranou.

A za druhé, jak samotnou kvalitu hodnotit, aby nebylo posuzování založeno na subjektivitě autora a bylo použitelné pro jakýkoli dotaz. To zde nikdo neřekl a nenvrhl. Očekávám tedy vaše názory na tento problém.
Jirka
Jirka (neregistrovaný)
14. 12. 2004 21:02 Nový

Re: Tak tedy jak?

celé vlákno
Vhodnou metodu jsem navrhl o kousek vyse. Dokonce dve ruzne, i kdyz podobne.

Nejprve ale potrebujete statistiku cetnosti dotazu z nejakeho vyhledavace. Nevim, jestli M.Illich bude chtit pustit takovou informaci, preci jenom je to podstatna cast know how.

Subjektivite se nevyhnete, kvalitu vysledku musi urcit lidsky tester. Ale melo by testovat vice lidi nezavisle na sobe a treba i ruzne vzorky (ziskane stejnou metodou).

Nejlepsi by asi bylo pomoci statistiky a pravdepodobnosti ziskat seznam vyrazu, ktere chci otestovat, aniz bych o nich vedel neco vic. U kazdeho pak napsat, co od vyhledavace cekam. Teprve ted zacit testovat.

Jeste je otazka, jak hodnotit. Umistenim prvniho ocekavaneho vysledku (cim mensi, tim lepsi)? Poctem ocekavanych vysledu v prvni desitce (cim vetsi, tim lepsi)? Nejak jinak?

A pak uz je to jenom matematika.
jk
jk (neregistrovaný)
14. 12. 2004 21:27 Nový

Re: Tak tedy jak?

celé vlákno
To asi spatne ctete. Jinak me pripada mirne receno neslusne, ze Vy provedete metodicky velmi slaby test, dostanete za nej pravdepodobne honorar, a kdyz se v diskusi ctenari ozvou, vyzvete kritiky, at navrhnou, jak to delat lepe. (Navic, kdyz uz to v diskusi vicemene popsali.)

Mimochodem i kdyz se podivam na Vas blog, tak mi Vase psani prijde povrchni a bez dostatecneho odborneho zazemi, coz je mi dost nesympaticke. Vubec nemam chut Vam zadarmo radit :-/

No ale budiz - problem je zajimavy - jednoducha metodika

1. Vezmou se nahodne dotazy. Pokud test staci "osobni", tak nahodnym vyberem z vasi osobni hledaci historie. Pokud chcete obecnejsi test, tak nahodnym vyberem z logu vyhledavace/vyhledavacu. Protoze vyhledavace maji ruzne skupiny uzivatelu, nejlepsi by bylo pro kazdy vyhledavac vzit dotazy jeho uzivatelu.

2. Je treba brat logy alespon za tyden a vybirat nahodne z celeho logu. Je otazka, zda vyhledavace budou takove logy ochotne poskytnout (je to obchodne zajimava informace). Na druhou stranu nelze nechat vyber na vyhledavacich, protoze by mohli rucne ovlivnit vzorek a test tak zmanipulovat. Castecne reseni je takove - prohnat kazdy radek hesovaci funkci, napr. md5. Vyhledavac preda seznam hesi radku. Testujici nahodne vybere radky. Vyhledavac zverejni konkretni radky, da se overit hes. (Ja vim ze zmanipulovat se to da porad, ale je to pracnejsi.)

3. Ted je treba (pred testem) ke kazdemu dotazu vymyslet a popsat "co mel hledajici na mysli". Toto je nejvetsi slabina testu, ale pokud nemame moznost dal sledovat chovani uzivatelu (napr. ktera stranka je skutecne uspokoji) nebo nejaky pruzkum uzivatelu, nic s tim nenadelame. Nejlepsi co se da udelat je, ze se pozadavky na relevantni stranku popisou predem. Takto se da vyporadat i s dotazy typu "eroticke povidky" nebo "lolita". Spravnou odpoved na ertocke povidky muzeme definovat napr. "stranka, ktera obsahuje alespon deset erotickych povidek zadarmo". Spravnou odpoved na "lolita" - "stranka, ktera obsahuje zadarmo bez rozsahlych reklam alespon 10 pornografickych fotografii nebo 3 video nebo 2 povidky s erotickou tematikou s divkami mladistveho vzhledu". Stejne dobre muzeme definovat jako spravnou odpoved "stranka o Nabokovove romanu" (ale jen jedno z toho!). Dulezite je, ze definujeme odpoved predem, nasi libovule v definici spravne odpovedi muzeme s primhourenyma ocima prohlasit za nahodny sum.

4. Ted je treba zkonstruovat, co budeme merit.
Na to by bylo dobre mit vyzkum, jak lide vysledky zpracovavaji. Ten nemame, takze je nejlepe se vydat cestou maximalni jednoduchosti. Priklad meritka - M je poradi prvniho relevantniho odkazu z prvnich 10 nalezenych, jinak 10. Pro snazsi chapani je asi jeste vhodne vzit to zaporne a posunout do 0. (rel. stranka na 1. miste -> 10 bodu atd.)
Muzete to nazyvat treba jkSearchEngineRank (tm)(C){patent pending). Nebo vorisekSearchEngineRank ;-)

5. Pro kazdy vyhledavac pocitame aritmeticky prumer a rozptyl vorisekSERu, coz bude normalni nahodna velicina. Provedeme 20 mereni (vezmeme 20 slov) a podivame se, jake to ma rozdeleni a jak nam to konverguje. Oproti rade lidi kteri tu od boku strili "stovky", ja bych si tipnul, ze pro urceni poradi vyhledavacu bude stacit tech 20 mereni.

6. Vysledkem bude nejen poradi vyhledavacu, ale i jakasi hodnota, ktera se da sledovat s casem, neco o "narocnosti" vyrazu a dalsi zajimave veci. Proste dost na dobry clanek jednou za pul roku, pokud to tak udelate, nedekujte, misto toho z kazdeho hororare poslete 150Kc o.p.s. Clovek v tisni.

HOWGH
jk
jk (neregistrovaný)
14. 12. 2004 21:49 Nový

Re: Tak tedy jak?

celé vlákno
...prece jen jeste. V bodu 5. se muze ukazat, ze data jsou nevychovana. To se neda dopredu odhadnout. V tom pripade by bylo treba vzit vetsi statisticke kladivo - napriklad neco ze supliku "robustni metody".
Michal Illich
Michal Illich (neregistrovaný)
15. 12. 2004 15:41 Nový

Re: Tak tedy jak?

celé vlákno
Log dotazů klidně poskytneme. Náhodně z nich vybírat může nějaký důvěryhodný redaktor (nebo vezme každý ntý dotaz, jak navrhl Jirka Lahvička, s hodně velkým n). Nebo pokud chcete něco úplně nezávislého, požádejte Alenku, ta už v minulosti při různé příležitosti poskytovala statistiky.

K tomu "vymyslet a popsat co mel hledajici na mysli") Zároveň by se tam neměla přidávat žádná dodatečná informace ("zadal jsem jen 'lolita', ale uznám pouze Nabokova!" nebo "zadal jsem mapa evropy, ale tajně si myslím, že je to do seminárky"). Dokud neumějí telepatii ani lidé, nebylo by úplně fér to vyžadovat od vyhledavače :)

Náhodný výběr a hodnocení více lidmi je výborný základ. Ale jsou také různé typy dotazů (např. 'český telecom' má jen jedinou správnou odpověď, objektivně testovatelnou, ale 'mp3' je zase nutné hodnotit jinak a to dost subjektivně, a docela objektivně se dají testovat i ty 'datum narození pavla nedvěda').

Tomáš Hodboď
Tomáš Hodboď (neregistrovaný)
15. 12. 2004 16:07 Nový

Re: Tak tedy jak?

celé vlákno
> K tomu "vymyslet a popsat co mel hledajici na mysli") Zároveň by se tam neměla přidávat žádná dodatečná informace ("zadal jsem jen 'lolita', ale uznám pouze Nabokova!" nebo "zadal jsem mapa evropy, ale tajně si myslím, že je to do seminárky"). Dokud neumějí telepatii ani lidé, nebylo by úplně fér to vyžadovat od vyhledavače :)

Jak potom chcete zajistit objektivnost? Ta je obzvláště složitá u jednoslovných dotazů, kdy nemůžete poznat co konkrétně uživatel hledal... mp3, auto, hudba, porno, ... nebo to dokážete? Nelíbí se vám, že takové dotazy v testu chybí, ale jak je otestovat už nenavrhnete.
Jirka
Jirka (neregistrovaný)
15. 12. 2004 16:08 Nový

Re: Tak tedy jak?

celé vlákno
Ad Lolita: S timhle ne tak zcela souhlasim. Hledajici je jen clovek a jako clovek neni dokonaly. Pta se jako clovek. Co kdyz krome Nabokova o zadne jine lolite nevi (zni to smesne, ale u spousty jinych veci to muze byt pravda, nakonec i toho Nabokova muze hledat 12 lete dite, ktere toho o preteenage sexu moc nevi). Navic tenhle problem bude potlacen, kdyz bude testovat vic lidi vic vyrazu. Proste relevance odpovedi musi byt dana tim, co vyhledavajici ocekaval. Ze se blbe ptal, to je uplne normalni a bezne. A navic, pro vsechny vyhledavace je to stejne.

Prave u tech mp3 to chce vedet, co vlastne clovek ceka. Predstavuju si to tak, ze skupina lidi dostane seznam hesel, ktere bude nezavisle testovat. Kazdy si pod tim mp3 samozrejme predstavi neco jineho (bohuzel to zcela zrejme nemusi predstavovat to, co si pod tim pojmem predstavi vetsina). Tedy i vysledky by mel mit kazdy jiny. Nekdo hleda informaci, co to mp3 je, nekdo zas, kde stahne nejake nove pecky (stare slagry ho nezajimaji).

Testeri by asi meli ocekavat to, co je jako prvni napadne. Nemeli by hledat klicky - "dobre, je to mp3, nejspis bych hledal nejakou muziku, ale vyzkousim ho, jestli najde nejaky technicky popis Fraunhoferova kodeku". To by urcite kvalite testu nepridalo. Samozrejmosti musi tedy byt i zverejneni toho, co se ocekavalo. Otazkou je, co delat, kdyz tester u nejakeho slova nebude tusit, ktera bije.
jk
jk (neregistrovaný)
16. 12. 2004 8:53 Nový

Re: Tak tedy jak?

celé vlákno
Ze tester nebude tusit ktera bije nevadi - to se da vzit jako docela genericky pripad, "vysvetli me tohle slovo". Takhle bezne pouzivam google "definiton" a wikipedii.

Relevantni odpovedi bude stranka, z ktere tester pochopi, o co jde.

Jinak s nasazenim vic lidi nevim - jestli se to vyplati. Nemame k diposici vzorek dotazu, takze neni jasne, jaka cast je "nejednoznacnych". Napriklad u dotazu na jmena firem, osob, dobrych dotazu na konkretni informace atd. je mnohonasobne vyhodnocovani ponekud mrhanim sil.

Druha vec je, ze vhodny by byl "reprezentativni vzorek" uzivatelu. Neni jasne, ze kdyz budou myslenky tazatelu odhadovat tri pocitacovi geeci, bude to lepsi, nez kdyz jeden.

Pokud je "nejasnych" dotazu jen mala cast, je casove efektivnejsi, aby se autor testu zeptal treba na nejakem chatu obecneho publika ("co vas napadne, kdyz se rekne... lolita").
Michal Illich
Michal Illich (neregistrovaný)
16. 12. 2004 9:29 Nový

Re: Tak tedy jak?

celé vlákno
> Jinak s nasazenim vic lidi nevim - jestli se to vyplati.

Ono to nemusí být tak, že každý testuje všechno. Může testovat X lidí, každý Y dotazů (jiných). Je to sice horší v tom, že nebudete moct spočíst reliabilitu (shodu pozorovatelů), ale bude to efektivnější. Přínos většího počtu dotazů (X*Y) je myslím také lepší (než důkladně otestovaných 1*Y).
jk
jk (neregistrovaný)
15. 12. 2004 20:37 Nový

Re: Tak tedy jak?

celé vlákno
Hm. Otazka je, zda u vas lide vyhledavaji stejne veci jako napr. na Seznamu. Zajimava moznost by bylo zkouset kazdy vyhledavac proti dostatecne rozsahlym vzorkum dotazu z ostatnich vyhledavacu, ale to uz muze byt dost subtilni, tzn. velke vzorky, objem prace by kvadraticky rostl s poctem vyhledavacu... asi ne tema na clanek.

Bylo by ale alespon vhodne smichat vzorek z vic vyhledavacu. Hypoteza ze uzivatele Jyxa jsou netypicti zni dost verohodne (prinejmensim ma Jyxo pomerne jinou reklamu nez treba Seznam).

Vyhledavace sice neumeji telepatii, ale muzou nabidnout ruzne "interpetace dotazu". Napriklad u hesla lolita se nabizi a) Nabokovuv roman b) porno. Vyhledavac muze na prvnich mistech "prostridat" obe interpretace. Pokud to udela, tak v navrzene metodice dopadne pomerne dobre. Jiste mi rozumite, aby to bylo obecne jeste jasnejsi - kdyz budu vyhledavac ja, a nekdo se me zepta "tábor?" tak ja odpovím "a myslíte místo táboření, město Tábor, biblickou horu?". Totez muze umet vyhledavac.

Vam by se asi libilo uznat "jakoukoli odpoved". To je ale nesmysl. Je potreba zohlednit, ze sance, ze dotazem "tábor?" mam na mysli napriklad studenta 3. rocnika gymnazia v Kutne Hore Josefa Tabora je nepatrna.

Opravdu je nejrozumejsi predem vybrat nejakou interpretaci a tu pak hodnotit. Nejlepe samozrejme nahodne z nejakeho repreazentativniho vzorku interpretaci, ten nemam, tak se to da proste nejak nastrelit. Je to subjektivni, ale oproti moznosti ze si autor vymysli dotazy i interpretace libovolne je to rekl bych efekt druheho radu.

Statisitka zafunguje tak, ze nejlip dopadnou vyhledavace, ktere dokazou nabidnout v top10 ruzne interpretace, a na nejvyssi mista zaradi ty nejcastejsi. Nemusi se vam to libit, ale je to v poradku ;-)
Tomáš Hodboď
Tomáš Hodboď (neregistrovaný)
15. 12. 2004 15:54 Nový

Re: Tak tedy jak?

celé vlákno
> To asi spatne ctete. Jinak me pripada mirne receno neslusne, ze Vy provedete metodicky velmi slaby test, dostanete za nej pravdepodobne honorar, a kdyz se v diskusi ctenari ozvou, vyzvete kritiky, at navrhnou, jak to delat lepe. (Navic, kdyz uz to v diskusi vicemene popsali.)

Popsanou metodiku ani její náznak jsem výše nenašel. V diskuzi jsme se bavili o malém počtu dotazů testu, s tím do jisté míry souhlasím. Ale jinak nevím v čem byla metodika tak špatná. Ptal jsem se pro příště, ať už by to psal kdokoli, ať si odnese z této diskuse alespoň nějaké ponaučení. Názory jako s tímhle souhlasím a já s tímhle ne se příliš využít nedají.

Upřímně jsem vám vděčný. Jako jediný z diskutujích jste řádně dokázal něco více navrhnout. Nicméně stále se ta pravá metodika hledá. Vytýkali jste především subjektivitu, ale tento test je na ni také dosti závislý. A také - hodnotit pouze prvních 10 odkazů? Není to příliš malý trest pro vyhledávač, který nenajde nic použitelného? A také - hodnotit pouze stránku, kterou najde vyhledávač nebo se proklikávat dále?
Jirka
Jirka (neregistrovaný)
15. 12. 2004 16:34 Nový

Re: Tak tedy jak?

celé vlákno
Subjektivity se nezbavite. Jen se musi potlacit. Coz se da, pokud bude testovat vic ruznych lidi, kteri se nezavisle budou rozhodovat, co od vysledku ocekavaji, a pozdeji jestli to, co dostali, je to, co ocekavali.

Samozrejme muzete hodnotit treba prvnich 1000 dotazu. Ale pak bych nechtel bych testerem. Z vlastni zkusenosti vim, ze hledam v naproste vetsine jen na prvni strane vysledku (10 nalezenych odkazu), na druhou jdu vyjimecne, na treti skoro nikdy - snad jen u obrazku, protoze tam mam sanci rychle prohlednou obsah vsech najednou.

Pokud bych mezi prvnimi deseti nenasel relevantni odkaz, do vysledku bych zapsal nejake trestne body, treba 20 (zalezi na dohode - nevidel bych to jako zasadni problem, navic se da po testu snadno zjistit, jak hodne tenhle parametr ovlivnuje vysledky). V pripade, ze by se pocitalo pocet relevantnich odkazu mezi prvnimi deseti, tak by vysledek byl v takovem pripade jednoduse 0.
Jirka
Jirka (neregistrovaný)
15. 12. 2004 16:42 Nový

Re: Tak tedy jak?

celé vlákno
"Ale jinak nevím v čem byla metodika tak špatná."

Tohle jeste porad myslite vazne?
Sorry, anonymous
Sorry, anonymous (neregistrovaný)
14. 12. 2004 23:42 Nový

JYXO bez www

celé vlákno
Omlouvám se za anonymní příspěvek, ale jeden nikdy neví... :-/

V práci máme silně ořezaný net (to je koneckonců právo zaměstnavatele) a tak nelze mj. hledat přímo přes jyxo. Máte totiž http://www.jyxo.cz přesměrované na http://jyxo.cz. Náš proxy zahazuje (kromě dalšího) vše co nemá po http:// řetězec www. nebo web. Jediné, co se mi podařilo omylem spustit byl nslookup:

Non-authoritative answer:
Name: jyxo.cz
Address: 212.71.128.65

A tam se dozvím, že Na doméně 212.71.128.65 připravujeme nový projekt.

Můžete s tím zkusit něco provést = ať je funkční i www.jyxo.cz? Google (s www ;-)) funguje a pokud něco hledám, můžu svého nadřízeného požádat, ať mi dočasně povolí přístup na nalezenou adresu. Admin to bez jeho povolení neudělá.

jk
jk (neregistrovaný)
15. 12. 2004 0:13 Nový

Re: JYXO bez www

celé vlákno
Kdo takove bezpecnostni opatreni vymyslel je prvotridni hovado. Nepovolili by vam treba http://www.katedrala.cz/? S pomoci cgi-proxy na http://www.katedrala.cz/?h1=4 pak uz muzete normalne surfovat.

Google s www funguje, ale ma naopak presmerovani na http:///google.com/. Dnes se povazuje za vhodnejsi provozovat server jen na jedne adrese a ostatni presmerovat, takze pochybuju, ze s zadosti o rozdvojeni jyxa uspejete.
Sorry, anonymous
Sorry, anonymous (neregistrovaný)
15. 12. 2004 7:49 Nový

Re: JYXO bez www

celé vlákno
Katedrala nefunguje. Mně nejde o to, abych mohl kamkoliv, jen mi např. chybí právě jyxo. Máme povolené odborné a zpravodajské weby, a třeba ihned.cz mi taky leze na nervy, protože část článků z www.ihned.cz je přesměrována na výsledek bez www. Prohlížeč zahlásí chybu, já do address baru to chybějící www doťukám a voilá, jsem tam.
Jirka
Jirka (neregistrovaný)
15. 12. 2004 10:54 Nový

Re: JYXO bez www

celé vlákno
To si spis stezujte u toho blba, co vymyslel ta nesmyslna pravidla. Jyxo je v tom naprosto nevinne.
Michal Illich
Michal Illich (neregistrovaný)
15. 12. 2004 15:22 Nový

Re: JYXO bez www

celé vlákno
Tak už odpovídáme i na té IP adrese.
Ale spravit si proxy je lepší nápad :)
Sorry, anonymous
Sorry, anonymous (neregistrovaný)
16. 12. 2004 8:13 Nový

Re: JYXO bez www

celé vlákno
No to nepochybně je, ale na obyčejného usera se v naší company každý....

A děkuju :)
Leos Ondra
Leos Ondra (neregistrovaný)
15. 12. 2004 19:24 Nový

Kvalita vs. kvantita

celé vlákno
Nejak se nemuzu zbavit pocitu, ze se cela dlouhatanska debata tocila kolem celkem nepodstatnych veci. Statistika je sice hezka vec, ale kdyz pominu vyber dotazu (nezaujaty, reprezentativni, objektivni a co ja vim) a jejich pocet (dostatecny), pak zbyva ta nejdulezitejsi vec - ohodnotit kvalitu vysledku a priradit ji cislo, abyste mohli rict tenhle vyhledavac je v testu nejlepsi, protoze prumerna kvalita je nejvetsi cislo ze vsech. Chapu, ze je to subjektivni, a proto se s oblibou ve vsech hodnocenich - zvlast tam, kde si vyhlasenim vysledku muzete nekoho proti sobe postvat - hodnoti ciselne a meritelne, byt treba irelevantni veci. Pokud budete platy rozdavat podle odpracovanych let, nebo date vsem stejne, nemusite to zduvodnovat, nebo to obhajite. Pokud zacnete hodnotit kvalitu prace misto kvanitity, pak pohorite.

Podobne uvaha zrejme vedla autory testu kde davali dotazy s jendoznacnou odpovedi - oteviraci doba, delka namesti, nadmorska vyska hor, apod. Samozrejme tohle je jen maly vysek spektra typu realnych dotazu.

Pokud se nestanovi jak merit kvalitu vysledku, jsou debaty o poctu dotazu a jejich vyberu podruzne. Co by mohlo mirne pomoct je sledovat pocet kliknuti na odkazy ve vysledku hledani.

Leo
Daniel Hejduk
Daniel Hejduk (neregistrovaný)
12. 1. 2005 17:47 Nový

Z pohledu admina webu

celé vlákno
mi přijde Google opravdu dobrý. Třeba taková google bomba poukazuje na všímání si textu odkazů. Tím pádem nemusím každé slovo vyskloňovvat, ale stačí v každém katalogu jiný popis. I když v počtu odkazovačů právě vede Seznam. Vlastní test jsem nedělal, ale myslím, že by dopadl trochu jinak.
shipo
shipo (neregistrovaný)
15. 9. 2007 8:03 Nový

velikost písmen

celé vlákno
Neznáte někdo vyhledávač co by uměl rozlišit velikost písmen? (př. seriál "Alias" není to samý jako "alias" u přezdívky)
shipo
shipo (neregistrovaný)
15. 9. 2007 8:35 Nový

Re: velikost písmen

celé vlákno
zatím jsem našel akorát altavista.com
Kw
Kw (neregistrovaný)
17. 8. 2008 11:45 Nový

Co si myslíte o...

celé vlákno
Zasílat nově přidané příspěvky e-mailem