Názory k článku
Recenze vyhledavačů: WebFast.cz
Dotaz
celé vláknochci se zeptat co si myslíte o open source vyhledávacích enginech? Má zkušenost je ta, že jsme si ji jedentakový nainstalovali na lokálním stroji a není to špatné.
Re: Dotaz
celé vláknoRe: Dotaz
celé vláknonainstalovali jsme si ASP Seek. Je celkem v pohodě, ale má kapku problémy s češtinou, anebo spíše je mám já s nastavením. Wšiml jsem si, že existuje dokonce i jeho uvedení do praxe na českém internetu. Jedná se o doménu www.webseek.cz. Nejvíce mě na něm zaujala možnost zindexovat i PDF a DOC soubory.
Re: Dotaz
celé vláknoRe: Dotaz
celé vláknoRe: Dotaz
celé vláknoRe: Dotaz
celé vláknonenalézá...
celé vláknostranky mimo .cz
celé vláknoMnoho povyku pro nic
celé vláknoJe smutne, ze v dobe svatecni dokaze nedosatek novinek dohnat autory k az takhle pochybnym clankum, ktere, pravda, zonglujice odbornymi terminy na kazdem druhem radku vyhlizeji velice ucene, ale pritom vynaseji soudy naprosto nepodlozene fakty nebo v horsim pripade faktum evidentne odporujici.
S podivem jsem si napriklad precetl, ze Webfast ani Centrum nepodporuji hvezdicky na koncich slov, coz samozrejme podporuji a dokonce i priklad uvedeny v clanku funguje dle ocekavani. (Mimochodem, automaticke hledani pravostrannych rozsireni slov Webfast neprovadi ne proto, ze by na to autori zapomneli, ale proto, ze si to promysleli, vyzkouseli a zavrhli jako relevanci skodici. Automaticke sklonovani slov by samozrejme velice prospelo a je to jedna z prvnich veci, ktere se chystaji pro dalsi verzi.)
Take mne prekvapilo, ze autor zkousel Webfast i Centrum a ani si nevsiml, ze oba vyhledavace davaji naprosto shodne vysledky, jsou to totiz dva front-endy k temuz vyhledavacimu serveru.
Tabulka bodovych hodnoceni vyplnena dvema sloupecky bodu, aniz by se autor zminil, jak k cislum dosel, (s nekolika vyjimkami) co vlastne zkousel nebo dokonce (ale to bych asi chtel opravdu prilis) uvedl primo testovane dotazy, aby si jeho vysledky mohl kdokoliv overit, rovnez nevypada moc verohodne.
A tim jsme se pomalu propracovali kupkou sena ke konci clanku, aniz bychom ovsem narazili na onu povestnou jehlu. Receno se Shakespearem, mnoho povyku pro nic -- zadna fakta, pouze hromada silne podivnych subjektivnich hodnoceni.
Loucim se s pranim prijemneho noveho roku a toho, aby se pri cetnosti clanku o vyhledavacich v tom nasem ceskem rybnicku take jednou konecne objevila nejaka seriozni a podlozena analyza.
Disclaimer: Martin Mares je autorem vyhledavaciho systemu Sherlock, na kterem mimo jine bezi Webfast a Centrum Fulltext. Proto je jeho pohled z principu zaujaty a mel by (stejne jako pohled kohokoliv jineho) pouze slouzit k povzbuzeni k vlastnimu premysleni o tematu a nikoliv byt povazovan za nezpochybnitelnou pravdu.
P.S.: Mozna by neskodilo, aby se take u puvodniho clanku objevil podobny disclaimer, ze jeho autor ma nebo alespon mel neco spolecneho s vyhledavacem Empyreum (viz napriklad komentare k clanku "Co hledam, zapominam" tady na Lupe).
Re: Mnoho povyku pro nic
celé vláknoZatim jsme nevideli dalsi kritiku
celé vláknoA poznamka - to jestli je sluzba lepsi nebo horsi technicky neznamena, ze bude vice uzivana. Vyhledavac Seznamu je podle meho laickeho nazoru jeden z nejhorsich a presto je nejpouzivanejsi.
Re: Zatim jsme nevideli dalsi kritiku
celé vláknoJistě je pro portál zajímavé mít špičkovou fulltextovou technologii, ale jelikož nám naše portály nerozkrývají statistiky počtu dotazů/PV/UIP, můžeme jen věštit z křiš%tálové koule, zda lidé, kteří chtějí opravdu nalézt a alespoň trochu hledání roumějí, chodí za kvalitou nebo za masově známou značkou.
Re: Zatim jsme nevideli dalsi kritiku
celé vláknoDoufam, ze zarazenim naseho skveleho systemu Rande.cz mezi idiotske otazky nechcete snizovat jeho kvalitu. Kazdopadne je Rande.cz uzivano predevsim vecer (takze maji doma pocitac a pripojeni), uzivatelum je kolem petadvaceti a maji dokoncene stredoskolske a vysokoskolske vzdelani. To, ze existuji trubci, kteri ve vyhledavacich hledaji www adresu je zname. Chybu vsak nelze hledat pouze u uzivatelu, ale take v rozhrani vyhledavacu.
Pro normalni lidi je nejdulezitejsi dobre usporadany katalog a v tom Seznam vede na cele care. Neznam sice pomer mezi vyhledavanim Kompasem a vyhledavanim v katalogu Seznamu, ale znam chovani lidi na nasich strankach Seznamka.cz, Bazar.cz a Byty.cz (Celkem pres 300.000 unikatnich navstevniku a 1.000.000 navstev mesicne). Pomer mezi listovanim kategoriemi a regiony vuci vyhledavani je 95:5.
Co se tyce vyhledavacu - ja pouzivam vlastni metodiku a WebFast ma velmi slusny vysledek. Mozna je vice vhodna pro pitomecky o kterych pisete, ale kdyz se nad tim zamyslite a aplikujete to i na ostatni dotazy - tak jde prece o to dostat to nejlepsi na prvnim miste.
Testuji nasledujicim zpusobem: Ve vyhledavacim okenku napisi text seznamka. Hodnotim nasledovne: Pokud je na prvnim miste mezi vyhledanymi adresami www.Seznamka.cz a na druhem chat.seznamka.cz je to za jedna. To splnuje Empyreum :-)).
Google, Atlas a Webfast maji seznamku na prvnim miste - ok.
Seznam je zde nejslabsi :-(((.
Re: Zatim jsme nevideli dalsi kritiku
celé vláknoCo se týče vaší spokojenosti s rankingem ve fulltextech, tak tu sdílím s naší adresou též, např. WebFast velice pozivně hodnotí hledaný výraz jako součást domény. Na dotaz "seznámení" už ale v první dvacítce se Seznamkou nejste. Rovněž na dotaz "lesby seznamka" jsem Seznamku mezi prvními dvaceti nenašel.
Re: Zatim jsme nevideli dalsi kritiku
celé vláknoRe: Zatim jsme nevideli dalsi kritiku
celé vláknoRe: Zatim jsme nevideli dalsi kritiku
celé vláknoRe: Zatim jsme nevideli dalsi kritiku
celé vláknoRe: Zatim jsme nevideli dalsi kritiku
celé vláknoPro normalni lidi je nejdulezitejsi dobre usporadany katalog a v tom Seznam vede na cele care
Proč si myslíte že Seznam svým katalogem vede na celé čáře ? V návštěvnosti jistě, ale je to dáno pouze tím, že tu byl 1. a že se jej lidé naučili používat.
Porovnám-li katalog Seznamu a Klikni je Seznam mnohem méně přehledný. Je to dáno zejména tím, že odkazy si do sekcí přidávají sami uživatelé a je jim dovoleno téměř vše. Naopak v Klikni je každý nový odkaz do všech odpovídajících kategorií zařazen až editory katalogu, kteří jeho strukturu znají nejlépe.
Pro ilustraci porovnejte např. hrady na Klikni a na Seznamu ale našel byste jistě mnoho dalších příkladů (Lyžařská střediska, Hudební skupiny a interprety atd.)
GULÁŠ.klikni.cz
celé vlákno1. Odkaz Seznamka.cz je tam trikrat. Jeden odkazuje opravdu na www.Seznamka.cz. Dalsi dva na www.Webhotel.cz (nase domena presmerovana na seznamku) a dalsi na www.stroje.cz, ktere mame presmerovany na www.Bazar.cz.
2. V teze sekci najdete titulek Skripta.cz - nase domena. Najedete li na ni mysi uvidite, ze odkazuje na www.Pocitace.cz - jina nase domena presmerovana na Bazar.cz. Pro presnost mame Skripta.cz presmerovana na www.Antikvariat.cz.
Doufam, ze nas nepodezrivate z toho, ze GULAS.klikni.CZ jsme varili my :-))))). Tim samozrejme nepopiram, ze mame dost bordelu na nekterych vlastnich strankach. Nemame vsak zdroje jako Idnes a to nas omlouva.
GULÁŠ.seznamka.cz
celé vláknonapř. váš www.webhotel.cz v době, kdy byl odkaz do Klikni přidáván (18.10.2000) ukazoval na seznamku (a jak sám píšete, ještě dnes ve 12:53 tomu tak bylo), ale v tuto chvíli je přesměrován na www.bazar.cz
Rozhodně ale není problém zatelefonovat na naši info linku nebo zaslat e-mail a každá nesrovnalost lze do 24 hodin vyřešit.
Ale jednodušší je psát na Lupu reakce o guláši.
Re: GULÁŠ.seznamka.cz
celé vláknoRe: Zatim jsme nevideli dalsi kritiku
celé vlákno> Google, Atlas a Webfast maji seznamku na prvnim miste - ok.
takze webseek.cz ma take za jedna, to mne tesi ;)
Re: Mnoho povyku pro nic
celé vláknoprislusi mi reagovat pouze na posledni odstavec textu -- autor nema/nemel nic spolecneho s vyhledavacem Empyreum -- je to proste shoda jmen.
Re: Mnoho povyku pro nic
celé vláknoRe: Mnoho povyku pro nic
celé vláknoRe: Mnoho povyku pro nic
celé vláknoLupe opravdu chybi lide pisici kvalitni odborne clanky.
PS: WebSeek ohybani slov podporuje jiz pul roku ;-)
PPS: zajimalo by mne zda Martin Mares uvolni zdrojove kody sherlocka 2.0 pod GPL (jak v diskuzi na lupe kdysi sliboval) - zda je jeho idealizmus dostatecne silny v konfrontaci se zahranicnim kapitalem :-)
Re: Mnoho povyku pro nic
celé vláknoRe: Mnoho povyku pro nic
celé vláknoKe zbytku vasich obrannych (nikoliv diskuznich poznamek) by bylo vhodne, abychom napr. diskutovali s pomoci knihy Baeza-Yates, Ribeiro-Neto, ACM Press, Addison-Wesley "Modern Information Retrieval" ISBN: 0-201-39829-X. Pomuze Vam hledat chybu ne v kritice, ale v pouzitych algoritmech. Nebudte nastvany, ze je boolsky model prekonany, za to prece nemuzete! Ale nechtejte po mne, abych to opomnel nalezite kritizovat.
S vyhledavacem Empyreum nemam nic spolecneho, a po publikaci clanku o Empyreum, na to prijdete sam. Mohu dopredu prozradit, ze v ceske domene neskonci webfast.cz na poslednim miste (pohybuje se totiz prevazne v nenulovych hodnotach).
Zaverem se Vam omlouvam, ze clanek vyzniva misty subjektivne, v tom s Vami souhlasim. S ohledem na to, ze je muj prvni pro internetove medium, a na ceste k doktoratu z vyhledavacich stroju pisete povetsinou jinym stylem, pro jinou ctenarskou obec, a v jinem rozsahu, tak me tato opravnena vytka velmi mrzi. Myslim, ze totiz mohu vsechny tzv. subjektivni zavery podlozit konkretni serii dotazu, a je jen skoda, ze jsem tyto pasaze z prostorovych duvodu nepublikoval (cemuz se ale v budoucnu nebranim).
Mam-li shrnout cele to "seno" do povestne "jehly", nejvetsi slabinou webfast.cz je kalkulace podobnosti dotazu a dokumentu. Doufam, ze tento zaver neprijmete jako osobni kritiku, ale jako kritiku pouzite formule. Jsem pak ochoten uvest odkazy na vedecke podklady vc. ISBN.
Re: Mnoho povyku pro nic
celé vláknoPredem: Omlouvam se za sve obvineni ze spoluprace s Empyreem, nachytal jsem se na shodu jmen a neobjektivnost clanku tuto domnenku vytecne podporovala.
Hvezdicky funguji i v pokrocilem vyhledavani, pokud nezapomenete dotaz uzavrit do uvozovek (viz help).
Nehledejte v mych odpovedich, prosim, ze bych clanek povazoval za jakykoliv druh osobni invektivy -- k tomu, doufam, sklony nemam. Pouze velice nesouhlasim s pouzitou argumentaci, zejmena s tvrzenimi typu "boolovsky model je prekonany", podobnym zpusobem lze totiz "vyvracet" naprosto cokoliv, pripomenme si napriklad, ze podle nekterych teoretiku (Tannenbaum a spol.) je treba takovy Unix beznadejne zastaraly system, a pritom je to jeste stale to nejlepsi, co mame k dispozici.
Preji hezky den a tesim se na dalsi diskusi.
Malinko jednostranné
celé vláknoZejména v anglicky hovořících zemích je mimořádně rozvinut "průmysl" (promiňte mi amerikanismus) optimalizace stránek pro vyhledavače. Již léta se optimalizátoři uchylují k nejrůznějším trikům a autoři vyhledavačů proti nim musí bojovat.
Z toho důvodu mohou např. informace ležící mimo nalezenou stránku ovlivňovat, a u mnoha vyhledavačů i ovlivňují, její pozici víc, než její vlastní text. Příliš ideální shoda klíčových slov a frází s dotazem je podezřelá a bývá častěji penalizována zhoršením pozice, než aby vedla k pozici lepší.
Zkrátka prohledavače webu se nenacházejí v ideálním prostředí a musí se tomu přizpůsobit. Mohu se autora zeptat, zda toto vzal v úvahu?
Re: Malinko jednostranné
celé vláknoBavime-li se o kriteriich, asi mate na pameti napr. Yuwono-Lee pristup, kdy se misto klasickeho vektoroveho tf.idf pouzivaji boolsky, vektorovy a nasledne criterion citaci. Stejne tak Kleinberg s HITS (seznam vyznamovych serveru pro slova) neni spatny, a jiste by nasel sve uplatneni v ceske domene. S ohledem na tyto skutecnosti jsem take stanovil body nejvyse kolem bezneho prumeru, protoze zadna z techto technik nebyla z provadenych vysledku patrna.
Pokud bych zohlednoval vyhradne schopnost skutecneho ostreho nasazeni v prostredi WWW, vysledky by mozna mnohe jeste vice roztrpcily. Duvodem je (bohuzel) to, ze ceske vyhledavace vice sazi na marketing a mene na technologickou vyzralost v souladu s nejnovejsimi poznatky. Zde se musim trochu zastat Ameriky, protoze tam jiz pomalu zacinaji chapat, ze marketing a technologie musi jit v ruku v ruce. Neni prece mozne uvadet v reklame, ze stroj je presny, kdyz to nijak technologicky nezajistuje. Zvlaste kdyz je kupr. pri hledani domovskych stranek nadmiru nepresny.
Re: Malinko jednostranné
celé vláknoEMPYREUM: Shoda jmen;)
celé vláknoctenare a provozovatele Lupy zdravi,
Karel Panek, strategie rozvoje spolecnosti
EMPYREUM k. s.