Hlavní navigace

Hledání nejlepšího hledače (3)

Michal Illich

Dnes se vám, v rámci našeho pátrání po nejlepším českém vyhledávači, představí další čtveřice projektů. Na dotazy odpovídal pan Šustek za fulltextový hledač Megatext.cz, Jiří Zrník za méně známý portál Webcz a Vašek Peričevič za Yo.cz. Nakonec se podíváme, čím se liší metahledání na serveru Archon.cz od vyhledávání klasického.

Těm, co četli předchozí články není třeba opakovat náš cíl – chceme představit všechny užitečné vyhledávače na české internetové scéně. Položili jsme proto představitelům jednotlivých serverů tyto tři otázky:
  • V čem spočívají hlavní výhody vašeho vyhledače? Jaké poskytuje uživateli možnosti? Má nějakou unikatní vlastnost, kterou ostatní nemají?
  • Jaká je velikost databáze, jak často a v jaké míře je obměňována? Jak zajišťujete relevanci (přesnost) vyhledávání?
  • Jak probíhal vývoj vyhledavače, na jakých technologiích je založen, jaké máte plány na vylepšení do budoucna?

Megatext – http://megatex­t.cz/

Odpovídá pan Šustek z firmy Microton, autor a provozovatel vyhledavače:

(1) Megatext sází především na svou technologickou převahu: Nabízí databázi o rekordním objemu, vysokou rychlost hledání, automatické vyhledávání českých ohýbaných slov ve všech jejich morfologických tvarech a výběr vzorků textu z těch pasáží stránky, které skutečně obsahují hledaný výraz.
(2) Databáze obsahuje pět milionů stránek, aktualizována je přibližně jednou za měsíc. Relevantnost stránky se počítá podle toho, kolikrát se na ní vyskytuje hledané slovo nebo slovní spojení.
(3) Megatext běží na Windows 2000, je napsán v C++ jako ISAPI aplikace. Vznikl jako vedlejší produkt našeho výzkumu v oblasti automatizovaného překladu, při naší snaze shromáždit větší množství textu pro vývoj stochastického anglicko-českého překladače. Další rozšiřování jeho služeb zatím neplánujeme, Megatext pro nás zůstává spíše doplňkový marketingový nástroj, který nám umožňuje levnou propagaci našich produktů na internetu.

Komentář: Silnou stránkou Megatextu je jeho velká databáze a citování úryvků, které obsahují žádaná slova. Jinak působí Megatext jako nedodělaná služba – nepřítomnost jakýchkoliv operátorů ho diskvalifikuje pro pokročilejší vyhledávání a při víceslovných dotazech se chová poměrně nevyzpytatelně.



Webcz – http://webcz.cz/

Za tuto službu na otázky zodpověděl Jiří Zrník, Founder / CEO />

(1) Hlavní výhody našeho vyhledávače bezesporu jsou detailně členěné kategorie, uživatelsky jednoduché a příjemné prostředí, vysoká relevance vyhledávání zajištěna naším vlastním vyhledávacím enginem.
(2) Každý vložený odkaz je pečlivě kontrolován našimi administrátory, přičemž vložení odkazu probíhá ihned. Platnost a aktuálnost databáze je průběžně automaticky kontrolována. Velikost databáze je v porovnání s největšími českými vyhledávači jistě zatím nevelká, ale přiměřená době vzniku a o vzrůstající tendenci.
(3) Vyhledávač Webcz.cz využívá vyhledávacího enginu Webcz Search Engine v1.15, který je naším vlastním produktem. Při jeho vývoji byl právě kladen velký důraz na predikci vrácených výsledků a rychlost. Jeho unikátní vlastností je schopnost zaznamenávat dotazy a reakce uživatelů, kterým se následně snaží přizpůsobovat. Jako rozširující je jistě možnost využití fulltextového hledače Megatext přímo z prostředí Webcz.

Komentář: Webcz se mně líbí – příjemný a přehledný design, vše dobře ovladatelné (iritující je pouze, že vykopává uživatele s Netscape Navigatorem). Autory čeká mnoho práce – katalog je zatím maličký a ani to vyhledávání není příliš přesné.



Intermezzo

Když mě Mirek Zeman oslovil, zda bych nemohl napsat články o českých vyhledavačích a provést nějaký test, který by zhodnotil jejich kvalitu, nejprve jsem odmítl. Můj důvod byl prostý: provozujeme jeden z českých vyhledavačů a nyní vyvíjíme další. Mohl bych tak být označen za zaujatého, i kdybych se sebevíce snažil o objektivitu. Nakonec jsme se ale dohodli na této formě článků – pokud bych měl mít já nějakou výhodu, nechť ji mají všichni! – Každý z vyhledávacích serverů tak má v této sérii článků šanci popsat svůj server tak, jak ho vidí sám.

Archon – http://archon.cz/

Proto se nyní nedivte, že na otázky odpovídám jako jeden z představitelů serveru Archon já:

START17

(1) Archon.cz je metahledač – to znamená, že prohledává zároveň vždy několik vzdálených databází. Takový postup mu poskytuje možnost najít více než kterýkoliv z jednotlivých vyhledavačů, kterých se dotazuje. Uživatel tak nemusí chodit od „čerta k ďáblu“, ale najde vše pohodlně z jednoho místa. Vše doplňujeme obrovským katalogem stránek – Open Directory (viz dmoz.org). Ten obsahuje dva a půl miliónu popsaných a zařazených odkazů z celého světa.
(2) Velikost databáze je dynamická – vzhledem k překryvu jednotlivých databází vrací Archon obvykle dvakrát víc odkazů než největší z používaných hledačů. Relevance vyhledávání byla naším hlavním cílem – počítáme ji pomocí jednoduché neuronové sítě.
(3) Jako vše co děláme, běží i Archon na unixech a vlastní technologii. Konkrétně jde o Linux a multithreadový program v Céčku. Do budoucna plánujeme významná vylepšení a rozšíření Archona – nechte se překvapit.


Yo.cz – http://yo.cz/

Odpovídá Vašek Peričevič, který prozrazuje, že Yo.cz bude mít brzy vlastní fulltextový vyhledavač. Odpověd přetiskuju v nezměněné podobě, i když jí místy nerozumím ;)

1. Yo.cz nyni teprve horizontu 2–3 týdnů chystá vlastní vyhledavač zajímavý především v některých unikatních řešení orientace a hledání uživatele pri fultextovém hledáni
2. Prozatimní velikost / neustale se indexuje je cca 30 GB /
3. Jelikoz se zatim indexuje obmena po spusteni bude cca 2–3 tydne
4. Vyvoj probiha a odkazuji se na dobu 3 tydnu kdy bude cely system fultextového hledaní na Yo.cz spusten

Komentář: Yo.cz si vzalo příliš velké sousto – snaží se nabízet téměř vše pod sluncem. V této sérii ale hodnotíme pouze vyhledávání a tam má Yo co dohánět – jejich katalog je malý, neudržovaný a plný spamu, a vyhledávání se o relevanci ani nepokouší. Nicméně na jejich fulltext jsem upřímně zvědavý, možná nabídne něco originálního, jak říkají.

V příštím díle se podíváme na zbývající vyhledavače – na relativní nováčky Quick, Redbox a Klikni, na portál Katedrála a nakonec vás čeká i jedna úplná novinka.

Našli jste v článku chybu?
15. 3. 2001 19:31
Jiří Zrník (neregistrovaný)
(... vykopává uživatele s Netscape Navigatorem). Webcz uzivatele nevykovava, nybrz nabada k uziti MSIE. V kazdem pripade tato hlaska, kterou mohou uzivatele NN videt v brzke dobe zmizi. Jiz nejaky cas pracujeme na nove verzi s novymi sluzbami a vylepsenimi a jednim z nich je prave podpora i mene rozsirenych browseru (NN, Opera, atd.)
15. 3. 2001 16:29
Michal Illich (neregistrovaný)
Na toto jsme vlastne ani nepomysleli - ono by to totiz bylo neefektivni, museli bychom polozit dotaz jinemu vyhledavaci a dostali bychom 10 urls - kdybychom takhle chteli ziskat 5 milionu URLs, asi by nas nekdo zabil :) Archon bude samozrejme pokracovat dal, jeste s mnoha vylepsenimi. Kdyztak mi mailnete, poslu vam URL developerske verzi k betatestu.