Hlavní navigace

Hledání nejlepšího hledače (4)

Michal Illich 22. 3. 2001

Dnešním dílem končí náš (mini)seriál představování českých vyhledávacích serverů - závěrem se dozvíte konkrétní podrobnosti o portálech Redbox (Contactel), Quick (Český Telecom) či Katedrála (PVT), stejně jako o novém katalogu iDNESu (MAFRA). A pro ty, kteří dočtou seriál až do konce, mám připravené zajímavé překvapení.

Jako první se vám představí dva portály podporované telekomunikačními operátory – Redbox od Contactelu a Quick od Českého Telecomu. Oba mají mnohé společné – existují od podzimu minulého roku, podporuje je mohutná reklamní kampaň, poskytují připojení k Internetu zdarma, fulltextové vyhledávání licencují od třetích firem atd. Také lidé, kteří tyto servery pro tento článek popisují, projevili jednu společnou vlastnost – jejich vyjádření je neskutečně dlouhé, a tak vybírám zajímavé pasáže:

Redbox – http://redbox.cz/

Kateřina Prokopová: (1) Vyhledávání na Redboxu je plně postaveno na prohledávači od americké firmy Google. Hledání podporuje všechny standardní možnosti zadávání dotazu, jako např. +, -, „fráze“. Není třeba zadávat spojku AND, je standardně podporována. Slova s velkým počtem výskytů jsou ignorována. Unikátní vlastnosti: Možnost fulltextového prohledávání i v PDF souborech, možnost prohledávat i newsgroups, možnost jednoduše vybrat, zda hledat v doméně CZ, katalogu Redboxu, světovém fulltextu (vše bez domény CZ), celosvětový fulltext, možnost prohledávání archivu zpravodajství ČTK a BBC.

(2) Databáze katalogu na portálu Redbox aktuálně obsahuje přes 65.500 stránek s českým obsahem, linkchecker kontroluje platnost odkazů každý den. Po určité krátké době, pokud se odkaz jeví jako neplatný, je vyřazen z databáze do záložní databáze a kontroluje se ještě určitou dobu. Pokud se opět rozjede, je ihned zařazen zpět do ostré databáze. Platnost všech linků v katalogu je kontrolována denně. Zajímavostí je, že stránky umístěné na free-hostingovych službách mají nižší prioritu než stránky umístěné na normálních doménách druhé úrovně. Navíc jsou denně přidávány další CZ domény. Redakce kontroluje všechny nové české domény a dle zaměření je postupně přidává a řadí do katalogu. Tím má Redbox zajištěnu i aktualizaci a jeho databáze je plně up-to-date. Třetí možností je, že uživatelé sami mohou přidat URL. Redakce zkontroluje její platnost a obsah a zařadí ji do katalogu.

(3) Technologicky je vyhledávač Google uložen na největším linuxovém clusteru na světě, který tvoří 8.000 navzájem propojených počítačů, které se navenek chovají jako jeden SUPERRYCHLÝ počítač. Výsledky hledání jsou uživateli vraceny do 0,3 sekundy. Velkou výhodou je technologie FALL-THROUGH. To je postup při hledání, kdy zvolím-li jen jednu kategorii hledání a není-li nalezen žádný dotaz, pak se automaticky prohledají další kategorie v pořadí. Co připravujeme a chceme vylepšit je naším tajemstvím, nechte se překvapit!

Komentář: Google je skvělý, to nelze popřít. Ale superlativy, které jsou mu zde připisovány, jsou přehnané: např. 300 ms na dotaz je poměrně dost, vyhledavač FAST je rychlejší (<100 ms) díky své hardwarové akceleraci. Také se technicky nejedná o cluster a že by byl největší na světě nepředpokládám, ostatní vyhledavače potřebují denně zpracovat více dotazů, budou mít tedy IMHO více počítačů.



Quick – http://quick.cz/

Radek Doležel: Vyhledávací a katalogové nástroje Quicku si kladou za cíl kvalitativně i kvantitativně pokrýt oblast českého webu.

Katalog obsahuje v současné době 142 tisíc záznamů (unikátních URL). Na aktualizaci katalogu se pracuje pravidelně každý den. Uživatel má možnost informace o stránce do katalogu vložit a následně i opravit. Vložení proběhne ihned – ve výpisu kategorie se projeví až po jejím předgenerování do statické podoby (nejpozději do sedmi hodin od vložení), ve vyhledávání po vygenerování katalogu v rámci pravidelného nočního zpracování. Každá registrovaná stránka může být dalšími čtenáři okomentována a ohodnocena. Kromě samotných uživatelů katalog spravují operátoři M.I.A., kteří registrované stránky kontrolují, hodnotí, vkládají nové, opravují změněné a ruší neexistující. Pomocníkem jim je program – robot, který prochází registrované stránky a jejich aktuální HTML kód porovnává s HTML kódem uloženým v databázi, hlásí nedostupnost stránek. Zjistí-li změnu, označí záznam a operátorům se tyto záznamy nabídnou ke kontrole. Při vyhledávání v katalogu se berou v potaz údaje o kategorii, názvu, URL a popisu stránky. Je možné používat zástupné znaky, stejně tak operátory AND, OR, NEAR, NOT.

Klubka Unikátní funkcí katalogu jsou klubka. Umožňují sdružování webových stránek do skupin – Klubek – se stejným tématickým zaměřením. Stránky připojené do takového Klubka jsou mezi sebou (pomocí Katalogu) propojené ‚do kruhu‘, můžete si tak z každé stránky zjistit stránku následující, předchozí, náhodně vybranou nebo vypsat celý seznam stránek – členů seskupení.

Fulltext: Quick využívá software společnosti Microton nazvaný Megatext.

Technické zázemí: Katalog je uložen v MS SQL Server 7.0. Aplikační logiku zajišťují ASP, kvůli rychlé odezvě jsou ta data, u nichž je to možné, předgenerována v souborovém systému, případně uložena přímo v paměti serveru v Application proměnných. Vyhledávání dle klíčových slov zajišťuje Search komponenta produktu MS SiteServer 3.0, celá databáze je pravidelně každou noc indexována. Robot, jenž analyzuje HTML kód aktuálních stránek a porovnává je s těmi, jež jsou uloženy v databázi, byl naprogramován v jazyce C. Na strojích je operační systém Windows 2000, web server představuje IIS 5.0.

Komentář: Quick vznikl spojením Zmije a Trafiky – obě byly kvalitní služby a tak má Quick patřičný základ. Pokud chce ale člověk pouze vyhledávat, půjde nejspíš přímo na Megatext nebo ke konkurenci, kde nebude přetížen záplavou dalších informací, které pravděpodobně ani nechce.



Klikni – http://klikni.cz/

Nyní se podíváme na nováčka mezi katalogy – Klikni od iDNES, který už byl mnohokrát na Lupě z různých stran propírán.

Lucie Kudláčková: (1) Největší výhodou vyhledávače je regionální vyhledávání, které umožňuje zadání dotazu přímo v kraji, ve kterém uživatel čeká odpověď. Zadaný dotaz lze bez opakované volby pokládat v různých krajích opakovaně. Vyhledávání je možné upřesnit pomocí podmínek a, nebo, a ne (AND, OR a AND NOT) vkládaných do hledaného výrazu. Dále za každý hledaný výraz doplňuje automaticky hvězdičku, takže jsou vyhledávány i tvary slov. Naopak umožňuje i vyhledávání konkrétních slov či slovních spojení uzavřených do uvozovek.

(2) Databáze obsahuje více než sto tisíc odkazů a obnovovaná je průběžně po celý den s tím, že aktualizace zobrazení probíhá v nočních hodinách. Relevance vyhledávání je kombinací výskytu a počtu hledaných slov v titulku, popisku a URL.

(3) Při vývoji vyhledávače byla použita technologie MS Site serveru. Vzhledem k použité technologii jsme se rozhodli pro vývoj vlastního nástroje vyhledávání. V závislosti na naší statistice hledaných slov předpokládáme rozšíření funkcí vyhledávače o některé operátory a výběr řazení nalezených záznamů uživatelem. Celý vyhledávácí proces bychom chtěli směřovat především k jednoduchosti ovládání ze strany uživatele, tedy systému aktivní pomoci uživateli v případech, kdy počet nalezených odkazů bude příliš vysoký a nebo naopak příliš nízký či alternativní nabídkou dalšího postupu při hledání klíčového slova.

Komentář: Snad každý webmaster v České republice si už stěžoval na nesmyslný popisek, neplatné URL či chybné zařazení jeho serveru v katalogu Klikni. Já jsem od začátku spíš zastánce postoje „dát jim 100 dnů hájení“ – očividně se totiž snaží a všechny chyby opravují rekordní rychlostí. Nejsou ale zdaleka prvním vyhledavačem s regionálním tříděním, jak se snaží všude psát, před Klikni tu byla např. Zóna nebo další.



Katedrála – http://www.ka­tedrala.cz/

Jan Smyčka: Katedrála poskytuje své služby na Internetu od počátku roku 2000. Umožňuje katalogové i fulltextové vyhledávání internetových odkazů a údajů o firmách, které jsou zaregistrovány v regionálním informačním systému REGIONINFO (se kterým se Katedrála v polovině roku 2000 propojila). Přesnějšího výsledku vyhledávání lze dosáhnout použítím logických operátorů a určením pole pro vyhledávání (URL adresa, titulek, popis).

Databáze odkazů je aktualizována denně, jednak uživateli Internetu, kteří si mohou on-line zaregistrovat svůj odkaz, včetně rozšířených informací o registrované URL, tak správcem Katedrály, který se stará o kvalitu databáze na základě analýzy nejčastěji vyhledávaných slov. Aktualizace fulltextové části probíhá v nočních hodinách o víkendech v době sníženého provozu.

Z hlediska technologie je Katedrála vyvíjena nad databází MySQL v prostředí PHP pod operačním systémem Linux. Rozvoj Katedrály je neustále probíhající proces, nyní připravujeme několik nových funkcí na které se mohou uživatelé těšit v polovině roku.

Komentář: Fulltext Katedrály vypadá velmi zajímavě – je u něj jistá inspirace Googlem (po grafické stránce, algoritmy jsou jednodušší). Zároveň jsou vidět podobnosti s vyhledávačem Sherlock – na mou otázku, zda vychází z jeho zdrojových kódů (v takovém případě by musela podle licence GPL uvolnit zdrojáky i Katedrála),pan Smyčka neodpověděl. Jde o základ k větší aféře nebo jen o náhodnou podobnost a nedostatečnou komunikaci?



Empyreum Fulltext – http://fulltex­t.empyreum.cz/

Pro ty, kteří dočetli seriál o vyhledávání až na toto místo, máme odměnu: Jako první se mohou zde a nyní seznámit se zbrusu novým vyhledávačem, který vlastně ještě ani nebyl spuštěn. Je výtvorem společnosti Empyreum, která se jeho vývoji věnovala více než rok – cílem byla co nejvyšší relevance vyhledávání, široké možnosti a uživatelsky příjemné ovládání. Dovolte mi tedy, abych systém ve stručnosti představil, podobně jako to udělalo přede mnou deset serverů:

(1) Vyhledávač podporuje tyto operátory: +/-, fráze (""), Booleovy operátory (AND, OR, NOT), omezování pomocí domén (host: ), vyhledávání hyperlinků (link: ), poziční operátory (title:, url: ), hvězdičku pro doplňování více znaků, otazník pro doplnění jednoho znaku, regulární výrazy – více viz dokumentace. Navíc nabízí prohlížení textového obrazu stránek (cache), vyhledávání článků či diskusí, clustering, obousměrné doplňování diakritiky a další možnosti.

(2) Relevance/přesnost vyhledávání byla naším hlavním cílem. K jejímu určování používáme analýzy hyperlinkové struktury Internetu. Web nevnímáme jako skupinu individuálních stránek, ale jako dynamický a komplexní systém: z toho, odkud, s jakým popiskem a v jakém kontextu je každá stránka linkována, zjistíme více informací (a spolehlivějších) než na stránce samotné.

(3) Celý systém běží na unixových systémech. Rychlost vyhledávání zajišťuje vlastní databázový systém, speciálně pro tento účel navržený a optimalizovaný.

Jste srdečně zváni si vyhledavač vyzkoušet. Ještě není implementován do žádné veřejně přístupné služby, k dispozici je pouze neveřejná ukázková verze. Přístupové údaje pro čtenáře Lupy jsou: jméno „lupa“, heslo „demo“. Ostatním není zatím přístup dovolen.

Zde má role končí, doufám, že vám tento seriál přinesl mnoho zajímavých informací. Veškeré dotazy či připomínky směrujte buď na můj mail nebo do diskusního fóra – děkuji a přeji příjemný den.

Našli jste v článku chybu?

26. 3. 2001 17:33

Vít Zvánovec (neregistrovaný)
Možná se pořád nevyjadřuji dost jasně. Taky se mi zdá, že naše debata sklouzává k otázce zobrazovaní znaků na webu, což zcela jistě není problém, který by měl řešit Váš vyhledávač.
K zobrazení znaků. Jde jen o to, aby pohlížeč zvládl ZÁROVEŇ zobrazit &egrave; a e s háčkem (ě); &ccedil; a c s háčkem (č) apod. To MSIE umí, zatímco NN ne.
Vaše řešení diakritiky proto nechci nijak kritisovat a mrzí mne, že se debata na to stočila. Jde totiž o něco úplně jiného: o české slovní kmeny, u nich…

26. 3. 2001 10:02

Michal Kara (neregistrovaný)
Nejsem odbornikem na GPL, ale co se pamatuji, tak GPL rika, ze zdrojove kody se musi sirit s programem pokud se siri binarni podobe. Kdyz nejaky GPL program upravim a nesirim ho, ale vystavim k nemu WWW interface, tak nejsem povinen jeho zdrojaky zverejnit. Kdyz ho nekomu davam, musim mu dat i zdrojaky - ale jenom tomu, komu jsem dal upravenou verzi. Takze pokud Centrum zverejnuje zdrojaky k Sherlockovi, cini tak spise z dobre vule a ne proto, ze ho k tomu nuti GPL.
Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

Měšec.cz: U levneELEKTRO.cz už reklamaci nevyřídíte

U levneELEKTRO.cz už reklamaci nevyřídíte

Podnikatel.cz: K EET. Štamgast už peníze na stole nenechá

K EET. Štamgast už peníze na stole nenechá

Měšec.cz: Zdravotní a sociální pojištění 2017: Připlatíte

Zdravotní a sociální pojištění 2017: Připlatíte

DigiZone.cz: ČT láká na jarní programové tipy

ČT láká na jarní programové tipy

Root.cz: Mirai má nový cíl 5 milionů routerů

Mirai má nový cíl 5 milionů routerů

DigiZone.cz: Flix TV má set-top box s HEVC

Flix TV má set-top box s HEVC

Měšec.cz: Europlatby: někde bez poplatku, jinde i 350 Kč

Europlatby: někde bez poplatku, jinde i 350 Kč

120na80.cz: Pánové, pečujte o svoje přirození a prostatu

Pánové, pečujte o svoje přirození a prostatu

Vitalia.cz: Jsou čajové sáčky toxické?

Jsou čajové sáčky toxické?

Podnikatel.cz: Udávání kvůli EET začalo

Udávání kvůli EET začalo

Vitalia.cz: Pravda o přibírání na zimu

Pravda o přibírání na zimu

Root.cz: Telegram spustil anonymní blog Telegraph

Telegram spustil anonymní blog Telegraph

DigiZone.cz: Další dva kanály nabídnou HbbTV

Další dva kanály nabídnou HbbTV

DigiZone.cz: HD programy ČT i v UPC Horizon

HD programy ČT i v UPC Horizon

Vitalia.cz: Nahradí sluch, ale zvuk je zcela jiný

Nahradí sluch, ale zvuk je zcela jiný

Měšec.cz: Banky mlží o nákladech na předčasnou splátku hypotéky

Banky mlží o nákladech na předčasnou splátku hypotéky

Podnikatel.cz: 3, 2, 1..EET startuje. Na co nezapomenout?

3, 2, 1..EET startuje. Na co nezapomenout?

Root.cz: 250 Mbit/s po telefonní lince, když máte štěstí

250 Mbit/s po telefonní lince, když máte štěstí

Měšec.cz: Air Bank zruší TOP3 garanci a zdražuje kurzy

Air Bank zruší TOP3 garanci a zdražuje kurzy