Hlavní navigace

Hledání nejlepšího hledače (2)

Michal Illich

Na pomyslném startu nyní stojí tucet českých vyhledávačů, každý z nich připraven ucházet se o vaši přízeň. Dnes se podíváme na současnou velkou trojku českého Internetu - Seznam, Atlas a Centrum. Zajímat nás budou jejich schopnosti, relevance, velikosti databází i lidé, kteří se za nimi skrývají.

Hodnotit cokoliv je vždy obtížné – musíte být objektivní, jak se od vás očekává podle novinářské etiky, ale zároveň nemůžete popřít, že jste „subjekt“, který také má své názory, požadavky a preference. Na Internetu je vše zpestřeno tím, že jsme si všichni vzájemně konkurenty (boj o stejné uživatele a jeden reklamní prostor). Proto, než abych se pokoušel ohodnotit cizí internetové služby a tím riskoval, že budu (a možná právem) označen za zaujatého, vymysleli jsme jiné řešení.

A to řešení vpravdě šalamounské – necháme jednotlivé představitele českých vyhledávačů, aby své servery popsali sami. Nejsme tak naivní, že bychom se domnívali, že nám takový postup přinese objektivní informace. Naopak budeme společně svědky, jak vypadá PR jednotlivých společností naživo – možná se nedozvíme ani tak informace o vlastních službách, jako spíše o lidech, kteří za nimi stojí. Jindy nás ale příjemně překvapí nějaký mimoděk sdělený technický detail nebo dokonce přesné číslo.

Představitelům jednotlivých serverů byly položeny následující tři otázky či tématické oblasti:

  • V čem spočívají hlavní výhody vašeho vyhledávače? Jaké poskytuje uživateli možnosti? Má nějakou unikátní vlastnost, kterou ostatní nemají?
  • Jaká je velikost databáze, jak často a v jaké míře je obměňována? Jak zajišťujete relevanci (přesnost) vyhledávání?
  • Jak probíhal vývoj vyhledávače, na jakých technologiích je založen, jaké máte plány na vylepšení do budoucna?

Za odpovědi jednotlivých serverů se ještě pokusím připojit komentář, nějakou upřesňující informaci či zajímavost, a vytvořit tak alespoň částečnou protiváhu k jednotlivým názorům.

Seznam.cz – katalog i fulltext

Velmi stručně odpověděl Ivo Lukačovič:

(1) V jednoduchosti ovládání.

(2) Přes 150 tisíc ručně zatříděných odkazů v katalogu. Přes milion ve fulltextové databázi.

(3) Vlastními silami. C, C++. WWW rozhraní je pak v perlu, jako FastCGI. Vše běží na Linuxu.

Komentář: Co do jednoduchosti vyhledávání není podle mne mezi českými vyhledávači žádný rozdíl. Katalog Seznamu osobně považuji za asi nejlépe spravovaný – má malý náskok co do velikosti, nejsou v něm nesmyslné chyby, kategorizace je přehledná. Jeho velkým problémem bývala rychlost vložení dotazu – trvala cca měsíc, zatímco v ostatních katalozích jste byli do druhého dne. Od té doby se to předpokládám zlepšilo (uvítáme názory v diskusi). Jakkoliv je katalog dobrý, fulltext Kompas je jeho pravý opak – maličká databáze (pětkrát menší než mají vedoucí české fulltexty), zřídka aktualizovaný (nyní jsou tam stránky z cca 3. listopadu minulého roku), chyby, nezodpovídání některých dotazů, špatná identifikace duplicit, žádná relevance. Je poměrně překvapující, jak mohl Seznam na tuto svou důležitou službu tak zapomenout (copyrighty na webu zmiňující poslední roky 1997–1998).

MSN.Atlas – katalog i fulltext

Product manager firmy Atlas.cz, Pavel Doležal, to vzal naopak velmi zeširoka:

(1) Vyhodou vyhledavace v ramci naseho portalu je hlavne to, ze pouzivame system „inteligentniho hledani“ kdy uzivatel, ktery hleda z jednoho mista, dostane na svuj dotaz vysledky z nekolika dtb, ve kterych se prohledava zpusobem presnym k te ci one dtb. Takze napr. pri hledani v katalogu, kdy se hleda v dtb. vice jak 130.000 unikatnich URL, se pouziva jina logika hledani a zpracovani dotazu nez pri hledani v online dtb. zpravodajstvi ci v dtb. map. Inteligentni vyhledavani spociva v tom, ze se prvni prohledavaji databaze, jejichz obsah je spolehlivy, konkretni a strukturovany, a teprve v dalsich etapach se prohledavaji mene strukturovane databaze a uplne nakonec se pouziva fulltextove prohledavani celeho ceskeho Internetu…

(2) Jak jiz jsem rekl v odpovedi na predeslou otazku, hleda se v nekolika ruznych dtb., ktere jsou svym typem a obsahem zcela odlisne, a to dela hledani zcela unikatnim. Neznam mnoho vyhledavacu ve svete, ktere by hledaly zaroven ve statickych a zaroven v zivych dtb. Napriklad:

  • dtb. katalogu – pres 137.000 unikatnich odkazu
  • dtb. fulltextu – nekolik milionu stranek, obnovovanych kazdych 10 – 14 dni
  • dtb. zpravodajstvi – zpravy za posledniho pul roku vcetne novych
  • inzerce tisice inzeratu
  • mapy veskere ZUJ (zakladni uzemni jednotky) v CR

(3) Pouzivame dve zakladni technologie: Pro inteligentni hledani vychazime z MS SQL 7, nad kterym mame vyvinute proprietarni reseni, ktere zajistuje spravnou praci s ruznymi typy dtb., jakoz i spravnou relevanci udaju v ruznych zdrojich a dostatecnou rychlost zpracovani dotazu. Fulltextove vyhledavani je v soucasne dobe take postaveno na MS technologie Site Serveru 3.0.

Rozvijeni systemu vyhledavace je velice slozita vec, jelikoz je spojeno s koncepci celeho portalu a jeho filozofii. My jsme velky horizontalni portal, ktery v urcitych oblastech presahuje do vice profilovaneho obsahu ci sluzeb. Snazime se poskytnout nasim uzivatelum sirokou paletu informaci na jednom miste a zaroven pro ne vybirat a upozornovat je na to nejlepsi, co lze u nas a jinde najit. Pricemz se snazime, aby se tak odehravalo v ramci jednoducheho uzivatelskeho rozhrani tak, aby uzivatel intuitivne vytusil, co a kde muze delat a aby byl systemem veden vzdy k dalsimu kroku. Touto filozofii se bude i do budoucna ridit rozvoj naseho portalu jako takoveho, a tim padem i naseho hledani. Snazime se, a budeme i nadale, byt temi, kdo posunuji hranice technickych moznosti dal pri zachovani jednoducheho prostredi pro uzivatele.

Komentář: Nadšení pana Doležala z „inteligentního vyhledavání“ příliš nesdílím – když se podíváte na ostatní vyhledávače z tohoto článku, zjistíte, že dělají naprosto totéž: není to tedy žádná vyjímečnost Atlasu. Metahledače nebo peer-to-peer hledače jdou v kombinování různých databází ještě o pár kroků dál. Škoda, že jsme se nic nedozvěděli o zajišťování relevance, tam má Atlas ještě co dohánět.

Centrum.cz

A do třetice tu máme názor Oldy Bajera z firmy NetCentrum:

(1) Portal Centrum.cz ma integrovane vyhledavani katalogove, fulltextove, vyhledavani cen v internetovych obchodech a vyhledavani firem. Vsechny vyhledavaci sluzby jsou postaveny nad jednotnym jadrem vyvinutym uvnitr Centra, tak aby vytvarely synergicke efekty pro uzivatele. Vyhledavaci proces je jejich provazanim pro uzivatele mnohem prirozenejsi.

Vyhody: Rychla odezva, dumyslny system vahovani dokumentu a slov davajici dobrou aproximaci relevance dokumentu. Bere v uvahu ruzna kodovani (nejen ceska) i fakt, ze existuje diakritika. Je schopen se vyrovnat i s tim, kdyz autor stranky spatne vyplni hlavicku, ktera pak tvrdi, ze kodovani je jine nez ve skutecnosti. Nabizi rovnez vyhledavani odkazu na dokumenty a zpresnovani dotazu nastavenim vah slov. Pouziva nekolik vykonnych algoritmu postavenych na silne matematicke teorii.

Nema velke HW naroky (krome disku, samozrejme) – coz je vyhoda pro provozovatele. Podstatne pro provozovatele webu – gatherer je napsan tak, aby co mozna nejmene zatezoval servery, na kterych jsou stranky ulozeny.

(2) Soucasna databaze obsahuje 5.918.406 URL, po odstraneni duplicit 5.388.139 uni­katnich dokumentu. Databaze je obcerstvovana alespon 1× za mesic (tzn. kazdy dokument alespon 1× za mesic).

(3) Vyvoj je – jak jiz bylo receno – interni. Sefem vyvoje je Martin Mares – legenda v ceske Linuxove obci. Pripravujeme zcela nove moznosti – vyhledavani frazi, zobrazovani kontextu dotazu v dokumentu a mnoho dalsich věci. Do budoucna to napr. bude indexace dalsich typu dokumentu (PS, PDF) apod.

Komentář či spíše zajímavost: S vývojem jejich fulltextu je to o trochu složitější. Dlouho před Centrem existoval vyhledávač Sherlock, který indexoval české a slovenské stránky. Tento vyhledávač byl dílem zmiňovaného Martina Mareše a byl přístupný pod licencí GPL – tedy včetně zdrojového kódu. Se založením Centra přešel Martin Mareš pod jejich křídla jako šéf vývoje a přináší s sebou i jádro vyhledávače, na kterém Centrum běží dodnes (systém se serverům stále představuje jako „sherlock/1.3 httpget/1­.3“). O této skutečnosti se Centrum nikdy a nikde (web, vyjádření, tiskové zprávy) nezmiňuje, těžko říci proč (nápady?). Před pár měsíci byl Sherlock.cz zastaven a tím byl i efektivně zamezen přístup ke zdrojovým kódům a technické dokumentaci původního vyhledávače.

Našli jste v článku chybu?

10. 3. 2001 19:32

Martin Mares (neregistrovaný)
www.sherlock.cz uz, zda se, odeslo do vecnych lovist, ale netusim, proc - patri Ladislavu Zajickovi (ostatne castemu prispevovateli Lupy) a ani se mnou, ani s novejsimi verzemi Sherlocka nema bohuzel jiz davno nic spolecneho, i kdyz bych byl velice rad, kdyby se Sherlock na tyto stranky vratil. Sherlockova Homepage stale existuje a sidli na MFF UK a ackoliv jsem jiz nejaky ten patek nemel cas na stranku cokoliv pripsat, na FTP se jeste stale aktualni snapshoty zdrojaku rady 1.x objevuji.

V soucas…

8. 3. 2001 12:46

Michal Illich (neregistrovaný)
Diky, ja je mam uz doma na disku a stejne tak i dalsi lide, tedy nepredpokladam, ze by se uplne ztratily (coz u zajimaveho GPL projektu temer nejde). Akorat jejich nalezeni je tezke - drive fungoval sherlock.cz a veskere informace o nem byly dobre nalezitelne.

Trochu to pripomina situaci s Googlem, ktery kdysi veskerou svou architekturu dokumentoval ve whitepaperech, ale jakmile presel na komercni bazi, byl zrejme dotlacen k tomu, aby tyto informace ze vsech webu, ktere mel pod kontrolou stahl.…

Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

Měšec.cz: Kdy vám stát dá na stěhování 50 000 Kč?

Kdy vám stát dá na stěhování 50 000 Kč?

DigiZone.cz: NG natáčí v Praze seriál o Einsteinovi

NG natáčí v Praze seriál o Einsteinovi

DigiZone.cz: R2B2 a Hybrid uzavřely partnerství

R2B2 a Hybrid uzavřely partnerství

DigiZone.cz: Optimedia: hybridní kampaň Nescafé

Optimedia: hybridní kampaň Nescafé

Podnikatel.cz: Vládu obejde, kvůli EET rovnou do sněmovny

Vládu obejde, kvůli EET rovnou do sněmovny

Měšec.cz: U levneELEKTRO.cz už reklamaci nevyřídíte

U levneELEKTRO.cz už reklamaci nevyřídíte

Měšec.cz: Europlatby: někde bez poplatku, jinde i 350 Kč

Europlatby: někde bez poplatku, jinde i 350 Kč

Root.cz: Telegram spustil anonymní blog Telegraph

Telegram spustil anonymní blog Telegraph

120na80.cz: Popraskané rty? Některé balzámy stav zhoršují

Popraskané rty? Některé balzámy stav zhoršují

Root.cz: Mirai má nový cíl 5 milionů routerů

Mirai má nový cíl 5 milionů routerů

Podnikatel.cz: Alza.cz má StreetShop. Mall.cz více výdejních míst

Alza.cz má StreetShop. Mall.cz více výdejních míst

Root.cz: Kamery Sony se dají ovládnout na dálku

Kamery Sony se dají ovládnout na dálku

Podnikatel.cz: Chaos u EET pokračuje. Jsou tu další návrhy

Chaos u EET pokračuje. Jsou tu další návrhy

DigiZone.cz: Recenze Westworld: zavraždit a...

Recenze Westworld: zavraždit a...

Měšec.cz: Banky mlží o nákladech na předčasnou splátku hypotéky

Banky mlží o nákladech na předčasnou splátku hypotéky

120na80.cz: Co všechno ovlivňuje ženskou plodnost?

Co všechno ovlivňuje ženskou plodnost?

Měšec.cz: Air Bank zruší TOP3 garanci a zdražuje kurzy

Air Bank zruší TOP3 garanci a zdražuje kurzy

Podnikatel.cz: 3, 2, 1..EET startuje. Na co nezapomenout?

3, 2, 1..EET startuje. Na co nezapomenout?

120na80.cz: Stoná vaše dítě často? Upravte mu jídelníček

Stoná vaše dítě často? Upravte mu jídelníček