Hlavní navigace

Hledání nejlepšího hledače (2)

Michal Illich 8. 3. 2001

Na pomyslném startu nyní stojí tucet českých vyhledávačů, každý z nich připraven ucházet se o vaši přízeň. Dnes se podíváme na současnou velkou trojku českého Internetu - Seznam, Atlas a Centrum. Zajímat nás budou jejich schopnosti, relevance, velikosti databází i lidé, kteří se za nimi skrývají.

Hodnotit cokoliv je vždy obtížné – musíte být objektivní, jak se od vás očekává podle novinářské etiky, ale zároveň nemůžete popřít, že jste „subjekt“, který také má své názory, požadavky a preference. Na Internetu je vše zpestřeno tím, že jsme si všichni vzájemně konkurenty (boj o stejné uživatele a jeden reklamní prostor). Proto, než abych se pokoušel ohodnotit cizí internetové služby a tím riskoval, že budu (a možná právem) označen za zaujatého, vymysleli jsme jiné řešení.

A to řešení vpravdě šalamounské – necháme jednotlivé představitele českých vyhledávačů, aby své servery popsali sami. Nejsme tak naivní, že bychom se domnívali, že nám takový postup přinese objektivní informace. Naopak budeme společně svědky, jak vypadá PR jednotlivých společností naživo – možná se nedozvíme ani tak informace o vlastních službách, jako spíše o lidech, kteří za nimi stojí. Jindy nás ale příjemně překvapí nějaký mimoděk sdělený technický detail nebo dokonce přesné číslo.

Představitelům jednotlivých serverů byly položeny následující tři otázky či tématické oblasti:

  • V čem spočívají hlavní výhody vašeho vyhledávače? Jaké poskytuje uživateli možnosti? Má nějakou unikátní vlastnost, kterou ostatní nemají?
  • Jaká je velikost databáze, jak často a v jaké míře je obměňována? Jak zajišťujete relevanci (přesnost) vyhledávání?
  • Jak probíhal vývoj vyhledávače, na jakých technologiích je založen, jaké máte plány na vylepšení do budoucna?

Za odpovědi jednotlivých serverů se ještě pokusím připojit komentář, nějakou upřesňující informaci či zajímavost, a vytvořit tak alespoň částečnou protiváhu k jednotlivým názorům.

Seznam.cz – katalog i fulltext

Velmi stručně odpověděl Ivo Lukačovič:

(1) V jednoduchosti ovládání.

(2) Přes 150 tisíc ručně zatříděných odkazů v katalogu. Přes milion ve fulltextové databázi.

(3) Vlastními silami. C, C++. WWW rozhraní je pak v perlu, jako FastCGI. Vše běží na Linuxu.

Komentář: Co do jednoduchosti vyhledávání není podle mne mezi českými vyhledávači žádný rozdíl. Katalog Seznamu osobně považuji za asi nejlépe spravovaný – má malý náskok co do velikosti, nejsou v něm nesmyslné chyby, kategorizace je přehledná. Jeho velkým problémem bývala rychlost vložení dotazu – trvala cca měsíc, zatímco v ostatních katalozích jste byli do druhého dne. Od té doby se to předpokládám zlepšilo (uvítáme názory v diskusi). Jakkoliv je katalog dobrý, fulltext Kompas je jeho pravý opak – maličká databáze (pětkrát menší než mají vedoucí české fulltexty), zřídka aktualizovaný (nyní jsou tam stránky z cca 3. listopadu minulého roku), chyby, nezodpovídání některých dotazů, špatná identifikace duplicit, žádná relevance. Je poměrně překvapující, jak mohl Seznam na tuto svou důležitou službu tak zapomenout (copyrighty na webu zmiňující poslední roky 1997–1998).

MSN.Atlas – katalog i fulltext

Product manager firmy Atlas.cz, Pavel Doležal, to vzal naopak velmi zeširoka:

(1) Vyhodou vyhledavace v ramci naseho portalu je hlavne to, ze pouzivame system „inteligentniho hledani“ kdy uzivatel, ktery hleda z jednoho mista, dostane na svuj dotaz vysledky z nekolika dtb, ve kterych se prohledava zpusobem presnym k te ci one dtb. Takze napr. pri hledani v katalogu, kdy se hleda v dtb. vice jak 130.000 unikatnich URL, se pouziva jina logika hledani a zpracovani dotazu nez pri hledani v online dtb. zpravodajstvi ci v dtb. map. Inteligentni vyhledavani spociva v tom, ze se prvni prohledavaji databaze, jejichz obsah je spolehlivy, konkretni a strukturovany, a teprve v dalsich etapach se prohledavaji mene strukturovane databaze a uplne nakonec se pouziva fulltextove prohledavani celeho ceskeho Internetu…

(2) Jak jiz jsem rekl v odpovedi na predeslou otazku, hleda se v nekolika ruznych dtb., ktere jsou svym typem a obsahem zcela odlisne, a to dela hledani zcela unikatnim. Neznam mnoho vyhledavacu ve svete, ktere by hledaly zaroven ve statickych a zaroven v zivych dtb. Napriklad:

  • dtb. katalogu – pres 137.000 unikatnich odkazu
  • dtb. fulltextu – nekolik milionu stranek, obnovovanych kazdych 10 – 14 dni
  • dtb. zpravodajstvi – zpravy za posledniho pul roku vcetne novych
  • inzerce tisice inzeratu
  • mapy veskere ZUJ (zakladni uzemni jednotky) v CR

(3) Pouzivame dve zakladni technologie: Pro inteligentni hledani vychazime z MS SQL 7, nad kterym mame vyvinute proprietarni reseni, ktere zajistuje spravnou praci s ruznymi typy dtb., jakoz i spravnou relevanci udaju v ruznych zdrojich a dostatecnou rychlost zpracovani dotazu. Fulltextove vyhledavani je v soucasne dobe take postaveno na MS technologie Site Serveru 3.0.

Rozvijeni systemu vyhledavace je velice slozita vec, jelikoz je spojeno s koncepci celeho portalu a jeho filozofii. My jsme velky horizontalni portal, ktery v urcitych oblastech presahuje do vice profilovaneho obsahu ci sluzeb. Snazime se poskytnout nasim uzivatelum sirokou paletu informaci na jednom miste a zaroven pro ne vybirat a upozornovat je na to nejlepsi, co lze u nas a jinde najit. Pricemz se snazime, aby se tak odehravalo v ramci jednoducheho uzivatelskeho rozhrani tak, aby uzivatel intuitivne vytusil, co a kde muze delat a aby byl systemem veden vzdy k dalsimu kroku. Touto filozofii se bude i do budoucna ridit rozvoj naseho portalu jako takoveho, a tim padem i naseho hledani. Snazime se, a budeme i nadale, byt temi, kdo posunuji hranice technickych moznosti dal pri zachovani jednoducheho prostredi pro uzivatele.

Komentář: Nadšení pana Doležala z „inteligentního vyhledavání“ příliš nesdílím – když se podíváte na ostatní vyhledávače z tohoto článku, zjistíte, že dělají naprosto totéž: není to tedy žádná vyjímečnost Atlasu. Metahledače nebo peer-to-peer hledače jdou v kombinování různých databází ještě o pár kroků dál. Škoda, že jsme se nic nedozvěděli o zajišťování relevance, tam má Atlas ještě co dohánět.

CIF16

Centrum.cz

A do třetice tu máme názor Oldy Bajera z firmy NetCentrum:

(1) Portal Centrum.cz ma integrovane vyhledavani katalogove, fulltextove, vyhledavani cen v internetovych obchodech a vyhledavani firem. Vsechny vyhledavaci sluzby jsou postaveny nad jednotnym jadrem vyvinutym uvnitr Centra, tak aby vytvarely synergicke efekty pro uzivatele. Vyhledavaci proces je jejich provazanim pro uzivatele mnohem prirozenejsi.

Vyhody: Rychla odezva, dumyslny system vahovani dokumentu a slov davajici dobrou aproximaci relevance dokumentu. Bere v uvahu ruzna kodovani (nejen ceska) i fakt, ze existuje diakritika. Je schopen se vyrovnat i s tim, kdyz autor stranky spatne vyplni hlavicku, ktera pak tvrdi, ze kodovani je jine nez ve skutecnosti. Nabizi rovnez vyhledavani odkazu na dokumenty a zpresnovani dotazu nastavenim vah slov. Pouziva nekolik vykonnych algoritmu postavenych na silne matematicke teorii.

Nema velke HW naroky (krome disku, samozrejme) – coz je vyhoda pro provozovatele. Podstatne pro provozovatele webu – gatherer je napsan tak, aby co mozna nejmene zatezoval servery, na kterych jsou stranky ulozeny.

(2) Soucasna databaze obsahuje 5.918.406 URL, po odstraneni duplicit 5.388.139 uni­katnich dokumentu. Databaze je obcerstvovana alespon 1× za mesic (tzn. kazdy dokument alespon 1× za mesic).

(3) Vyvoj je – jak jiz bylo receno – interni. Sefem vyvoje je Martin Mares – legenda v ceske Linuxove obci. Pripravujeme zcela nove moznosti – vyhledavani frazi, zobrazovani kontextu dotazu v dokumentu a mnoho dalsich věci. Do budoucna to napr. bude indexace dalsich typu dokumentu (PS, PDF) apod.

Komentář či spíše zajímavost: S vývojem jejich fulltextu je to o trochu složitější. Dlouho před Centrem existoval vyhledávač Sherlock, který indexoval české a slovenské stránky. Tento vyhledávač byl dílem zmiňovaného Martina Mareše a byl přístupný pod licencí GPL – tedy včetně zdrojového kódu. Se založením Centra přešel Martin Mareš pod jejich křídla jako šéf vývoje a přináší s sebou i jádro vyhledávače, na kterém Centrum běží dodnes (systém se serverům stále představuje jako „sherlock/1.3 httpget/1­.3“). O této skutečnosti se Centrum nikdy a nikde (web, vyjádření, tiskové zprávy) nezmiňuje, těžko říci proč (nápady?). Před pár měsíci byl Sherlock.cz zastaven a tím byl i efektivně zamezen přístup ke zdrojovým kódům a technické dokumentaci původního vyhledávače.

Našli jste v článku chybu?
Podnikatel.cz: Udělali jsme velkou chybu, napsal Čupr

Udělali jsme velkou chybu, napsal Čupr

Vitalia.cz: Očkování proti chřipce u dětí: ČR nemá pravidla

Očkování proti chřipce u dětí: ČR nemá pravidla

DigiZone.cz: Parlamentní listy: kde končí PR...

Parlamentní listy: kde končí PR...

Podnikatel.cz: Letáky? Lidi zuří, ale ony stále fungují

Letáky? Lidi zuří, ale ony stále fungují

Lupa.cz: Blíží se konec Wi-Fi sítí bez hesla?

Blíží se konec Wi-Fi sítí bez hesla?

Vitalia.cz: dTest odhalil ten nejlepší kečup

dTest odhalil ten nejlepší kečup

DigiZone.cz: Test: brýle pro virtuální realitu Exos Urban

Test: brýle pro virtuální realitu Exos Urban

DigiZone.cz: Pure má tři nové přijímače DAB

Pure má tři nové přijímače DAB

120na80.cz: Zázrak ze smetiště: co léčí lopuch?

Zázrak ze smetiště: co léčí lopuch?

Podnikatel.cz: Byla finanční manažerka, teď cvičí jógu

Byla finanční manažerka, teď cvičí jógu

Lupa.cz: Jak se prodává firma za miliardu?

Jak se prodává firma za miliardu?

Podnikatel.cz: Babišovy firmy a registr smluv. Co odhalil?

Babišovy firmy a registr smluv. Co odhalil?

DigiZone.cz: UPC má v nabídce Discovery v HD

UPC má v nabídce Discovery v HD

DigiZone.cz: Digi2GO: výborný základ, ale...

Digi2GO: výborný základ, ale...

DigiZone.cz: Mordparta: trochu podchlazený 87. revír

Mordparta: trochu podchlazený 87. revír

120na80.cz: Na různou rýmu různá homeopatie

Na různou rýmu různá homeopatie

Lupa.cz: Další Češi si nechali vložit do těla čip

Další Češi si nechali vložit do těla čip

Vitalia.cz: Když všichni seli řepku, on vsadil na dýně

Když všichni seli řepku, on vsadil na dýně

Podnikatel.cz: Babišovi se nedá věřit, stěžovali si hospodští

Babišovi se nedá věřit, stěžovali si hospodští

DigiZone.cz: Samsung EVO-S: novinka pro Skylink

Samsung EVO-S: novinka pro Skylink