Hlavní navigace

Vyhledávání není jenom Google

 Autor: 29
Václav Zoubek 15. 8. 2008

Google si za 10 let své existence vydobyl doslova monopolní postavení na trhu internetových vyhledávačů, a nejen na něm. Google však není jediný kvalitní vyhledávač, který máme k dispozici. Existuje hned několik webových vyhledávačů, které stojí v ústraní, a přesto by se vyplatilo o nich vědět.

Top 3

Podle HitWise, případně comScore, s podílem přes 60 % vede na trhu Google. To rozhodně není vůbec nic překvapivého, někteří z nás by možná odhadovali i více. Jako druhé se ve statistikách vyjímá Yahoo, jehož podíl se pohybuje okolo 15 % a trojkou na trhu je (ano, tušíte správně) Microsoft se svým Live Search (čísla se mohou v různých státech lišit). Perspektivu z této Top 3 má v budoucím rozvoji především Google, díky své pozici nejpoužívanějšího vyhledávače, a Microsoft, jenž nedávno koupil sémantický vyhledávač Powerset a chystá se ho integrovat do svého vlastního produktu. Žádné další změny na trhu se však nedějí. Google získává další procenta podílu, ostatní ztrácí. Ovšem ze strany alternativních vyhledávačů sem vane čerstvý vítr. Pojďme si je představit.

Wikia Search

Verze: Re-launched alpha
Wikia Search je pozoruhodný projekt. A to z několika důvodů: Stojí za ním Jimmy Wales, zakladatel Wikipedie a dalších produktů společnosti Wikia. Dává si za úkol být transparentní a nepoužívat žádné pochybné praktiky. Je založen na distribuovaném crawlování Grub, zároveň se jedná o sociální vyhledávač – bere v úvahu hodnocení odkazů na jednotlivé dotazy. Zmínit musíme také tzv. miničlánky, které se zobrazují nad výsledkem dotazu a dají se editovat jako klasické články na Wikipedii. Další vymoženost je takzvaný „spotlight“, kterým zvýrazníte jeden odkaz (vždy jen jeden na termín) a možnost přidat k hledanému výrazu další URI. Samotné rozhraní je líbivé, reklamy neobtěžují – jsou mimo výsledky vyhledávání.

Pokud chcete přispět crawlováním, musíte si vytvořit účet. Poté stačí stáhnout GrubNG klienta, zadat vaše údaje a již crawlujete. To probíhá tak, že se stáhnou hlavičky pro připojení na 250 URI, jejich obsah se zkomprimuje pomocí gzip algoritmu a odešle zpět na server. Crawlerů může na vašem počítači běžet více, nebo třeba jen jeden s podporou vláken. Všichni klienti jsou open source, takže si je můžete upravit a přidat další funkce pro vaší vlastní potřebu. A když se budete snažit, prvních 10 000 URI na sebe nenechá dlouho čekat.

WS

Hakia

Verze: beta
Hakia je sémantický webový vyhledávač. V praxi to znamená, že můžete pokládat dotazy v běžném jazyce. Kromě klasického vypsání relevantních odkazů (opravdu relevantních, v tomto ohledu si dali autoři záležet) se pokouší poskytnout odpověď na položenou otázku – zde jsou velké mezery, ale přihlédneme-li k tomu, že daná technologie je teprve v plenkách, jedná se o zdařilý pokus. Příjemný je i fakt, že na stránce nejsou zobrazovány reklamy.

V tuto chvíli, byť se Hakia tváří, jako by podporovala češtinu, v ní ještě není moc dobrá. Osobně se mi zdá, že ve větě určí podmět, dá mu větší váhu než zbytku a dál se jedná o obyčejné fulltextové vyhledávání. Ale třeba se pletu. Do budoucna vypadá tento projekt opravdu zajímavě a jistě se vyplatí sledovat, jak se bude vyvíjet.

Hakia

Lexxe

Verze: alpha
Lexxe bylo dáno do vínku porozumění lidskému jazyku. Tentokrát se nejedná o aplikaci s Web 2.0 designem, ale o klasický, strohý, jaký vídáme třeba u Google nebo Jyxa. Pokud zadáte do políčka pro vyhledávání otázku, vždy naleznete odpověď – byť většinou špatnou, alespoň má ale správnou formu (Je Jennifer Lopez svobodná? Ano) nebo se nějak blíží správné odpovědi (Kdo vyhrál Euro 08? Fernando Torres). Dále vlevo je panel s clustery, které představují další možné odpovědi na otázku a důležitá slovní spojení z nalezených dokumentů. A samozřejmě je zde hlavní seznam relevantních odkazů. Subjektivně se mi zdá, že jejich kvalita je srovnatelná s jakýmkoliv klasickým vyhledáváním založeným na klíčových slovech. V tomto ohledu zaostává za o něco mladším sourozencem Hakia. Uživatelské rozhraní mají strohé, nepřehledné. Možná je to tím, že všechny výsledky vypisují na jednu stránku. Alespoň, že bez reklam.

Lexxe

Searchles

Verze: ostrý provoz
Searchles přichází s jednoduchou, ale zajímavou myšlenkou. Na základě osobních preferencí by měl být schopný každý vyhledávač zvýhodňovat odkazy na stránky související s tématy, která máte rádi. Osobní preference zjistí pomocí sdílených záložek a pomocí sociální sítě – skupiny, jejichž jste členem, a uživatelů, které jste si přidali do přátel. Ve výčtu vyhledávačů, které si představujeme, je ojedinělý tím, že je specializovaný. Specializuje se na zprávy, novinky, zajímavosti a blogposty. Dobrá myšlenka, ale má určité chyby. Krom toho, že výsledky vyhledávání nejsou moc dobré, je problém v malém indexu. Zkrátka a dobře, dokud nezvětší svoji databázi, nemá cenu využívat Searchles jako vyhledávač informací.

YaCy

Verze: 0.59
YaCy je skvělý projekt. Nejedná se totiž o vyhledávací portál, ale o distribuovaný P2P vyhledávací software (tedy nejen crawler jako v případě Wikia Search). Jedná se o absolutně decentralizovaný vyhledávač, který tedy nepotřebuje velkou databázi. Co to znamená pro uživatele? Můžete si vytvořit vlastní portál s vyhledávačem, kde nastavíte svá pravidla (např omezení na CZ doménu). Příjemným efektem decentralizované sítě je, že zde neuvidíte cenzuru. Případně pouze na úrovni vyhledávače (kterou si pravděpodobně nastavíte sami). Jedná se zároveň asi o jediný vyhledávač pro sítě FreeNET a TOR, jelikož pro něj nepředstavuje problém přistupovat k síti přes proxy server.

Multiplatformní Java klient lze spustit prakticky všude, pokud chcete pomoci komunitě, je výhodou mít přímé připojení na Internet, aby se ostatní uživatelé mohli připojit k vám. Jednoduše pak zadáte jednu nebo více startovních adres a pak jen sledujete, jak se utěšeně rozrůstá váš osobní index. A pokud nechcete plýtvat připojením, můžete zkusit vyhledávání přes některého z uživatelů. Na výběr máte několik uživatelských rozhraní, takže se určitě neztratíte.

Cuil

Verze: ostrý provoz
Cuil byl svými autory označen jako Google-killer. Ve chvíli, kdy vystoupil z anonymity a otevřel se světu, o něm bylo napsáno spousta článků. Následný nápor uživatelů nevydržel a byl několik hodin nedostupný, což je daň za masivní PR. Za projektem stojí tři bývalí vývojáři Googlu, kteří se rozhodl jít odlišnou cestou. Místo toho, aby řadili výsledky podle popularity, soustředí se na obsah. Těžko říct, zda se jedná o krok vpřed. Krom toho také vsadili na neotřelý způsob prezentace výsledků ve dvou nebo ve třech sloupcích a pěkný grafický design. Cuil indexuje webové stránky přibližně dva roky a ač má velkou databázi, evidentně ji ještě musí vylepšovat. Kvalita výsledků velmi kolísá.

Testování

Pro porovnání schopností jednotlivých vyhledávačů, jsem si připravil krátký test. Hodnotil jsem v něm na stupnici od nuly do pěti. Hodnoceným faktorem byla relevance, tedy jak moc se stránky věnují hledanému tématu, a očekávanost. Očekávanost si lze představit jednoduše – hledám-li aktuální téma, chtěl bych získat odkazy na stránky s nejnovějšími informacemi, hledám-li naopak pouze jméno nějaké osobnosti, očekávám stránky s podrobným profilem, případně životopisem. Pro porovnání jsem stejným způsobem otestoval i tři nejpoužívanější vyhledávače. Slovní popis jednotlivých kroků najdete pod tabulkou.

Výraz Wikia Search Hakia Lexxe Searchles YaCy Cuil Google Yahoo Live Search
Iran's nuclear activities 3 5 2 3 1 3 4 3 4
Who is Elizabeth II.? 4 5 5 0 0 0 5 5 5
Las Vegas 5 5 5 1 2 5 5 5 5
Jízdní řády 0 5 1 0 0 5 5 5 5

Při prvním dotazu jsem schválně zadal titulek jednoho článku agentury Reuters. Wikia Search sice našel článek z Wikipedie, zabývající se tématem, ale bohužel, v prvních 10 výsledcích se moc relevantních odkazů nenašlo. U Hakia byla situaci opačná. Co odkaz, to kvalita. Daný článek sice nenašel, ale první odkaz se týkal den starého článku v novinách právě na toto téma. Lexxe mne vcelku zklamalo. Nějakého popisu jsem se dočkal jen ve formě PDF souborů z roku 2006. Není to špatný výsledek, ale není takový, jaký bych očekával. Searchles vydává relevantní výsledky, jejich kvalita je ovšem nižší než u ostatních. U YaCy se člověk ani nemůže moc divit, že výsledky jsou tak nějak nic moc. A Cuil? Inu, výsledky se kvalitou podobají Searchles – mohlo by být hůř, ale na souboj s Google to není.

Při druhém výrazu jsem oceňoval každou stránku s informací, že pod jménem Elizabeth II. se skrývá britská královna. V tomto ohledu se překonal vyhledávač Hakia, který hned pod vyhledávacím políčkem umístil odkaz pro vyhledávání „Queen Elizabeth II“, kde lze naleznout perfektně setříděné informace. Searchles našel sice skoro 150 odkazů, ale ani jeden nebyl relevantní. YaCy ani Cuil nenašli nic. A Wikia Search? Ten sice nabídl pár relevantních výsledků, ale přibližně stejné množství odpadu. Dotaz prezentuje schopnost systému vybrat z otázky to podstatné, případně jí porozumět.

Třetí testovací výraz prezentuje asi nejčastější dotaz. Hledám informaci, se kterou se vždy nějak na stránce pracuje. Musím říct, že jsem byl příjemně překvapen absencí zpráv z Twitteru typu „Dnes jedu do Las Vegas“ ve výsledcích. Kromě Searchles, který vrátil jen bulvární zprávy, a YaCy, kde se nacházelo dost reklamních sdělení, vydaly všechny kvalitní výsledky.

Čtvrtým dotazem jsem se chtěl přesvědčit, zda webové vyhledávače indexují české stránky a zda nekomolí znaky na nějaký paskvil. Při kvalitě výsledků YaCy a Searchles nebylo třeba pochybovat o tom, jak dopadnou. Nenašli absolutně nic. Překvapením byl propad Wikia Search a také Lexxe se neukázalo v nejlepším světle. Z prvních 10 odkazů vedly dva na stránky DP Praha, zbytek odkazoval na webové stránky týkající se hromadné dopravy v cizině a v cizích jazycích. Další překvapení bylo, že po nevyvážených výkonech Cuil dokázal zabodovat.

Vyhodnocení

Konečný součet je vcelku lehké provést. Stačí sečíst data v odpovídajícím sloupci v tabulce. Ohodnocení je bodové (0 nejméně, nejvíce 5), rozhodně neplést se známkováním. Na prvním místě v mém testu skončil server Hakia (20 b. z 20-ti, dokonce lepší výsledek než Google). Na druhém a třetím místě se společně nachází Cuil a Lexxe (po 13-ti), na čtvrtém je Wikia (12 bodů), na pátém Searchles a na šestém, posledním místě, YaCy (4, respektive 3 body). Jak jsem se zmínil, vyhledávač Hakia získal v testu více bodů než Google, stejně jako Live Search. Yahoo skončilo ještě o bod níže.

Na Internetu je dost projektů, které by chtěly ukousnout alespoň trošku z koláče trhu internetových vyhledávačů. Všechny mají své problémy, ale to se dá čekat. Zvláště některé alternativní vyhledávače mají šanci na úspěch, pokud se najde silný investor, který by pomohl financovat marketing. Kvalitní výsledky jsou sice důležité, ale bez opravdu pořádného marketingu se úspěch nedostaví.

Anketa

Používáte jako svůj hlavní vyhledávač Google?

Našli jste v článku chybu?

15. 8. 2008 10:25

Kybernet (neregistrovaný)
A proc by tam mel zminovat historicke vyhledavace, kdyz clanek je o tech soucasnych?

19. 8. 2008 19:21

uživatel si přál zůstat v anonymitě
Primárně sice také používám Google, ovšem na Seznam bych špínu neházel. Je to první portál, kam zajdu kvůli mailu, mapám nebo při hledání firem v jejich katalogu, v tom vidím jeho hlavní sílu.
Podnikatel.cz: Udávání a účtenková loterie, hloupá komedie

Udávání a účtenková loterie, hloupá komedie

Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

Měšec.cz: Kdy vám stát dá na stěhování 50 000 Kč?

Kdy vám stát dá na stěhování 50 000 Kč?

Měšec.cz: U levneELEKTRO.cz už reklamaci nevyřídíte

U levneELEKTRO.cz už reklamaci nevyřídíte

DigiZone.cz: Recenze Westworld: zavraždit a...

Recenze Westworld: zavraždit a...

120na80.cz: Rovnátka, která nejsou vidět

Rovnátka, která nejsou vidět

Podnikatel.cz: 3, 2, 1..EET startuje. Na co nezapomenout?

3, 2, 1..EET startuje. Na co nezapomenout?

Root.cz: Vypadl Google a rozbilo se toho hodně

Vypadl Google a rozbilo se toho hodně

120na80.cz: Pánové, pečujte o svoje přirození a prostatu

Pánové, pečujte o svoje přirození a prostatu

Měšec.cz: Banky mlží o nákladech na předčasnou splátku hypotéky

Banky mlží o nákladech na předčasnou splátku hypotéky

Podnikatel.cz: Na poslední chvíli šokuje výjimkami v EET

Na poslední chvíli šokuje výjimkami v EET

DigiZone.cz: Digi CZ výrazně zlevnila balíček HBO

Digi CZ výrazně zlevnila balíček HBO

DigiZone.cz: Další dva kanály nabídnou HbbTV

Další dva kanály nabídnou HbbTV

Podnikatel.cz: K EET. Štamgast už peníze na stole nenechá

K EET. Štamgast už peníze na stole nenechá

DigiZone.cz: Rádio Šlágr má licenci pro digi vysílání

Rádio Šlágr má licenci pro digi vysílání

Podnikatel.cz: Chaos u EET pokračuje. Jsou tu další návrhy

Chaos u EET pokračuje. Jsou tu další návrhy

Měšec.cz: Air Bank zruší TOP3 garanci a zdražuje kurzy

Air Bank zruší TOP3 garanci a zdražuje kurzy

Vitalia.cz: Spor o mortadelu: podle Lidlu falšovaná nebyla

Spor o mortadelu: podle Lidlu falšovaná nebyla

Podnikatel.cz: Na 3. prosince se chystá protest proti EET

Na 3. prosince se chystá protest proti EET

Podnikatel.cz: Babiše přesvědčila 89letá podnikatelka?!

Babiše přesvědčila 89letá podnikatelka?!