Hlavní navigace

Jyxo míří na Atlas, Webfast tu končí

Martin Kopta 3. 1. 2003

Výměna fulltextových vyhledavačů na Atlasu je otázkou několika dnů. Místo Webfastu, který Atlasu dodávalo konkurenční Centrum, se tu objeví Jyxo. Tohoto nováčka mezi vyhledavači po odchodu z Empyrea vyvíjí Michal Illich, a jak se zdá, do českých portálů se díky němu vrací konkurence na poli fulltextů.

Portál Atlas se v krátké době dočká z užitného hlediska poměrně významné změny. Nedlouho po Seznamu totiž rovněž vymění svůj fulltextový vyhledavač. Webfast na stránkách Atlasu během několika dní vystřídá Jyxo – alespoň takové informace se do redakce Lupy donesly ze zdrojů blízkých Atlasu a Michal Illich z Jyxa je v osobní korespondenci nepřímo potvrdil.

Atlas původně využíval fulltext Empyrea a v současné době je zde uplatněn vyhledavač Webfast, jehož provozovatelem je NetCentrum. Jelikož Webfast běží současně na Atlasu a Centru, panuje na českém webu poněkud zvláštní situace, kdy dva z třech nejnavštěvova­nějších portálů v oblasti fulltextového vyhledávání poskytují tytéž služby. Ba co víc, provozovatel Centra může bez problému monitorovat provoz fulltextu na Atlasu.

O technologii vyhledavače Jyxo jste mohli na Lupě číst již ve článku Petra Sršně Stane se Džykso českým Google?. Podle reakcí v konferenci profesionálů v SEO je Jyxo považováno za nejvyspělejší vyhledávací technologii českého webu. Jyxo se tak stává nejen přiměřenou náhradou za dosavadní standard Empyreum či Webfast, ale mělo by se vyrovnat i konkurenci AllTheWeb na Tiscali či Google na Seznamu.

Oproti zmíněným českým technologiím Jyxo vyniká častějším indexováním – v řádu dnů až týdnů; proti mezinárodním vyhledavačům pak obsáhlostí sledovaných zdrojů. Nevýhodou je naopak omezení na českou ccTLD, což znamená, že české stránky v jiných doménách nejvyšší úrovně musí být do indexu přidávány ručně (Jyxo nerozezná český jazyk). Vzhledem k tomu, že Jyxo indexuje jen českou doménu (s několika málo výjimkami), není schopno zvážit skutečnou relevanci stránky v úplném kontextu. Jinými slovy: může se na vás odkazovat celý svět, ale pokud k vám nevede jediný odkaz z české domény, pro Jyxo nemáte váhu.

Přitom právě zpětné odkazy hrají při vracení výsledků pro Jyxo velkou roli. Provedl jsem drobný test s klíčovými slovy sex a hry (viz Sex a hry: To je, co nás na webu zajímá), a dospěl jsem k zajímavým výsledkům. Po několik dnů od zveřejnění se článek pohyboval na čelních místech při výpisu výsledků vyhledávání slova sexhry, přičemž s časem od zveřejněním se článek posunoval stále níže. Vzhledem k tomu, že se na webu neobjevila lépe optimalizovaná stránka a ani ve zdrojovém kódu dotyčného článku nedošlo ke změně, jediným vysvětlením pro sestup zůstává ústup článku z výměnných odkazů. Z toho můžeme vytušit, že se pro Jyxo s úbytkem odkazů snižuje relevance daného URL k hledanému klíčovému slovu.

Na tak zásadní odvozenost výsledků vyhledávání nedávno doplatil Google, když tuto vlastnost začali zneužívat tvůrci weblogů (viz článek Marka Prokopa Jak se bombarduje Googlem). O tom, že stejný princip můžete uplatnit důsledně i na Jyxu, vás může přesvědčit nedávná kauza, na niž si stěžoval autor předlednových Novinek, Radim Hasalík. Několik českých blogenkářů totiž v průběhu prosince uvedlo v odkazu na jeho článek vulgární frázi hasalik+je+vul, což okamžitě vyneslo daný odkaz ve výsledcích na vrchol. Je jen otázkou času, kdy se terčem podobných vtipů stane značka obchodní společnosti nebo jméno populární osoby. Jyxo se stává nebezpečně manipulovatelným vyhledavačem.

Jyxo za mezinárodními vyhledavači zaostává i v dalším ohledu, kterým je nedostatečné zohlednění metadat, zatímco ve vyhledavačích Google i AllTheWeb jsou lépe hodnoceny weby, v nichž se klíčová slova vyskytují v sémantických značkách vyznačovacího jazyka HTML. Váha klíčového slova je odlišná v závislosti na tom, zda se vyskytuje v běžném textu, či v nadpisu, Jyxo takové rozdíly nezohlední. Stejně tak Jyxo ignoruje metadata obsažená v hodnotách vlastností HTML (například alt, title, cite, summary).

I přes tyto výhrady poskytuje Jyxo nejvíce relevantní výsledky ve srovnání s Webfastem, WebseekemEmpyreem, tudíž na českém trhu nemá konkurenci. Zásadní chybou v českém prostředí je nejspíše neschopnost indexovat stránky napsané v kódování UTF-8 a převádění všech dotazů na ASCII a zpětné doplnění diakritiky. Převod na ASCII se hodí při prohledávání poštovních archivů, které jsou psány bez diakritiky, avšak při hledání v českém textu při odstranění diakritik vznikají chyby vlivem homografie. Daleko nejhorší je nedostatečnost Jyxa při střetu s nelatinkovou abecedou, případně zapsanou entitami.

Vedle několika chyb má technologie Jyxo i několik vlastností, které je řadí zpět mezi špičku. V rozhraní Atlasu se však uplatní jen některé z nich. Podle neoficiálních informací nebude možno využít omezení vyhledávání podle typu zdroje (univerzitní, periodické, katalogy, freeweby), avšak funkční zůstanou modifikátory dotazu (title, url, #, +, -). Implementací technologie Jyxo udělal Atlas podstatný krok ke zlepšení svých služeb a fulltextové vyhledávání se tak vyrovná Seznamu a Tiscali. Pokud navíc Atlas po vzoru Tiscali uzná, že fulltext je nejužitečnější způsob vyhledávání, mohla by nadcházející změna opět mírně zamíchat pořadím v návštěvnosti portálů.

Anketa

Těšíte se na Jyxo na Atlasu?

Našli jste v článku chybu?

9. 1. 2003 4:50

pankreas (neregistrovaný)
Mne Jyxo ze vsech stranek, co mam pod palcem, robots.txt stahuje a taky se jim do pismene ridi.

8. 1. 2003 12:37

Michal Illich (neregistrovaný)
Ja zase vidim v logu crawleru, ze robots.txt taha a ridi se jim.

Pokud mate opacnou zkusenost, napiste mi presne URL do mailu a podivame se na to - muze to byt chyba u nas (spatne parsovani), u vas (nekorektni format) ci pri prenosu (nedostupnost, cloaking, divne DNS).

Pokud budete jen anonymem, ktery cosi nekonkretniho rika na miste, kam to nepatri, nic se nevyjasni.





DigiZone.cz: Česká televize mění schéma ČT :D

Česká televize mění schéma ČT :D

Měšec.cz: Zdravotní a sociální pojištění 2017: Připlatíte

Zdravotní a sociální pojištění 2017: Připlatíte

Vitalia.cz: Znáte „černý detox“? Ani to nezkoušejte

Znáte „černý detox“? Ani to nezkoušejte

Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

Podnikatel.cz: Víme první výsledky doby odezvy #EET

Víme první výsledky doby odezvy #EET

120na80.cz: Rakovina oka. Jak ji poznáte?

Rakovina oka. Jak ji poznáte?

Lupa.cz: Google měl výpadek, nejel Gmail ani YouTube

Google měl výpadek, nejel Gmail ani YouTube

Podnikatel.cz: Babiše přesvědčila 89letá podnikatelka?!

Babiše přesvědčila 89letá podnikatelka?!

120na80.cz: Pánové, pečujte o svoje přirození a prostatu

Pánové, pečujte o svoje přirození a prostatu

Vitalia.cz: Naučí vás péct kváskový chléb bez lepku i s lepkem

Naučí vás péct kváskový chléb bez lepku i s lepkem

Podnikatel.cz: K EET. Štamgast už peníze na stole nenechá

K EET. Štamgast už peníze na stole nenechá

Podnikatel.cz: 3, 2, 1..EET startuje. Na co nezapomenout?

3, 2, 1..EET startuje. Na co nezapomenout?

Měšec.cz: Platby do zahraničí: pozor na tučné poplatky

Platby do zahraničí: pozor na tučné poplatky

120na80.cz: Rovnátka, která nejsou vidět

Rovnátka, která nejsou vidět

DigiZone.cz: Milan Kruml: procházka TV historií

Milan Kruml: procházka TV historií

Podnikatel.cz: Pozor, pojišťovny mění čísla účtů

Pozor, pojišťovny mění čísla účtů

Podnikatel.cz: Zavře krám u #EET Malá pokladna a Teeta?

Zavře krám u #EET Malá pokladna a Teeta?

Podnikatel.cz: Přivýdělek u Airbnb nebo Uberu? Čekejte kontrolu

Přivýdělek u Airbnb nebo Uberu? Čekejte kontrolu

Root.cz: Nová třída SD karet A1 s vysokým výkonem

Nová třída SD karet A1 s vysokým výkonem

Root.cz: Telegram spustil anonymní blog Telegraph

Telegram spustil anonymní blog Telegraph