Internet Info, s.r.o. Lupa Měšec Podnikatel Root Zdroják DigiZone Slunečnice Vitalia TopDrive KupDnes Navrcholu NovýTarif Dobrý web Weblogy Woko Jagg Computer.cz SK: MojeLinky

Dušan Janovský: Seznam zůstane jedničkou i nadále

Hostem květnového NetClubu byl Dušan Janovský, vedoucí týmu vyhledávacích služeb společnosti Seznam. Prozradil například, jak velký tým se stará o fulltext, či proč ze Seznamu odešel, aby se přes Google vrátil zpět. Optimalizace pro vyhledávače se dá shrnout do jediného pravidla, které platí v dlouhodobém horizontu: „Co je dobré pro uživatele, je dobré i pro vyhledávače,“ říká Dušan Janovský.

Proč se zrovna v zemi jako je Česko, vyvíjí úspěšný vyhledávač Seznamu?

Tuto otázku si samozřejmě klade spousta lidí. Česko bylo dlouhou dobu pomyslnou mocností v oblasti vyhledávačů. Kromě Seznamu tady byly přinejmenším další čtyři, pět solidních vyhledávacích strojů, což v jiných zemích, pominu-li Rusko, není úplně běžné.

Čím to ale bylo způsobeno?

Jedním z těch důvodů mohla být skutečnost, že vysoké školy, zejména Matematicko-fyzikální fakulta UK a FEL ČVUT, se zabývaly zpracováváním jazyka. V okamžiku, kdy se vytvořil určitý „rybník“ vyhledávačů, tak začala fungovat přirozená konkurence, a uživatelé si zvykli přecházet navzájem mezi jednotlivými vyhledávači.

Jak dlouho ještě bude Seznam jedničkou na českém trhu vyhledávačů?

Je spíše otázkou, proč by se to někdy v budoucnu mělo měnit. Seznam je tu minimálně po deset let nejpoužívanějším vyhledávačem. Trendově není důvod, proč by mělo dojít ke změně.

Víte jistě, že čeští uživatelé využívají pro vyhledávání více Seznam než například Google?

Google samozřejmě konkrétní čísla nezveřejňuje, ale podle všech dostupných statistik a výzkumů drží Seznam nadpoloviční podíl ve vyhledávání.

Logo NetClub
Hostem červnového setkání NetClubu bude Jan Mühlfeit, Chairman Europe, Microsoft Corporation.Re­gistrovat se můžete už nyní. Fotogalerie z předchozích setkání naleznete na NetClub blogu.

Je možné porovnat, v čem je Seznam ve vyhledávání lepší než Google a naopak?

Google například lépe zvládá delší dotazy, Seznam je zase lepší na ty kratší.

Jak vlastně funguje samotný vyhledávací stroj, kdybyste princip jeho fungování měl vysvětlit úplnému laikovi?

Vyhledávač má databázi stránek, kterou si stáhl z Internetu a následně na těchto stránkách hledá určité věci, které nazýváme „signály“. O každé stránce nasbírá nějaké množství signálů, následně je smíchá a vyjde mu pořadí. Všímá si samozřejmě, zdali se hledaná slova na stránce nachází, v jakém kontextu, hodnotí obecnou kvalitu stránky atd.

Dušan Janovský - NetClub 3

Když firma vyvíjí vlastními silami vyhledávání, tak může do značné míry ovlivnit to, co lidé prostřednictvím vyhledávače najdou. Máte v tomto smyslu docela velkou moc…

Ta moc je opravdu velká, ale nelze ji ve skutečnosti použít. Snažíme se, aby veškeré procesy byly plně automatické, což vyplývá z podstaty věci, kdy indexujeme přibližně 350 milionů českých stránek. V takovém množství materiálu se jednoduše nedá „přehrabovat“ ručně a nějakým způsobem například upravovat pořadí výsledků.

Někdy ale přece jen musíte do výsledků manuálně zasáhnout, nebo ne?

Ve výjimečných případech, když je zřejmé, že je na stránkách nějaká „čertovina“, kterou nemá vyhledávací robot šanci objevit, typicky skrytý text, tak zasahujeme ručně. Většinou je v tom záměr tvůrce stránek poskytnout vyhledávači jiné informace než uživateli.

Kolik lidí se v současné době podílí na vývoji vyhledávání v Seznamu?

Na vyhledávání pracuje přibližně 13 programátorů, rozdělených do třech týmů, které se nachází v Českých Budějovicích, Brně a Praze. Dále máme čtyři návrháře, kteří navrhují nové algoritmy. Například hledají na stránkách nové signály, které bychom mohli v budoucnu použít. Signálem je třeba to, jak často se vyhledávané slovo vyskytuje na konkrétní stránce. Máme také tři výzkumníky, kteří jsou sdílení pro celý Seznam, ale v současné době se věnují především fulltextu. Tři lidé pracují jako administrátoři fulltextu. Ti prochází databázi stránek, reagují na dotazy, kontrolují výsledky a mohou banovat čertoviny. Nesmíme také zapomenout na linuxové administrátory, kteří se starají o chod serverů.

Dušan Janovský - NetClub 1

O kolik serverů se ve skutečnosti jedná?

Jednotlivé servery mají samozřejmě různé úlohy, ale pokud to hodně zjednoduším, tak se bavíme přibližně o 200 serverech. To je hardware pro vyhledávání Seznamu.

Jaký je rozpočet oddělení fulltextu v Seznamu?

Řádově se jedná o desítky milionů korun ročně.

Je to suma, která se Seznamu vyplatí?

Naprosto určitě.

Jak se vyrovnáváte s tím, čemu se dnes říká „vyhledávání v reálném čase“? Pracujete na tom?

Pracujeme stále a pracujeme na všem. V současné době děláme zásadní technologický upgrade crawlera. Snažíme se velmi rychle prohledávat zpravodajství, to máme do deseti minut. Máme „fresh svazky“ často aktualizovaných zdrojů.

Kolik dotazů uživatelé denně na Seznamu zadají?

Přibližně jde o 18 milionů dotazů.

Opisujete od Google? Snažíte se prokouknout jejich algoritmus?

Od Google se opisuje velmi špatně. Každý, kdo se zabývá optimalizací pro vyhledávače, by chtěl znát jejich algoritmy. Jenže Google zpřístupňuje všechny informace na světě kromě těch vlastních. Jejich algoritmy nejsou veřejné, stejně tak jako nejsou veřejné algoritmy ostatních vyhledávačů.

Dušan Janovský - NetClub 2

Co si myslíte o fenoménu sociálních sítí? Nevytváří na webu prostor, kam se vyhledávače jednoduše nedostanou? Neznervózňuje vás to?

Osobně mě to neznervózňuje. Například Facebook je pro mnoho lidí přitažlivý právě proto, že se tam vyhledávače a neregistrovaní uživatelé nedostanou k veškerému obsahu. Facebook je samozřejmě velice zajímavý fenomén. Před patnácti lety si lidé dělali vlastní stránky v HTML. Ale ani dnes se nedá HTML stránka vytvořit úplně jednoduše. Facebook jim to nabízí komfortně, v podstatě již hotové, a rovnou jim to propojuje s lidmi, což je vlastně ten hlavní důvod, proč lidé stránky vytváří. Má to samozřejmě i odvrácenou tvář, kdy komunikace přes webové stránky se díky sociálním sítím může začít postupně ztrácet.

Používáte Facebook jako uživatel?

Převážně na něm čtu zprávy, které mi tam lidé píší.

Kdy jste vlastně začal poprvé objevovat web?

Měl jsem štěstí, že jsem úplně do té první vlny, když se začal rozjíždět web, vůbec nenahlédl. Začal jsem se o něj zajímat až v době, kdy přicházel Internet Explorer 3, který už podporoval kaskádové styly, a to mně umožnilo získat náskok před těmi, kteří se tomu už dva, tři roky věnovali a byli „zabetonovaní“ v HTML 2.0 a 3.1. Já jsem se to učil rovnou se styly. Načež jsem o tom začal dělat stránky Jakpsátweb. A později jsem se pustil do stránek o cestování.

Dušan Janovský - NetClub 4

Hlásí se ti, kdo používají pro vyhledávání primárně Google.

Napomáháte svým stránkám tím, že je na Seznamu posunete ve výsledcích trochu výš?

Nepomáhám, ony jsou vepředu i tak. A jsou na dobrých pozicích i na jiných vyhledávačích. Jednoduše vím, jak na to – mozek si prostě nesmažu.

V Seznamu jste se poprvé objevil v roce 2002?

Ano. V roce 2002 jsem nastoupil do Seznamu na pozici webmastera. Společně s Petrem Vraníkem a Lukášem Plíhalem jsme celý Seznam přepisovali do kaskádových stylů. Po dvou letech jsem začal pracovat jak projektový manažer.

Pak jste ale ze Seznamu odešel. Přestalo vás to bavit?

Nechtěl jsem ohrozit připravovaný projekt fulltextového vyhledávání. Navíc mě nebavilo dojíždět ze Slaného. Denně jsem trávil tři a čtvrt hodiny cestováním.

Co jste dělal potom?

Jen tak z legrace jsem překládal Google Adwords. Po nějakém čase mě oslovili, jestli bych to nezvládl rychleji a začali mi za to platit.

Éra práce pro Google trvala jak dlouho?

Do roku 2006, kdy jsem opět nastoupil do Seznamu. Zakládal jsem oddělení administrátorů fulltextu a měl jsem za úkol připravit Sklik.

V posledních letech je trendem prolinkovávání webů, existuje nějaká hranice, kdy je tento přístup z hlediska vyhledávacích robotů akceptovatelný a kdy už nikoliv?

Optimalizace pro vyhledávače se dá shrnout do jednoho jediného pravidla, které platí v dlouhodobém horizontu: „Co je dobré pro uživatele, je dobré i pro vyhledávače.“

Jakým způsobem bojujete například proti uměle vytvářeným odkazům?

Neřeknu vám, jak náš vyhledávač přesně funguje a co a jak vyhodnocuje, protože to dává lidem, kteří ho chtějí oklamat, návod – alespoň maličký, ale návod. Ale mohu říci, že se této problematice intenzivně věnujeme.

Blogujte na Lupě

Chcete mít vlastní blog o tématu kolem světa IT a internetu? Blogujte na Lupě a buďte na titulní stránce Lupy. Registrujte se na blog.lupa.cz.

       

Je těžké dostat odkaz na konkrétní stránku na první pozici ve vyhledávání?

Všechno je samozřejmě otázka finančních prostředků. Naším úkolem je lidem, kteří se snaží dostat na vyšší pozice, to co nejvíce zdražit. Jde o to, aby se takovým lidem vyplácelo investovat peníze do zlepšení čitelnosti a rychlosti stránek. To nám v konečném důsledku velmi pomáhá. Vyhledávače jako takové, se sice zevnitř vyvíjí zásadním způsobem, ale zvenku to tak nevypadá. Podstatný komfort, který uživatel na Internetu získává, nezískává kvůli vyhledávačům, ale kvůli stránkám, které firmy a lidé tvoří.

Anketa

Který vyhledávač primárně používáte?

       

Martin Vyleťal

Martin Vyleťal

Autor je redaktorem Lupy a správcem databází. Je absolventem katedry amerických studií IMS FSV UK.

Školení Google+ pro firmy

DW - Školení PPC
  • Jak využít Google+ pro firemní komunikaci a marketing.
  • Čím se liší Google+ od Twitteru a Facebooku z pohledu firemního využití.
  • Jak využít Google+ v souladu s pravidly užívání.
  • Založení Google+ Page (Stránky) krok po kroku, včetně praktických tipů.

Detailní informace o školení Google+ »

Přehled názorů

RE: Dušan Janovský: Seznam zůstane jedničkou i nadále
Marty McFly 27. 5. 2010 06:41
Nový
└ 
RE: Dušan Janovský: Seznam zůstane jedničkou i nadále
letec 28. 5. 2010 01:24
Nový
Děkujeme za Křišťálovou lupu
anonymní uživatel 27. 5. 2010 07:44
Nový
Jak jedničkou?
PetrX 27. 5. 2010 07:54
Nový
Seznam vs. Google pro kratší dotazy
Vladimír Kutna 27. 5. 2010 08:52
Nový
├ 
Re: Seznam vs. Google pro kratší dotazy
Marty McFly 27. 5. 2010 09:08
Nový
├ 
Re: Seznam vs. Google pro kratší dotazy
anonymní uživatel 27. 5. 2010 14:20
Nový
└ 
Re: Seznam vs. Google pro kratší dotazy
plysak 27. 5. 2010 23:36
Nový
Argument pro hloupé
kamil 27. 5. 2010 08:56
Nový
├ 
Re: Argument pro hloupé
anonymní uživatel 27. 5. 2010 09:00
Nový
│
└ 
Re: Argument pro hloupé
. 27. 5. 2010 10:57
Nový
├ 
Re: Argument pro hloupé
Vladimír Kutna 27. 5. 2010 09:02
Nový
│
├ 
Re: Argument pro hloupé
kamil 27. 5. 2010 09:13
Nový
│
└ 
Re: Argument pro hloupé
anonymní uživatel 27. 5. 2010 09:13
Nový
│
 
├ 
Re: Argument pro hloupé
Marty McFly 27. 5. 2010 09:14
Nový
│
 
├ 
Re: Argument pro hloupé
anonymní uživatel 27. 5. 2010 09:15
Nový
│
 
└ 
Re: Argument pro hloupé
kamil 27. 5. 2010 09:27
Nový
├ 
Re: Argument pro hloupé
anonymní uživatel 27. 5. 2010 09:27
Nový
│
├ 
Re: Argument pro hloupé
VB 27. 5. 2010 09:30
Nový
│
│
└ 
Re: Argument pro hloupé
anonymní uživatel 27. 5. 2010 09:32
Nový
│
│
 
└ 
Re: Argument pro hloupé
anonymní uživatel 27. 5. 2010 12:59
Nový
│
├ 
Re: Argument pro hloupé
kamil 27. 5. 2010 09:36
Nový
│
├ 
Re: Argument pro hloupé
anonymní uživatel 27. 5. 2010 10:52
Nový
│
└ 
Re: Argument pro hloupé
. 27. 5. 2010 10:59
Nový
└ 
Re: Argument pro hloupé
solamyl 28. 5. 2010 10:27
Nový
 
└ 
Re: Argument pro hloupé
kamil 29. 5. 2010 12:52
Nový
jakpsatweb
dr.vota 27. 5. 2010 09:49
Nový
├ 
Re: jakpsatweb
anonymní uživatel 27. 5. 2010 09:51
Nový
└ 
Re: jakpsatweb
anonymní uživatel 31. 5. 2010 17:02
Nový
 
├ 
Re: jakpsatweb
Vladimír Kutna 31. 5. 2010 17:55
Nový
 
└ 
Re: jakpsatweb
Royce 17. 1. 2011 21:56
Nový
kdy použivám Seznam
em 27. 5. 2010 11:04
Nový
└ 
Re: kdy použivám Seznam
Karotka 27. 5. 2010 11:37
Nový
RE: Dušan Janovský: Seznam zůstane jedničkou i nadále
Lukáš 27. 5. 2010 11:36
Nový
├ 
RE: Dušan Janovský: Seznam zůstane jedničkou i nadále
. 27. 5. 2010 11:42
Nový
└ 
RE: Dušan Janovský: Seznam zůstane jedničkou i nadále
kamil 27. 5. 2010 12:05
Nový
 
└ 
RE: Dušan Janovský: Seznam zůstane jedničkou i nadále
. 27. 5. 2010 12:13
Nový
 
 
└ 
RE: Dušan Janovský: Seznam zůstane jedničkou i nadále
polygon 27. 5. 2010 12:45
Nový
 
 
 
└ 
RE: Dušan Janovský: Seznam zůstane jedničkou i nadále
. 27. 5. 2010 12:57
Nový
 
 
 
 
└ 
RE: Dušan Janovský: Seznam zůstane jedničkou i nadále
polygon 27. 5. 2010 14:40
Nový
 
 
 
 
 
└ 
RE: Dušan Janovský: Seznam zůstane jedničkou i nadále
. 27. 5. 2010 15:23
Nový
Není pravda že nepodvádí
Tomáš Kapler 27. 5. 2010 11:58
Nový
Vyhledávače nestíhají
Miloslav Ponkrác 27. 5. 2010 12:09
Nový
├ 
Re: Vyhledávače nestíhají
anonymní uživatel 27. 5. 2010 13:07
Nový
│
└ 
Re: Vyhledávače nestíhají
Vladimír Kutna 27. 5. 2010 13:41
Nový
│
 
├ 
Re: Vyhledávače nestíhají
Flasi 27. 5. 2010 14:41
Nový
│
 
└ 
Re: Vyhledávače nestíhají
Petr 27. 5. 2010 15:30
Nový
│
 
 
├ 
Re: Vyhledávače nestíhají
nvl 27. 5. 2010 21:25
Nový
│
 
 
│
└ 
Re: Vyhledávače nestíhají
Petr2 27. 5. 2010 23:22
Nový
│
 
 
└ 
Re: Vyhledávače nestíhají
ShuwiX 27. 5. 2010 21:36
Nový
│
 
 
 
└ 
Re: Vyhledávače nestíhají
Petr2 27. 5. 2010 23:33
Nový
└ 
Re: Vyhledávače nestíhají
Gootes 27. 5. 2010 14:57
Nový
 
└ 
Re: Vyhledávače nestíhají
Miloslav Ponkrác 27. 5. 2010 16:15
Nový
 
 
└ 
Re: Vyhledávače nestíhají
Flasi 28. 5. 2010 11:11
Nový
 
 
 
└ 
Re: Vyhledávače nestíhají
Miloslav Ponkrác 28. 5. 2010 22:48
Nový
No ja myslim, ze ten trend je jasny
anonymní uživatel 27. 5. 2010 13:29
Nový
tlačení svých projektů
goldsmith 27. 5. 2010 15:26
Nový
Seznam je sráč
UiU 27. 5. 2010 15:43
Nový
-5V ?
anonymní uživatel 27. 5. 2010 18:02
Nový
├ 
Re: -5V ?
Sasan 27. 5. 2010 19:23
Nový
│
└ 
Re: -5V ?
martin 27. 5. 2010 19:51
Nový
│
 
└ 
Re: -5V ?
Flasi 28. 5. 2010 11:03
Nový
└ 
Re: -5V ?
Mi. Chal. 27. 5. 2010 23:06
Nový
 
└ 
Re: -5V ?
Flasi 28. 5. 2010 11:09
Nový
Cesi:D
letec 28. 5. 2010 01:55
Nový
├ 
Re: Cesi:D
Miloslav Ponkrác 28. 5. 2010 02:09
Nový
│
└ 
Re: Cesi:D
VfB 28. 5. 2010 07:46
Nový
└ 
Re: Cesi:D
Vladimír Kutna 28. 5. 2010 08:41
Nový
 
└ 
Re: Cesi:D
Karotka 28. 5. 2010 12:44
Nový
 
 
├ 
Re: Cesi:D
Vladimír Kutna 28. 5. 2010 13:05
Nový
 
 
│
└ 
Re: Cesi:D
Jarda Suk 28. 5. 2010 15:05
Nový
 
 
│
 
├ 
Re: Cesi:D
. 28. 5. 2010 15:32
Nový
 
 
│
 
│
└ 
Re: Cesi:D
Jarda Suk 28. 5. 2010 15:55
Nový
 
 
│
 
│
 
├ 
Re: Cesi:D
anonymní uživatel 28. 5. 2010 17:45
Nový
 
 
│
 
│
 
├ 
Re: Cesi:D
Petr Hejl 28. 5. 2010 22:21
Nový
 
 
│
 
│
 
└ 
Re: Cesi:D
Petr Hejl 28. 5. 2010 22:23
Nový
 
 
│
 
├ 
Re: Cesi:D
VfB 28. 5. 2010 19:18
Nový
 
 
│
 
└ 
Re: Cesi:D
Petr Hejl 28. 5. 2010 22:19
Nový
 
 
└ 
Re: Cesi:D
. 28. 5. 2010 14:44
Nový
Analýza
Petr Hejl 28. 5. 2010 08:40
Nový
Analýza - oprava linků
Petr Hejl 28. 5. 2010 08:48
Nový
Seznam
anonymní uživatel 28. 5. 2010 20:12
Nový
Nezáviďte Sku
PR 29. 5. 2010 09:37
Nový
RE: Dušan Janovský: Seznam zůstane jedničkou i nadále
Petr Hejl 30. 5. 2010 11:47
Nový
       

Tento text je již více než dva měsíce starý. Chcete-li na něj reagovat v diskusi, pravděpodobně vám již nikdo neodpoví. Pro řešení aktuálních problémů doporučujeme využít naše diskusní fórum.

Zasílat nově přidané příspěvky e-mailem