Hlavní navigace

Názory k článku Co opravdu očekáváme od vyhledávačů?

  • Článek je starý, nové názory již nelze přidávat.
  • 12. 5. 2003 7:36

    Smisek (neregistrovaný)
    Co to jsou ty v clanku zminovane semanticke znacky? Meta keywords?
    Sorry za lamersky dotaz.
  • 12. 5. 2003 8:28

    gringo (neregistrovaný)
    je to neco jako kdyz mas tag <kniha>Lord Of The Rings</kniha>, takze podle toho vis nejen vzhled (font, barvu, velikost), ale take vyznam toho slova... doufam, ze to chapu dobre a nematu :)))
  • 13. 5. 2003 0:11

    Dave (neregistrovaný)
    .... v podstate se da tagovat i kazde slovo, pro pochopeni vyznamu nazvu knihy. Myslim ze to bude jednou budoucnost celeho internetu - obsah se prizpusobi vyhledavacum
  • 12. 5. 2003 11:50

    Michal Kubeček (neregistrovaný)
    Například to, že krátký citát místo do <i>...</i> uzavřete do <q>...</q>. Takže místo tohle zobraz kurzívou řeknete tohle je citát.
  • 12. 5. 2003 8:06

    lukas.suchanek (neregistrovaný)
    Ave,
    jsem jen jeden z mnoha lidi co vyhledavani na webu cas od casu potrebuji a proto se me naroky meni pripad od pripadu.
    Kdyz chci vyhledavat v ceskych webech, je pro me dulezite, aby vyhledavac umel sklonovat, nebot kolikrat mnou hledana stranka obsahuje slovo nejakym zpusobem vysklonovane, musi si take umet poradit s diakritikou (zkuste zadat googlu 'akvarijni rybicky' a 'akvarijní rybičky' a pak totez v jyxu). Me pro vyhledavani na ceskem webu jyxo vyhovuje snad nejvic ze vseho co jsem zatim mel moznost otestovat.
    Vyhovuje mi i "dalsich XXX odkazu odtud", coz dost vyhledavacu umoznuje, nektere umoznuji i nahled stranky - to je taky fajn, aspon se netahaji obrazky, ale leckdy by mi stacil vetsi vysek nez jen jedna ci dve radky ve vysledku hledani, abych se zorientoval jestli me to zajima nebo ne.
    Nekdy zase clovek hleda obrazek a zde se mi treba libi pristup googlu, ze zobrazuje rovnou nahledy. Nevim sice jestli ty obrazky vyhledava jen podle nazvu, altu ci i neceho jineho, ale povetsinou jsem nasel co jsem hledal.
    Jindy clovek potrebuje najit diskusi na nejake tema a zde je dost problem, ale to nebude ani tak problem vyhledavacu, jako spis serveru s diskusemi, ze prispevku je tam tolik, ze uz se to prakticky neda dohledat ci uz zmizeli - zkratka je to bida.
    Vyhledavani souboru ci utilitek moc nepouzivam, ale dovedu si predstavit ze pouzit k tomu bezny vyhledavac by asi praci neusnadnilo. I tento druh vyhledavani ma sva specifika a jeho realizace by rade lidi mohla pomoci.
    Obdobne je to z vyhledavanim hudby, melodii, navodu ci manualu k vyrobku, cenikach apod.
    Zpresnovat by se dalo dost dlouho.
    Katalogizace odkazu (ala seznam) ma take sve vyhody, ale velkou nevyhodu spatruji v tom, ze rada odkazu se v nich nikdy neobjevi a jinak nez fulltextem se k nim neda dostat - takze ja katalogizacni vyhledavani pouzivam jen v pripade, ze selze fulltext - a i tak mi ve vetsine pripadu nepomuze (leda by ve fulltextu bylo obrovske mnozstvi odkazu, ktere nejde zpresnit a nechce se mi to prohledavat odkaz po odkazu)

    / Lukas Suchanek
  • 12. 5. 2003 11:51

    Jiří Donát (neregistrovaný)
    Zde se objevuje zajímavý námět: zánik katalogů. Sám si vzpomínám na to, že zpočátku jsem na internetu vyhledával prakticky pouze prostřednictvím katalogů. Dnes se naprostá většina mých dotazů uskuteční pomocí vyhledávací lišty Google. Vyhledávání prostřednictvím přímého dotazu je pravděpodobně přirozenější a více odpovídá analogii s dotazy v přirozeném životě; problém každého katalogu je zejména v tom, že každou informaci můžeme zařadit mnoha různými způsoby - přirozený dotaz tento problém odstraňuje. Toto je mimochodem vrozený a neodstranitelný problém XML standardu. Dokonce bychom mohli vyslovit hypotézu, že XML byl stvořen pro ideální svět, nikoliv pro ten náš, a proto nemá šanci se ujmout.

    Myslíte si, že vývoj na internetu spěje k zániku katalogů?
  • 12. 5. 2003 12:12

    Lukas Suchanek (neregistrovaný)
    Ave,
    takhle pesimisticky bych to nevidel. Katalogy mohou existovat v mnoha ruznych podobach a zvlaste ty, co si kladou za cil byt specializovane na urcitou omezenou oblast mohou mit slusnou budoucnost - konec koncu kde hledat "kompletni seznam neceho", nez ve specializovanem "katalogu"?
    Na prikladu seznamu lze ukazat, ze katalogizacni hledani je pro radu lidi porad jediny mozny zdroj odkazu. Procento internetovych laiku a zacatecniku vyhledavajicich pouze katalogove je znacne, dokud se na kurzech pocitacovych gramotnosti, zakladu internetu, na skolach s indosem bude vyucovat vyhledavani pres Seznam (Atlas, Centrum, ...) porad to bude mit vyznam.
    Zjednodusil jsem to jen na CR, protoze poznatky o tom jak je to ve svete nemam. Nepredpokladam, ze by se tam zacinalo hledat rovnou ve fulltextech, konec koncu prave hledani v katalogu je lidem zvyklim pouzivat Zlate Stranky tak nejak blizsi. Nevim jak moc je Google (ci jine fulltextove vyhledavace) marketingove agresivni, ale vim, ze Seznam si v tomto ohledu nevede nejhure - a fakt, ze defaultni vysledky jsou z katalogu a fulltext je az dalsi v nabidce take o necem svedci - konec koncu ze zobrazovani zvyhodnovanych odkazu jsou mimo jine take zivi.
    Ale fakt, ze katalogy nejsou schopny autokatalogizace (tj. ze by si podobne jako fulltext tahaly stranky z internetu a sami si je tridily do svych skatulek) je chte nechte stavi do jine roviny.

    Kdyz uz je ale rec o budoucnosti vyhledavani - objevily se zpravy o semanticke analyze obsahu stranek a pripadne i semanticke analyze vyhledavaciho dotazu. Mozna, ze tudy driv nebo pozdeji povede cesta, ale jsem spise skeptik. Mozna ze to bude fungovat nejdrive pro anglictinu, coby jeden z jednodussich (a nejrozsirenejsich) jazyku, ale pro cestinu se toho v dohledne dobe nedockame.

    / Lukas Suchanek
  • 12. 5. 2003 13:04

    Jiří Donát (neregistrovaný)
    Tato problematika úzce souvisí s algoritmem, který je použit například pro automatické generování první stránky na news.google.com. Na této stránce máme různé kategorie ("World", "U.S.", "Business"...), ty jsou ale zřejmě převzaty ze stejných kategorií použitých zpravodajských médií. Pokud bychom tedy převzali hypotézu že od "hodnosti" konkrétních stran se nějakým způsobem přejde k "hodnosti" informačních zdrojů, postačilo by vyřešit kategorizaci těchto zdrojů. Ale to je dost vzdálená vize. Pořád by bylo zapotřebí vyřešit automatický algoritmus, jak stanovit hodnost zdroje. Podle vysokého počtu stránek s vysokou hodností? Jak ale ošetřit, že zdroj může být vysoce hodnotný pouze pro určitou specializovanou komunitu? Jeho celková hodnost pak může být průměrná...
  • 12. 5. 2003 12:16

    Roger (neregistrovaný)
    Taky katalogy nepouzivam (a krom par vyjimek jsem ani nepouzival), ale i pri hledani googlem se AFAIK nejprve vypisi veci z katalogu. Ma to svou vyhodu - pro nektere veci (produkty, ...) jsou v katalogu jejich "opravdove" domovske stranky, takze vam nehrozi, ze budete bloudit nekde jinde.
    Ja osobne hledam fulltextem vsechno, co shanim :)
  • 12. 5. 2003 12:58

    Jiří Donát (neregistrovaný)
    Myslím si, že ne. Pokud já vím, nejprve se vypíší "sponzorované" odkazy, tedy takové odkazy, u nichž si jejich provozovatel zaplatil preferenční výpis na dané klíčové slovo. Ty se vypisují i do pravého sloupce. Zbytek je pak řazen sestupně podle Page Rank. Přesný algoritmus bohužel (a z jeho pohledu i pochopitelně) Google nezveřejnil...
  • 13. 11. 2007 19:36

    JenJenda (neregistrovaný)
    Ja osobne doporucuji hledat pomoci ekologickeho vyhledavace - http://hledej.uzasne.cz, nebo http://google.uzasne.cz - Vyhledavanim tam setrite energii a prispivate tak mnoha vecem - doporucuju precist si: http://hledej.uzasne.cz/proc.php - Velmi zajimave!
  • 12. 5. 2003 13:34

    Fico (neregistrovaný)
    To s tim XML jsem nepochopil. Autor se asi ne prilis dobre orientuje v XML.

    Take bych navrhoval ustoupit z tech managerskych formulaci, kterymi je text doslova prosycen. Uplne mi tim unikl smysl nekterych odstavcu.

    Kdyz uz by to melo byt hi-tech, doporucoval bych neco o mobilnich agentech. Google je stara technologie a takhle hledac za par mesicu vypadat nebude.

    Jde-li naopak o katalogy, tak jejich zanik je spojen s lenosti tvurcu a neporadkem a nelogicnosti, kterou v tom maji. Projdu-li si katalogy 3 velkych ceskych vyhledavacu, tak je to tragedie. Vemte si treba Seznam - plagiat Yahoo jak vysity, naprosta impotence vlastni myslenky. Podobnou lenost myslet projevuji pri sprave katalogu, a pak to logicky umira.
  • 12. 5. 2003 14:13

    Jiří Donát (neregistrovaný)
    Omlouvám se, pokud jsou některé mé formulace nejasné. Z textu Vašeho příspěvku ale cítím, že přemýšlíme stejným směrem. "Lenost tvůrců" katalogů je přesně to, co jsem myslel, když jsem mluvil obecně o "lenosti" tvůrců obsahu. Navíc si myslím, že se tato vlastnost dá rozšířit i na druhou stranu pyramidy - na "lenost" uživatelů. Jinými slovy, vyslovil jsem hypotézu, že většina lidí na internetu je ochotna něco udělat pouze tehdy, pokud z toho oni sami budou mít prospěch. Samozřejmě existují i výjimky, ale s těmi není možné počítat při navrhování masových technologií. Masové technologie tedy mají počítat s lidmi takovými, jací jsou, jinak nemají šanci se uplatnit.
    XML je relativně složitou rodinou standardů, která předpokládá, že ji někdo dodefinuje a pak ji bude masivně, dlouhodobě a konzistentně používat. K tomu, aby se tak skutečně stalo, musí ale mít uživatelé dobrý důvod a motivaci. A ta mi v případě XML chybí. Aspoň zatím.
  • 12. 5. 2003 14:52

    Fico (neregistrovaný)
    S tim XML tomu asi nerozumim ja. Podle mne je to jen datovy format, semantiku logicky musi dat ten co to pouzije. Dalsi kouzlo v tom nevidim. Chapu opacnou analogii - spatna semantika "katalogu" se promitne do XML (kdyz to na to nekdo hodi), a proto to nepomuze. Takhle jste to myslel?

    S "obycejnymi" lidmi je to pravda, ale otocte to na pozitivum. Pak muzete vytvorit agenta s jednoduchou neuronovou siti a par heuristikami, co dokazi danou informaci hledat jako "jeho pan" (zde pozor na tu 1-1 vazbu na uzivatele), vytvaret JEHO pageranky (nikoliv ty globalni googlovske) a simulovat JEHO zpusob hledani a mackani odkazu. Potom staci aby tahle masinerie bezela non-stop, a kdyz "pan" neco hleda, aby parametry predala centralnim algoritmum. Pak se daji tyhle parametry clustovat (lidi jsou vesmes stejni), cimz vytvorite katalogy/clustery "lidi" a.k.a. jejich profilu. Vyhody to ma dve - marketing ve stylu big bro, a pak pro moznost cachovat vypocty na core uzlu.

    Razem jste v jinem svete. Dejte mi solidni konektivitu, unix masinu na pateri, stravenky, a do Vanoc to jede... :-)
  • 12. 5. 2003 15:09

    Michal Illich (neregistrovaný)
    > Razem jste v jinem svete. Dejte mi solidni konektivitu, unix masinu na pateri, stravenky, a do Vanoc to jede... :-)

    Tak poslete mail a muzete to mit :)
  • 13. 5. 2003 19:38

    Honza (neregistrovaný)
    Pokud budete mít zájem, tady je můj e-mail: andel@gigant.cz. Ozvěte se a můžem se domluvit. Napište jaké chcete servery, připojení máme - páteř GTS 2Gbps a můžeme se domluvit. Stačí když mi tam pošlete Váš mail a telefon a já se Vám ozvu. Díky
  • 12. 5. 2003 8:31

    Yeti (neregistrovaný)
    Pobavilo mě, jak autor propagaci gramatických chyb demonstruje na psaní ,,datumu`` -- asi má s češtinou také své tajné plány... ;-)
  • 12. 5. 2003 9:57

    jk (neregistrovaný)
    "Interaktivní" obsah webu - výsledky dotazů do různých databází atp.

    Jinak jsem pesimista - vyhledávače především trápí, jak vylepšit hledání pro "internetově hloupého uživatele". Výsledkem takových vylepšení bude, že "hloupý uživatel" dokáže najít to co dnes já (jo, považuju se za "internetově chytrého uživatele") a já o trošku víc a snad pohodlněji.

  • 12. 5. 2003 12:53

    Jiří Donát (neregistrovaný)
    Napadlo mě, že výběr zpráv na hlavní stranu Google by šel udělat mnohem jednodušeji, než zde popisuji: prostě definovat v rámci privilegovaných zdrojů podmnožinu "ještě privilegovanějších", jejichž titulní zprávy by automaticky a bez zpoždění přecházely na první stránku Google. Když někdo (dobře placený odborník) zařadí článek na titulní stranu cnn.com či BBC, Google nemůže udělat chybu, když ho tam dá také. Algoritmus z bodu 1 by tedy byl zapotřebí pouze pro to, aby se stejná zpráva neobjevila na titulní stránce dvakrát či třikrát.

    To ale neřeší náš problém, spíše ho ještě zvětšuje: výběr důležitých zpráv závisí o to více na výběru důležitých a "důležitějších" médií. A idnes.cz či ihned.cz je v takovém případě ze hry...
  • 12. 5. 2003 13:44

    Fico (neregistrovaný)
    Kdyz je nekde zemetreseni, tak pageRank funguje dobre, protoze pokud to zverejni na strance s velkym pageRankem, tak se tomu da verit, a je to v hit listu nahore.

    Krom toho google crawluje podle pageranku a refresh priority (ta je dynamicky urcena frekvenci a rozsahem update dane stranky). Nevidim problem. Problem je centristicka architektura googlu. Ale jak jsem napsal jinde, google zacina byt brontosaurus, co se prezil.

    Ted jde jen o to, jestli Microsoft napise ten svuj super stroj driv jak nekdo druhy. Podle toho co vim, verim v to druhe.
  • 12. 5. 2003 14:37

    Fico (neregistrovaný)
    To je (a nejenom) dano tim, ze matematicky model prevodu "news" zprav do ciselne "pocitacove" formy, se vyrazne odlisuje od bezneho "webu".

    Mimo jine tim vyriznou uzivatele, kteri hledaji jen zpravy. To stroj pochopitelne nepozna, kdyz mu nekdo napise "vulcan", co dotycny chce. Muze chtit zpravy z reuters (news oblast), seznam vulkanu (web stranky - veda), nebo komercni nabidku jedne firmy (web stranky - komerce).

    Oddelenim news se to pro uzivatele zprehledni.

    Je z toho videt, ze puvodni obecne algoritmy google nejsou idealni, protoze pro realne pouziti je potreba parametrizovat (news/web/komerce/maillist/...).

    Je ale lepsi otazka - jestli reseni "news" nelze udelat pomoci clustrovaci techniky co pred 10ti lety delal Cutting a spol.
  • 12. 5. 2003 15:10

    Jiří Donát (neregistrovaný)
    Já bych to viděl trošku jinak. Je tady totiž problém, jak definovat "zprávy". Pokud se něco chci dovědět o jakémkoliv subjektu (ať už je to konkrétní sopka, konkrétní firma nebo třeba konkrétní ostrov), zcela jistě nebudu chtít "zprávy" vynechat. Ty mně totiž poskytují ty nejčerstvější informace. A pak mohu potřebovat nějaké další, historické informace, třeba z klasických domovských stránek, z encyklopedií nebo z cestopisů lidí, kteří ta místa někdy v minulosti navštívili. Z mého pohledu je tedy jedinou odlišností "zpráv" to, že jsou řazeny podle času vydání. A přesně tak to dnes funguje i na Google: zkuste hledat třeba "Microsoft" v klasickém Google nebo v news.google.com - rozdíl je zcela zřejmý.

    Já bych tedy "zprávy" definoval jako službu uživateli, který již daný subjekt zná, který však o něm potřebuje nejnovější informace. Vidíte to jinak?

    PS: byl bych rád, kdybyste mohl uvést nějaké odkazy na Cuttinga. Na Google jsem neuspěl, protože "cutting edge technology" je příliš populární buzzword, takže nějaký pán stejného jména nemá šanci...
  • 12. 5. 2003 16:30

    Fico (neregistrovaný)
    Hluboce nesouhlasim. Vyhledavac ma jen cca 10 pozic na vraceni aspon 1 zasahu, ktery vyzadujete. Kdyz si tyto pozice zaplacne web-odkazy misto news-odkazy co chcete (nebo naopak), prohral. Vas zpusob hledani je vysokoskolsky - chcete reference, pak jste spokojen. Vas se pak hot-top-spot problem netyka, ale vetsinou lide chteji uz primo cil, nez se prohrabovat (byt zajimavym) seznamem odkazu...

    News google - stroj uz tim kde hledate, vi co hledate. Kdyby ale vedel kdo jste (profil), hledal by jeste o tridu lepe. Proto reseni z google je jen reseni z nouze, sice mozna zajimave, ale je to jen zaplata.

    "Definice" zpravy neni az tak komplikovana - "dobra" zprava je na dobrem pageRankove strance pouze kratce, pak jde na misto lowRankove a zustava tam. "Flash" je pak zprava, co take zije kratce, ale nejde na lowRank.
  • 13. 5. 2003 8:56

    Jiří Donát (neregistrovaný)
    Omlouvám se, ale Vaše definice zprávy je prakticky těžko použitelná, neboť podle ní poznáme zprávu až po určitém čase, podle toho, jak se vyvíjela její popularita. Pokud by takto postupovaly vyhledávače, byly by schopny poznat, že šlo o zprávu, až ve chvíli, kdy už by byla stará...
  • 13. 5. 2003 13:38

    Fico (neregistrovaný)
    Pochopitelne by zminenou definici dany vyhledavac objevil mista, kde se zpravy objevuji - naucil by se to. V tom je ten figl.

    Kdyz vse vezmete jako staticke stranky, nikdy zpravu nepoznate. Proto je uvedena definice jedina pouzitelna, o kazde jine lze naopak dokazat, ze je nepouzitelna.

    PageRank prece take spocitate az po urcitem case, to neni hodnota, kterou mate hned co danou stranku stahnete (jestlize dokazete opak, dejte mi prosim vedet). A presto je to pouzitelne.
  • 14. 5. 2003 1:25

    Honza (neregistrovaný)
    Nedavno jsem cetl, ze co se tyce googlu, maji se zpravami velike problemy. ve fulltextu totiz nepoznaji zda jde o jeste aktualni zpravu nebo ne. A pokud je nejaka zhava novinka, tak se tam neobjevy hned, ale az po case. Viz zaplavy v CR letos se na googlu objevily az za mesic po jejich konci. Proto udelali news.google.com ve kterem pouzivaji jine algoritmy pro vyhledavani techto zprav - vse je dostupnejsi uz jenom kvuli omu, ze tato databaze odkazu je podstatne mensi nez cela db googlu.
  • 14. 5. 2003 9:19

    Michal Illich (neregistrovaný)
    PageRank prece take spocitate az po urcitem case, to neni hodnota, kterou mate hned co danou stranku stahnete (jestlize dokazete opak, dejte mi prosim vedet).

    Ve skutecnosti, PageRank muzete spocitat dokonce jeste predtim, nez danou stranku stahnete :)
    Viz definice PageRanku - jeho hodnota pro urcitou stranku neni ovlivnena vubec nicim, co se na one strance nachazi.

    V praxi je ale PageRank ci jeho obdoby obvykle pocitan jednou za nejaky cas, protoze je to casove narocne (u Google je perioda jeden mesic, u Jyxa jeden den, u AllTheWebu pravdepodobne jeden tyden).


    Jeste k ruznym dalsim napadum z jinych prispevku:
    Kategorizace stranek pomoci ciselniku - ano, tenhle projekt existuje, jmenuje se Open Grid. Bohuzel se vubec nerozjel kvuli obvyklemu zacarovanemu kruhu, ktery je primo v jadru podobnych myslenek.


    Koudelka bez RPG her - tak ono staci zadat dotaz jako koudelka -RPG. Alespon tohle je ve vetsine pripadu vyresene...

  • 14. 5. 2003 14:15

    Fico (neregistrovaný)
    Priklad: nic nemate stazene, zacinate. Opravdu jste schopen predtim nez stahnete http://www.ibm.cz/tech/a/b/c/d rict pagerank teto stranky? V takovem pripade ho nemuzete ani odhadnout IMHO.

    Nevim jaky pagerank znate vy, ale normalne se v nem pocita s poctem linku do stranky a ze stranky (tj. ta stranka je treba). Znam heuristiky pro situace, kdy je jiz stanoven pagerank ostatnich stranek a treba urcit pg nove stranky, to umim. Ale obecne to neumim, a spise by mi to pripominalo vesteni z kristalove koule nez vypocet (viz. priklad vyse).
  • 14. 5. 2003 14:38

    Michal Illich (neregistrovaný)
    PageRank nejake stranky je:

    P(A) = d/N + (1-d)*Soucet(P(B)/outdegree(B))

    Kde A je ta stranka, B jsou vsechny stranky, ktere na ni odkazuji, d je konstanta, N je pocet dokumentu.

    Tedy vidite, ze pro vypocet P(A) neni potreba znat zadnou vlastnost stranky A - pouze vlastnosti stranek, ktere na ni odkazuji.

    > [poctem linku] ze stranky (tj. ta stranka je treba)
    (tohle prave neplati, viz vzorec)

    Pridanim podminky "nic nemate stazene" samozrejme menite situaci; ale o tom rec nebyla - slo o to, zda vyhledavac muze urcit pagerank stranky pred stazenim, po stazeni nebo dokonce az nejakou dobu pote (vase puvodni tvrzeni).
  • 14. 5. 2003 17:15

    Fico (neregistrovaný)
    Fakticky: zadne omezujici podminky nebyly, proto vas predpoklad, ze uz neco vite o jinych strankach NESPLNUJE predpoklady meho tvrzeni. Ukazal jsem jednoduchy protipriklad, kdy je vase tvrzeni chybne.

    Ve Vasi rovnici je evidentne nejen P(A) zavisle od P(B), ale i naopak. Proto opet nemate pravdu, ze pro stanoveni pg na obsahu (odkazech) stahovane stranky nezalezi. Zalezi.

    Prijmeme-li DODATECNY predpoklad, ze nam staci urcita presnost stanoveni pg, pak pochopitelne pg je mozne odhadnout i pred stazenim jakekoliv stranky.

    Pohotovy ctenar zajiste rychle stanovi vzdalenost Zeme-Slunce s presnosti na jeden svetelny rok :-) (tim chci naznacit, ze jiz nechapu smer tohoto vlakna, ale rad se necham prekvapit nejakou brilantni matematickou myslenkou)
  • 14. 5. 2003 19:34

    Michal Illich (neregistrovaný)
    > Prijmeme-li DODATECNY predpoklad, ze nam staci urcita presnost stanoveni pg, pak pochopitelne pg je mozne odhadnout i pred stazenim jakekoliv stranky.

    Tento predpoklad neni nijak dodatecny, je uplne v zakladu vypoctu pageranku - ten se pocita iterativne a jen do urcite presnosti. Viz literatura dostupna na webu.

    Takze nemam co bych menil na tom, co jsem uz rekl.

    > Ve Vasi rovnici je evidentne nejen P(A) zavisle od P(B), ale i naopak.

    A pokud bychom tuhle uvahu dovedli do konce, tak bychom zjistili, ze vlastne pagerank nelze nikdy vypocitat :)) - coz je sice (brano absolutne) pravda, ale trochu to neodpovida tomu, ze se pagerank bezne pocita...
  • 15. 5. 2003 4:41

    Fico (neregistrovaný)
    Tedy znovu - pg neni mozne stanovit pred stazenim stranky (v obecnem pripade), protoze obsah takove stranky ovlivnuje samotny vypocet - ovlivnuje ho pocet odkazu jdoucich z teto stranky. Jestli tohle nechapete, tak uz vazne nevim jestli je porad 1+1=2.

    Uvedte laskave prime odkazy, kde tvrdi opak, jste-li toho schopen.
  • 15. 5. 2003 10:34

    Michal Illich (neregistrovaný)
    My se vazne mijime :)

    1. Vypocet PageRanku je vzdycky (vzdycky!) priblizny.
    2. Stejnym (stejnym!) zpusobem a vzorcem, jakym pocitate PageRank pro zacrawlovane stranky, jej muzete vypocitat i pro novou stranku, kterou ve sve databazi nemate jeste zarazenou. (a jak vyplyva z 1, bude to opet priblizne).
    3. Nikde jsem netvrdil, ze zacrawlovanim nove stranky neziskate dalsi informaci, ktera pak lehce zmeni pageranky sveho okoli. Ale to je vlastnost, se kterou se jiz predem pocita, a PageRank je primo od zacatku navrhovan pro grafy, ktere jsou neuplne (jako napr. databaze vyhledavace).
    4. Kdyztak se muze laskavy ctenar vratit a procist si cely nas thread - to jak zacal a na co bylo vzdy reagovano (a zjisti souvislosti, vyznamove posuny a dodatecne podminky, ktera se snazi opravit drivejsi omyly).

    Prime odkazy, ktere jste si pral:
    1. "" (tedy tato diskuse; vzorec, ze ktereho muzete odvodit vse dalsi, je uz tady).
    2. http://www-db.stanford.edu/~backrub/google.html (originalni research paper Pagee a Brina)
    3. http://www.google.com/search?hl=en&q=jyxo+site%3Ajyxo.cz (zde uvidite, ze google skutecne pageranky pro nezaindexovane stranky pocita; tyto pageranky mohou byt i pomerne vysoke, jak vidite z poradi vypsanych odkazu; legenda: jsou to odkazy ze sexusu; v robots.txt je ale indexovani techto stranek zakazane)
  • 15. 5. 2003 17:44

    Honza (neregistrovaný)
    Stale jeste nemate chut zacit delat svuj projekt s nama? Vse potrebne k tomu mame, staci pouze napsat na mail a muzeme se domluvit na ostatnich vecech.
  • 16. 5. 2003 17:18

    Michal Illich (neregistrovaný)
    Nic si z toho nedelejte, mne se take neozval :))
    A to jsem komukoliv s dobrym napadem na zlepseni vyhledavani schopen poskytnout velmi slusne zazemi...

  • 13. 5. 2003 9:01

    Jiří Donát (neregistrovaný)
    Jinak s personalizací vyhledávače samozřejmě souhlasím. Právě zde je klíč k významnému zlepšení funkčnosti internetu.
  • 15. 5. 2003 18:12

    Jiří Donát (neregistrovaný)
    Díval jsem se na to, jak by šel Váš námět realizovat, a musím přiznat, že na Google těžko. Alespoň pro česká média. Tak například homepage http://idnes.cz nemá žádný PageRank (to je pro mě docela záhada), ihned má 6, Lupa má 5, ale kupodivu stejný PageRank má úplně celý obsah Lupy - od Homepage až po poslední eWorkshop před třemi lety a třeba i po tuto stránku. http://ihned.cz/ má 6, http://ekonom.ihned.cz/ a hn.ihned.cz 5, ale pětku mají i všechny články, jakkoliv staré. Takže by to chtělo ještě trochu vylepšit.
    Pro úplnost jsem se díval, jak funguje cnn.com. Tam má titulní strana 9 a plný text článků z ní vedoucí 2. To už je lepší typ chování, ale problém je v tom, že ty plné články nikdy nemají devět, jak naznačujete - pouze jsou po určitou dobu z takové strany odkazovány.
  • 13. 5. 2003 1:06

    Libor Nováček (neregistrovaný)
    Když jsme Adamovým odkazem na stánky knihovny dotkly knihovnictví a tím pádem i informačních věd, tak by se ještě možná hodilo říct, že slovo relevantní v textu článku i příspěvcích by bylo mnohdy vhodnější nahradit výrazem pertinentní, který vyjadřuje podstatu problému. Relevantní ty dokumenty jsou v drtivé většině případů, ale pertinentní už ne.

    Termín - pertinentní informace
    Termín anglicky - pertinent information
    Výklad termínu - Informace které vyhovují subjektivním požadavkům uživatele na obsah informace nebo dokumentu.


    Termín - relevantní informace
    Termín anglicky - relevant information
    Výklad termínu - Informace formálně nebo věcně shodné s dotazem zadaným uživatelem v přirozeném či selekčním jazyku. Formální relevance je shoda formulace rešeršního dotazu se selekčními údaji dokumentu, věcná relevance je shoda obsahu informačního dotazu s obsahem vyhledaného dokumentu Ke zjišťování relevance se používají koeficienty (míry) úplnosti a přesnosti.

    Zdroj: Česká terminologická databáze z oblasti knihovnictví a informační vědy (TDKIV)

    /i ta je součástí deepwebu :o) - k němu je pertinentnentní článek pro trošku hlubší vhled na http://www.brightplanet.com/deepcontent/tutorials/deepweb/index.asp
  • 13. 5. 2003 13:19

    Filip Gloser (neregistrovaný)
    Po přečtení předchozích příspěvků bych se chtěl vrátit k osobním zkušenostem s vyhledávači. Používám je zhruba k následujícím činnostem:
    -hledání informací o dodavatelích/odběratelích ...
    -hledání informací o zájmech (třeba moderní architektura)
    -hledání informací pro práci (chyby v SW produktech ...)
    Na skoro všechno ostatní již mám vybudované standardní představitele (nehledám vyhledávač, ale jdu na google, nehledám informace o internetu, ale jdu na lupu, ...)
    K vybudování portolia oblíbených značek/serverů jsem kdysi také používal vyhledávač, ale skoro jistě jako katalog, nikoliv fultext. Myslim, ze vychazet pri analyze z toho, co lide hledaji, muze prinest trosku inovativni vysledky. Prinejmensim rozvrstveni katalogu rozhodne neodpovida frekveci klicovych slov.

    Ve výše zmíněných ad-hoc dotazech se setkávám se 2 problémy:
    -moc výsledků,
    -žádné výsledky.

    MOC VÝSLEDKŮ
    problém vidím v ohodnocující funkci, pageranku. TAdy se mi libi, co umi treba vivisimo (trochu neco na ten zpusob ma jyxo)-kategorizovat podle ruznych (i kdyz hodne neumelych) aspektů, které ale vygeneruji extra ke kazdemu dotazu dynamicky.
    Docela by se mi i libilo, kdyby se dalo volit napriklad podle posledni fakticke aktualizace. Libilo by se mi zvolit si globalni "oblast zajmu" pro vysledky a pak dohledavat (jako treba ebay v advanced search). Libila by se mi možnost jednoduse vyhazovat sluvka (ze vsech vysledku). Kdyz hledam Koudelka (fotograf ze skupiny Magnum a zaroven nazev RPG hry, pak bych chtel mit moznost rict, ze v ostatnich vysledcich nechci odkazy na tu hru).

    ZADNE VYSLEDKY
    Docela pomohlo zahrnuti .doc, .pdf ... Libil by se mi i automaticky preklad z ruznych jazyku. Libilo by se mi vygenerovani abstraktu stranky podle obsahu na tech strankach, kde jsou treba jen obrazky podle toho, odkud a kam vedou odkazy...

    Jine vysledky nez jsem ocekaval
    Obcas se to stane, zejmena, kdyz jsem spatne vyhledaval. Presto. Kdyz napisu do vyhledavace napriklad "okna" (vymena oken v panelaku) objevi se mi SEO optimalizovane, nebo kdysi (bez kontroly pravidel napr seznamu) zadane odkazy na okna. Kdyz mam stesti a jsou to firmy, pak ale bez informace o firmach (co je mi platnej na prvnim miste vonasek a spol s lokalni pusobnosti na druhem konci republiky). Libilo by se mi, treba propojeni na extra databaze. V tomto pripade Estav.cz. Pak muzu chtit vypis od nejvetsich firem po nejmensi,zjistit reference. Myslim, ze by se vyhledavaci/katalogu tez vyplatilo pro top 4000 vyhledavani udelat specielni stranky. Ty by se daly generovat napriklad oz zpetne vazby od uzivatelu. Google toolbar cosi sbira. Treba pak muze katalog vedet, jak dlouho jsem byl na nejakem odkazu (nez jsem se vratil pro dalsi odkaz u stejneho klicoveho slova). Zabezpeceni zpetne vazby by mohlo byt take (tento site uz nechci nikdy videt, dnes nechci videt, pro toto klicove slovo nechci videt ...)

    Moznosti je spousta. Tak snad vas toto dlouhe povidani alespon malinko inspiruje.
    Filip
  • 13. 5. 2003 14:46

    EH (neregistrovaný)
    Něco podobného, co se objevilo v předchozím příspěvku, mě napadlo taky. Jedná se o to, že když něco hledám, hledám většinou stránky, které se týkají určité oblasti (např. stavebnictví) a zároveň obsahují nějakou slovní frázi (např. již zmíněná okna). Někdy pomáhá upřesnění dotazu, ale dosti často to nevede k uspokojivému výsledku.

    Proto mě napadlo, což takhle naroubovat do fulltextu vlastnosti katalogu? Mělo by to smysl?

    Prvním krokem by bylo sestavit závazný seznam kategorií (číselník) - uznávám, že je to úzké místo, ale budiž. Číslo kategorie(í) by jako jakousi meta informaci zadali autoři do svých stránek a tím řekli vyhledávači: "já jsem stránka o stavebnictví". Žádná registrace do katalogu, žádné formuláře, jen jedno číslo kategorie. Pokud by takovýto číselník používali velké fulltexty, jistě by se našlo mnoho webů, které by byly takto vybavené. Zároveň by se tím odfiltrovalo velké množství mrtvých stránek (resp. "mrtvých" webmasterů :-).

    Uživatel by pak kromě slovní fráze, kterou hledá, zvolil i jednu či více oblastí, kterých se jeho dotaz týká a tím výrazně zpřesnil výsledek vyhledávání.

    Nechci se tu více rozepisovat, pro zájemce více zde:
    http://hlava.net/blog_det.php?blogid=1052771571
  • 13. 5. 2003 15:31

    petr_p (neregistrovaný)
    Souhlasim. Fulltextovym vyhledavacum predhodim frazy a on hleda podle "vyskytu slov". Problem je, ze nevi kontext/kategorii a vrati stranky, ktere se zabyvaji necim jinym jen proto, ze obsahuji zadanou frazy. Proto by bylo dobre zavezt nejaky dalsi html tag, ktery by specifikoval kategorii. Proste k tagu <meta name="keywords"...> by pribyl <meta name="category" ...>. Zbyva jen prosadit nejaky ciselnik kategorii. Uzivatel by pak pri vyhledavani krome fraze zadal kategorii.
    PS: Proc kdyz pouziju v komentari uhlove zavorky a zvolim typ text, je lupa.cz stejne vymaze?
  • 13. 5. 2003 23:29

    Libor Nováček (neregistrovaný)
    Mohlo by se adaptovat a použít knihovnické MDT nebo Deweyho desetinné třídění nebo jiný existující mezinárodní systematický selekční jazyk, protože vytvořit nějaký nový a univerzální je utopie. Ona je ostatně i utopie, že by autoři stránek nějak hromadně stránky opatřovali selekčními údaji - pro laika to není úplně jednoduché. Co se týče metadat, ani Dublin Core se nějak výrazně neprosadilo, přitom by pomohlo částečně oddělit zrno od plev. Internet, to je jeden veliký chaos a jsme teprve na začátku. Chceme jednoduše vyhledávat, ale ono pořádně najít pertinentní informace dalo vždy nějakou námahu. Ani před sto lety v kamenných knihovnách to nešlo na lusknutí prstem. Pořád to hledání Koudelků jde zvládnout za pár minut z ložnice. Problém s herním Koudelkou nastane až v okamžiku, kdy dáte dotaz Koudelka jen tak - v ten okamzik se dozvite o hre. Kdybyste rovnou hledal Koudelku a zaroven pouzil i Magnum, tak se vam to nestane. Tedy nehledate uplne nejstastneji.
  • 13. 5. 2003 15:49

    Michal Kubeček (neregistrovaný)
    Obávám se, že by to dopadlo jako keywords. To je také výborná myšlenka, ale výsledek je tristní. Podíváte-li se na typickou stránku, uvidíte v keywords mraky frází, které sice nemají s obsahem stránky skoro nic společného, ale autor věděl, že se často vyhledávají, tak je tam vrazil. Takže pokud by nebyl výrazně omezen počet kategorií, autoři by stránky zařazovali do všech, na které si vzpomenou.
  • 14. 5. 2003 14:57

    Leo (neregistrovaný)
    Par poznamek a zkusenosti. Jednak si myslim, ze fulltext jako je Google katalog nenahradi. Prikladem muze byt treba hledani informaci, ktere maji geograficke vymezeni. Pokud hledam ubytovani treba na Vysocine, je mnohem uzitecnejsi dobry katalog, kde jsou ubytovaci kapacity v sekcich podle regionu (Atlas) spis nez podle abecedy (Seznam). Podobne je to treba s hledanim firem (a jinych subjektu) ktere maji sidlo (nebo pole pusobnosti) v dane lokalite. Tam se to nekdy dost tezko nahrazuje kombinaci klicovych slov.

    Dalsi problem, kdy ani rozsirene hledani v Googlu nefunguje tak jak by si clovek predstavoval - hledal jsem stranky o gelogii ostrova Korfu, a zadal "geology Corfu", narazil jsem ale na to, ze existuje jisty geolog jmenem Corfu, a nenasel jsem rozumny zpusob jak Googlu sdelit, ze chci aby vzal v potaz Corfu jako nazev ostrova, ne autora, ktery se objevuje v citacich.

    Nekdy je hledani v Google narocne na volbu klicovych slov. Hledal jsem obrazky pro deti, kresbicky zviratek a pohadkovych postav, neco pro inspiraci pro nove obaly vyrobku urcenych pro male deti. Pouzil jsem hledani obrazku na Googlu, a nejprve zadaval "cartoon animals" (pripadne primo napr. "cartoon dog"), pak zkousel misto cartoon "clipart" a "line art", ale porad to nebylo ono, potreboval jsem neco v detskem stylu, a klicova slova "children", "kids" vybrala jenom obrazky deti, ne obrazky pro ne. Nakonec na cele care vyhralo klicove slovo "coloring" (coloring books jsou omalovanky) - ale koho to napadne hned?

    Ve vetsine pripadu musi clovek ovladat mozne synonyma - pokud nefunguje ubytovani, musim zkusit penzion, hotel, privat, a to vcetne moznych tvaru (penzion vs. pension, treba). Vetsinou mi pri prvnim pokusu vypadne rada stranek, a na zaklade vysledku odhaduju lepsi klicova slova (neco jineho nez hledani ve vysledcich, co nabizi Google). To si ale clovek musi udelat sam, fulltexty tak inteligentni zase nejsou.

    Leo
  • 14. 5. 2003 15:43

    Libor Nováček (neregistrovaný)
    2/3 nepertinentních výsledů díky jménu geologa Corfu můžete eliminovat třeba přidáním -F. takže zmínka o tomto člověku redukuje počet výsledků na 400.
    Mě nikdy nevadilo, co nám neposkytují vyhledávače, vždy jsem se snažil pilovat spíš své rešeršní strategie. Jelikož se v názvech článku uvádí jen F., je trošku složitější se dopátrat, že jde o jméno Fernando. Možná, že kdybyste mu do Osla napsal, tak vám poradí nějaký dobrý geologický web nebo informační systém pro geology, nějaká databáze určitě bude :o) Nevím co přesně hledáte, ale vypadá to jako informace pro byznys (pokud nemáte jako zálibu geologii nebo jako předmět studia). Nemůžete čekat, že kvalitní informace pro byznys vám najde za pět minut Google. Pokud chcete nějakou databázi pro geologii, můžu se vám zkusit podívat. Je pak i šance, že některé z knihoven má přístup zdarma.
  • 16. 5. 2003 0:43

    Leo (neregistrovaný)
    Ja taky piluju svoje resersni strategie, a leckdy je cesta k informacim stejne zajimava a dobrodruzna jako informace samotne :-) a nejen na webu. To nejzajimavejsi nakonec clovek nenajde v idealnim svete dobre strukturovanych semantickych webu, ale zasunute kdesi v koutku v chaosu stranek realnych, i kdyz Google muze byt dobry startovaci bod, kdyz clovek neceka, ze mu to co hleda da na prvni strance. Nejdulezitejsi je, aby byly stranky vzajemne propojene odkazy co nejvic, pak uz se doklikate.

    Jinak zajem o geologii ostrova Korfu je zajmem amaterskym, zajima me totiz o tomhle ostrove prakticky vsechno. Leo
  • 14. 5. 2003 18:36

    Marek Prokop (neregistrovaný)
    Vím, že už se pomnohokráté opakuji, ale pokud hledáte ubytování na Vysočině, žádný katalog nepotřebujete. Stačí vám dobrý fulltextový vyhledavač (třeba Google) a takový provozovatel ubytování, který při vytváření své internetové prezentace postupoval profesionálně.

    Pokud se spokojíte s ubytováním, jehož provozovatel na kvalitu své internetové prezentace kašle, nehledejte ho na Webu.
  • 16. 5. 2003 0:46

    Leo (neregistrovaný)
    Trochu demagogie ne? :-) Moje zkusenost je proste jina, v realnem svete webu tak jak jsou neni Google samospasitelny, katalogy se mi proste osvedcily. A ubytovani si rozhodne nevybiram podle toho, jak ma majitel penzionu schopneho webmastera, Vy ano? Na webu najdu i ty, kteri na prezentace kaslou. Leo
  • 16. 5. 2003 14:05

    Marek Prokop (neregistrovaný)
    Proč demagogie? Jen můj názor :-)

    Ubytování a jiné služby si vybírám podle toho, zda mají na webu dostatek informací, zda je tam mají prezentovány přístupně, použitelně a přehledně, zda je patrné, že s nimi jde operativně komunikovat emailem (nesnáším telefony), apod. Pokud stránky splňují tato kritéria, velmi pravděpodobně se odkaz na ně objeví v Googlu na první stránce výsledků pro vhodně zvolený dotaz.

    V oborech s velmi malou nabídkou je situace samozřejmě jiná, ale v dostatečně konkurenčních oborech nevidím důvod, proč bych měl nakupovat od někoho, kdo zatím Internet dostatečně dobře nezvládl. Nevyplatilo by se mi to, protože by mne to stálo mnohem víc času a starostí.
  • 16. 5. 2003 15:13

    Leo (neregistrovaný)
    Od majitele ubytovaciho zarizeni nebo privatu ani necekam internetovou gramotnost, takze si podle ni nevybiram. Domluvit si ubytovani telefonem je mnohem rychlejsi a spolehlivejsi nez pouzivat email (a mobil je uplne idealni), zvlast kdyz si vzpomenete v patek odpoledne a vecer uz chcete bydlet :-) Mozna pouzivame jine typy ubytovani (ja vetsinou ty male bez stale recepce a liftboys a liftgirls).

    A nehledam na internetu zdaleka jen kvuli nakupovani (at uz zbozi nebo sluzeb).
  • 16. 5. 2003 15:34

    Marek Prokop (neregistrovaný)

    Já vám přeci nechci brát váš způsob hodnocení a objednávání služeb. Pokud vám vyhovuje, je všechno v pořádku. Jde jen o to, že mně vyhovuje něco jiného a vyhledávání na webu v tom hraje značnou roli. Před časem jsem se dokonce pokoušel Googlem hasit barák. Já vím, asi jsem cvok :-)

  • 17. 5. 2003 11:03

    Jiří Donát (neregistrovaný)
    Také souhlasím. Právě tímto způsobem se projevuje "zesilovací" moc vyhledávačů.
  • 12. 5. 2003 12:29

    Jiří Donát (neregistrovaný)
    Problémy v oblasti "interaktivního" obsahu jsou mimochodem zákonité a souvisejí s největší silou a zároveň i slabinou Google: rozlišování "hodnosti" stránek (Page Ranku) podle množství odkazů na danou stránku. Tento mechanismus sice funguje dobře, je ale zatížen zákonitým časovým zpožděním. Zcela proto selhává v případě zpráv: pokud je někde zemětřesení, těžko budeme čekat, až na tuto zprávu bude odkazovat dostatečné množství lidí ze svých stránek.

    Google si to uvědomuje a pokouší se to řešit pomocí své služby news.google.com; zde jsou zprávy řazeny primárně podle času od nejnovějších po nejstarší a k jejich uveřejnění postačí, že pocházejí z důvěryhodného zdroje. Slabinou tohoto mechanismu ale je, že někdo musí stanovit, kdo je a kdo není tímto "důvěryhodným" zdrojem - tato část je zřejmě prováděna ručně (přesný algoritmus nebyl zveřejněn). To představuje velký problém - důsledky viz za okamžik.

    Také v Google je navíc zapotřebí rozlišovat "důležitost" zpráv (analogie "hodnosti"), neboť jinak by nebylo zřejmé, které zprávy zařadit na automaticky generovanou titulní zprávu, kterou každá taková služba "musí" mít (zejména z důvodu návštěvnosti). Pokud bychom vycházeli pouze z časového údaje, dostali bychom službu typu www.newshub.com, tedy titulní stránku, která se neustále mění, a která tedy není pro čtenáře příliš zajímavá (přece se na ní nebude dívat stokrát denně - na to nemá čas nikdo). Předpokládám, že relevance zprávy je ve službě news.google.com definována počtem jejích výskytů v monitorovaných médiích. A zde jsou možná slabá místa:

    1) Jak zjistit, že daná zpráva ze dvou různých zdrojů je "stejná", tedy že pochází ze stejného zdroje?

    2) Kdo vybírá oněch privilegovaných 4500 zdrojů, které jsou relevantní? Právě zde je totiž zásadní problém - zatímco vyhledávání v "klasickém" Google pomocí Page Rank funguje vcelku dobře i pro český obsah (zřejmý důsledek toho, že stanovení Page Rank probíhá automaticky), vyhledávání ve zprávách nefunguje pro český obsah ani náhodou. Vyzkoušejte si sami... Odborníci Google neznají česká média. Ale v reálném světě to od nich ani chtít nemůžeme. To je tedy zásadní slabina, kterou by Google mít neměl.


    Nenapadá někoho, jak by se hodnocení informačních zdrojů (a tedy identifikace "privilegovaných" zdrojů) dalo automatizovat, a tím i objektivizovat? Výsledkem by mimo jiné bylo, že by news.google.com začal fungovat i pro neanglické stránky.