Názory k článku
Nové trendy ve vyhledávání
Pochvala
celé vláknoVyhledávače neexistovaly?
celé vláknoKromě toho mám pocit, že i když to pro nás historicky důležitější než Gagarin ve vesmíru, z tehdejšího pohledu o tak zásadní přelom nešlo. První globální webový prohledávač byl, myslím, Lycos. Lycos jako firma vznikl v 95, ale predtim nejaky rok nebo dva béžel na jakési univerzitě. Cern Httpd v.1 byl vypuštený v 91, než se trochu rozšiřil, trvalo to rok nebo dva. Takže bez globálního vyhledávání byl Internet tak možná 1 rok (a to ještě platil normální ne "internetový" čas ;-)
Re: Vyhledavace neexistovaly?
celé vláknoPred Lycosem byl myslim jeste WWWWorm, ale ted nejak nemuzu najit informaci o roku jeho spusteni. Samozrejme jsem mel na mysli globalni vyhledavani. Jinak myslim, ze vase tvrzeni s mym nijak v rozporu neni.
Neverte reklame
celé vláknoRe: Neverte Sustekovi (was: Neverte reklame)
celé vláknoPane Susteku, pokud se vam zda, ze pul dne na serazeni kousku indexu je strasne moc, pak vezte, ze index brokeru se muze sestavovat tydny. U velkych prohledavacu nejede na jednom pocitaci, ale na tisicich. Existuji lidi, kterym se rika matematici, a ti si dokazi s takovymi ulohami poradit. Napr. i s tim, ze osvezuji prubezne jen cast indexu jeho prestavbou adekvatne vybranymi, nejpodstatnejsimi daty.
Naprosto si protirecite v dalsim tvrzeni. Pokud podle vas existuje jen 5% stranek, na ktere vede vice nez jeden odkaz, pak by zpracovani Page Ranks bylo znacne ulehceno a nikde vubec zadny problem. Ono to tak ale neni. Googlovci pouzivaji dalsi metody vazeni stranek. To, ze je nikomu nevysvetluji, je jejich vec. Pouze neco malo nastinuji. To ale neznamena, ze je muzete klidne prohlasovat za lhare.
Kdyz chcete nekoho zpochybnovat a nemate pro to jasne dukazy, pak se nutne ocitate v pozici toho, jehoz ocernovani ma bumerangovy efekt. Technika prohledavani neni nejake ledabyle manazerynkovske politikareni - to zadny index nikdy nesestavi. Rozhoduje to, co Google aj. prohledavace nabizeji lidem.
Jinak receno - ukazte, ze to umite lip nez vsichni ostatni na svete. Takovi lide ale vetsinou byvaji skromnejsiho razeni a nenapadaji nikoho, kdo neco umi.
Re: Neverte Sustekovi (was: Neverte reklame)
celé vláknoPane Susteku, pokud se vam zda, ze pul dne na serazeni kousku indexu je strasne moc, pak vezte, ze index brokeru se muze sestavovat tydny. U velkych prohledavacu nejede na jednom pocitaci, ale na tisicich. Existuji lidi, kterym se rika matematici, a ti si dokazi s takovymi ulohami poradit. Napr. i s tim, ze osvezuji prubezne jen cast indexu jeho prestavbou adekvatne vybranymi, nejpodstatnejsimi daty.
Naprosto si protirecite v dalsim tvrzeni. Pokud podle vas existuje jen 5% stranek, na ktere vede vice nez jeden odkaz, pak by zpracovani Page Ranks bylo znacne ulehceno a nikde vubec zadny problem. Ono to tak ale neni. Googlovci pouzivaji dalsi metody vazeni stranek. To, ze je nikomu nevysvetluji, je jejich vec. Pouze neco malo nastinuji. To ale neznamena, ze je muzete klidne prohlasovat za lhare.
Kdyz chcete nekoho zpochybnovat a nemate pro to jasne dukazy, pak se nutne ocitate v pozici toho, jehoz ocernovani ma bumerangovy efekt. Technika prohledavani neni nejake ledabyle manazerynkovske politikareni - to zadny index nikdy nesestavi. Rozhoduje to, co Google aj. prohledavace nabizeji lidem.
Jinak receno - ukazte, ze to umite lip nez vsichni ostatni na svete. Takovi lide ale vetsinou byvaji skromnejsiho razeni a nenapadaji nikoho, kdo neco umi.
Re: Neverte Sustekovi (was: Neverte reklame)
celé vláknoPane Susteku, pokud se vam zda, ze pul dne na serazeni kousku indexu je strasne moc, pak vezte, ze index brokeru se muze sestavovat tydny. U velkych prohledavacu nejede na jednom pocitaci, ale na tisicich. Existuji lidi, kterym se rika matematici, a ti si dokazi s takovymi ulohami poradit. Napr. i s tim, ze osvezuji prubezne jen cast indexu jeho prestavbou adekvatne vybranymi, nejpodstatnejsimi daty.
Naprosto si protirecite v dalsim tvrzeni. Pokud podle vas existuje jen 5% stranek, na ktere vede vice nez jeden odkaz, pak by zpracovani Page Ranks bylo znacne ulehceno a nikde vubec zadny problem. Ono to tak ale neni. Googlovci pouzivaji dalsi metody vazeni stranek. To, ze je nikomu nevysvetluji, je jejich vec. Pouze neco malo nastinuji. To ale neznamena, ze je muzete klidne prohlasovat za lhare.
Kdyz chcete nekoho zpochybnovat a nemate pro to jasne dukazy, pak se nutne ocitate v pozici toho, jehoz ocernovani ma bumerangovy efekt. Technika prohledavani neni nejake ledabyle manazerynkovske politikareni - to zadny index nikdy nesestavi. Rozhoduje to, co Google aj. prohledavace nabizeji lidem.
Jinak receno - ukazte, ze to umite lip nez vsichni ostatni na svete. Takovi lide ale vetsinou byvaji skromnejsiho razeni a nenapadaji nikoho, kdo neco umi.
Re: Neverte Sustekovi (was: Neverte reklame)
celé vláknoChcete dukaz - zde je:
Tady (http://www.lupa.cz/nazory.phtml?c_id=1222&kk%5B11087%5D=on&show.x=26&show.y=14) se zavazal, ze se uz neucasti diskusi na Lupe, protoze ho obtezuje napadani ostatnich lidi.
Jak je videt podle predchoziho prispevku, byla to jen ucelova lez a hned kdyz se objevila moznost nekoho napadnout (a udelat tak presne to, co sam nesnasi), tak zapomel na vsechny svoje sliby (presne jako nasi politici, kere ma tak rad).
Skutecne mne hodne sklamal a ted uz nemuzu rict, jestli i jeho dalsi argumenty nejsou lzive, proste uz neni duveryhodny.
Re: Neverte Sustekovi (was: Neverte reklame)
celé vláknoK smíchu však už není Vaše odpověď panu Zajíčkovi. Již od dob starověkého Řecka je (všeobecně) známo, že přejít v diskuzi při předkládání argumentů od tématu k diskutérovi je sprosťárna.
Re: Neverte Sustekovi (was: Neverte reklame)
celé vláknoRe: Neverte Sustekovi (was: Neverte reklame)
celé vláknoNapsal sem to takhle neskutecne otevrene a drsne prave proto, ze on v presne stejnem duchu napadal sve oponenty napr. jste kadrovaci z 50.let, fasisti a podobne nesmyslne urazky a to bez jakyhkoliv dukazu pochopitelne. Ted ovsem on sam slap hodne vedle, kdyz nesplnil svuj vlastni slib.
Je mi to dvakrat lito, protoze sem mu veril, ze to mysli vazne a ze je to i krok k tomu, aby se zbavil sve zavislosti na virtualnim diskutovani (kere pochopitelne popira).
Jeho prispevek tady nebudu hodnotit, ale chci jen aby i ostatni vedeli s kym mluvi.
Jeste jednou se omlouvam za offtopic, ulitlo mi to, protoze sem byl skutecne rozhorcen (necekal sem ze porusi svoje slovo tak brzo).
Re: Neverte Sustekovi (was: Neverte reklame)
celé vláknoVmiP.
Re: Neverte Sustekovi (was: Neverte reklame)
celé vláknoRe: Neverte Sustekovi (was: Neverte reklame)
celé vláknoTaky mam zajem
celé vláknoRe: Taky mam zajem
celé vláknoRe: Neverte Sustekovi (was: Neverte reklame)
celé vláknoRe: Neverte reklame
celé vláknoRe: Neverte reklame
celé vláknoRe: Neverte reklame
celé vláknoRe: Neverte reklame
celé vláknoRe: Neverte reklame
celé vláknoRe: Neverte reklame
celé vlákno>nepouziva ani ten tolik opevovany Google
Google PageRank pouziva - a napr. ve svem katalogu ho i graficky zobrazuje, takze se muzete podivat, jaky pagerank vybrane stranky maji.
>mate-li indexovat jednu miliardu stranek, jste radi, kdyz se vam takove kvantum dat vubec podari nejak pouzitelne naskladat do pocitace
Autori Googleu o PageRanku s oblibou prohlasuji, ze je to "vyreseni milardy rovnic s miliardou neznamych". To je pravda - je to slozite. Na druhou stranu to neni nic, co by nezvladl pocitac kterehokoliv z ctenaru Lupy pres noc.
>Megatext Indexuje 3 miliony stranek a temer 1.5 miliardy slov. Pouhe setrideni techto slov podle abecedy trva na bezne vybavenem pocitaci pul dne
Z tech 1.5 miliard slov bude ale pouze nekolik malo milionu unikatnich. Ty ma smysl tridit a to zvladne dobry algoritmus za chvilku. Navic neni duvod, proc by fulltextovy hledac potreboval radit slova podle abecedy.
>Na 95% internetovych stranek vede jen jeden odkaz
To ano, to nijak PageRank nevyvraci. Proste ona stranka dostane cast PageRanku materske stranky - tedy i jednotlive, malo zalinkovane stranky, budou pagerankem odliseny - podle toho, v jake strukture se nachazeji.
Re: Neverte reklame
celé vláknoTo nepopírám, zobrazuje tam nějaké ohodnocení stránek, které se snaží počítat nějakou smysluplnou metodou. Rozhodně ale ne tak, že by řešil soustavu jedné miliardy rovnic o miliardě neznámých, jak tvrdí. (Tedy rovnic na sobě vzájemně nezávislých - snad si rozumíme).
> Na druhou stranu to neni nic, co by nezvladl pocitac kterehokoliv z ctenaru Lupy pres noc.
Pokud má některý čtenář Lupy počítač, který je schopen pojmout matici o 1E18 koeficientech, ať se ozve.
> Z tech 1.5 miliard slov bude ale pouze nekolik malo milionu unikatnich
Ano, je jich asi 14 milionů, ale jak je chcete najít aniž byste je setřídil? Budete je postupně po jednom vyhledávat v tabulce a nové vkládat? To bude trvat 10x déle. A pokud se vám ta tabulka náhodou nevejde celá do fyzické paměti, bude to trvat 100x déle.
> proc by fulltextovy hledac potreboval radit slova podle abecedy.
Třeba proto, aby z nich sestavil vyhledávací index. Nebo znáte nějaký efektivní algoritmus pro vyhledávání v neseřazených datech?
> materske stranky - tedy i jednotlive, malo zalinkovane stranky, budou pagerankem odliseny
Relevantnost takto získaných hodnot by podle mého názoru byla mizivá.
Celkově k tomu PageRanku: Zdá se mi, že hlavní metoda, kterou Google používá je to, že zadaný výraz nejprve hledá v katalozích stránek, které má k dispozici (interně načtené Yahoo, Seznam...). Pokud jej tam najde v titulku stránky, uvede tuto stránku na prvním místě. Supluje tak nedokonalé schopnosti laických uživatelů, kteří nevědí, že pro hledání frekventovaných pojmů jako jsou např. názvy firem je vhodnější místo fulltextu použít nějaký katalogový seznam.
Re: Neverte reklame
celé vláknoAno, je jich asi 14 milionů, ale jak je chcete najít aniž byste je setřídil? Budete je postupně po jednom vyhledávat v tabulce a nové vkládat? To bude trvat 10x déle. A pokud se vám ta tabulka náhodou nevejde celá do fyzické paměti, bude to trvat 100x déle.
Pokud projdu 1000 stranek, a uplne na kazdy budou slova jako "A", "ALE", "NEBO" (a ostatne vubec vsechny spojky, predlozky, a osobne bych asi automaticky vyrazoval vsechny jednoznakovy slova), tak uz mam pomerne slusnou pravdepodobnost, ze se ty slova budou vyskytovat i vsude jinde a muzu je vyhazet. Takze prvnich X tisic zaindexovani treba bude pomalejsich, ale o to rychlejsi bude zbytek.
> proc by fulltextovy hledac potreboval radit slova podle abecedy.
Třeba proto, aby z nich sestavil vyhledávací index. Nebo znáte nějaký efektivní algoritmus pro vyhledávání v neseřazených datech?
Slysel jste napriklad nekdy o tzv. hashovani?
Relevantnost takto získaných hodnot by podle mého názoru byla mizivá.
Az bude vas prohledavac vracet vysledky relevantnejsi nez Google, tak si o tom muzeme popovidat. Momentalne ovsem jsme v situaci, kdy vy kritizujete Google za neco, co sam udelat nedokazete, ale Google ano.
Re: Neverte reklame
celé vláknoJistě, nepodceňujte mě.
Re: Neverte reklame
celé vláknoRe: Neverte reklame
celé vláknoRe: Neverte reklame
celé vláknodocela me pobavila diskuse ohledne Megatextu. Pusobi to me me dojmem, ze autor pred tim, nez zacal psat vlastni program sahl po prvnim algoritmu, ktery ho napadl, misto toho, aby si protudoval nejakou teorii, ktera by praci indexovace znacne zjednodusila. Tezko by pak psal tvrzeni typu "Znate lepsi zpusob, nez vse setridit". Hashovani je rychlejsi jak v sestavovani indexu, tak v samotnem vyhledavani.
So se tyce rovnic o miliarde neznamych, tak je znamo, ze neni rovnice, jako rovnice, ale ze existuji specialni typy rovnic, ktere je mozne resit pomerne jednoduseji.
Doporucuji nastudovat alespon zaklady algebry a teoreticke informatiky.
Re: Neverte reklame
celé vláknoAd soustava rovnic:
Jistě, matice soustavy, kterou Google řeší, bude zcela jistě velmi řídká, takže Google ve skutečnosti neřeší miliardu rovnic, ale pouze milion, možná 10 milionů. Ale to je přesně to, co říkám: vypouští tiskové zprávy s miliardovými ciframi a je rád, že to lidi baští.
Ad hashovaní:
Jistě, pro náš problém s hledáním unikátní podmnožiny řetězců by se dalo s výhodou použít. Ovšem pouze za jednoho předpokladu: a totiž že dopředu víme, že výsledná podmnožina bude mnohem menší než zdrojová množina. Budeme totiž muset řešit hashovací kolize a to buď:
a) tím, že výsledek ještě jednou zkontrolujeme algoritmem, který jsem původně popsal já
b) nebo tím, že použijeme hashovací tabulku s literálními hodnotami
Případ a) by pro velkou množinu znamenal, že hashování bylo zbytečný mezikrok, případ b) by pro velkou množinu znamenal, že se tabulka nevejde do fyzické paměti a algoritmus bude nepoužitelně pomalý.
Jinak samozřejmě přeji hodně úspěchů do dalšího studia ...a nic ve zlém :-). Diskutujeme tu všichni i proto, abychom se pobavili. Třeba se jednou sejdeme u nějakého softwarového projektu.
Re: Neverte reklame
celé vláknoProc ta ironie? Pokud mam bejt uprimnej, tak jestli mam o nekom z diskutujicich dojem, ze nevi, o cem mluvi, tak jste to vy.
Jistě, matice soustavy, kterou Google řeší, bude zcela jistě velmi řídká, takže Google ve skutečnosti neřeší miliardu rovnic, ale pouze milion, možná 10 milionů. Ale to je přesně to, co říkám: vypouští tiskové zprávy s miliardovými ciframi a je rád, že to lidi baští.
1) Jsem presvedcenej o tom, ze obliba Google plyne spis z uzasny kvality vysledku, ktery vraci, nez z poblouzneni lidi "tiskovyma zpravama s miliardovyma ciframa".
2) Pokud uz chcete jit do detailu a ohanet se zaklady matematiky: Chcete mi tvrdit, ze kdyz mam miliardu rovnic o miliarde neznamych, tak vlastne zalezi na tom, jak ridce nebo huste jsou usporadany, aby se dalo o 1Gx1G mluvit? Podle me zalezi na poctu promennych, ne na tom, kolik operaci je pro vyreseni soustavy provyst.
b) nebo tím, že použijeme hashovací tabulku s literálními hodnotami. [...] případ b) by pro velkou množinu znamenal, že se tabulka nevejde do fyzické paměti a algoritmus bude nepoužitelně pomalý.
Jenze tim hashovanim by napred slo roztridit, kterej pocitac ma to dany slovo zpracovavat, a kazdej pocitac by pak mel v pameti jen svou cast dat. Takze pokud bych uvazoval treba jen 1000 pocitacu s jen 32 MB pameti, uz by mohly zpracovavat 32 GB dat v hashovacich tabulkach (samozrejme bude potreba nejaka ta pamet na vykonnej kod, ale to je celkem zanedbatelna polozka). Nepochybuju, ze tehc pocitacu je mnohem vic, nez 1000, ze maj mnohem vic pameti nez 32 MB, a ze si v ty pameti nedrzej uplne vsehcny slova, ale jenom ty nejcastejsi (ze tu pamet pouzivaj spis jako diskovou cache nez na skladovani obrovskych tabulek). I kdyby se mela indexovat miliarda ruznych slov, tech casto pouzivanych muze bejt maximalne par milionu (spis bych rekl par desitek az set tisic, ale to je jen muj odhad - a ja se lingvistikou nezabyvam), a to uz se do pameti pocitacu klidne vejde. Tech 100 slov denne, co vybocujou z normalu, se klidne muze nacist z disku...
Re: Neverte reklame - algoritmus k indexovani
celé vláknoMejme pole o rozumne velikosi (radove 10ky tisic). Mejme hashovaci funkci, ktera pro libovolny retezec vypocita hodnotu, ktera je v intervalu 0..velikost pole. Klic funkce nemusi byt pro vsechny retezce jedinecny, ale funkce by mela data rozume rozvrstvit po celem intervalu (asi nejvetsi problem - najit vhodnou hash. fci). V kazdem prvku pole je odkaz na nejakou datovou strukturu, kam se ukladaji slova s odkazy. Pro nas pripad je jedno, zda je to dalsi hash. tabulka, seznam, nebo nejaka databaze.
No a samotne vlozeni vypada takto:
1. vypocitame hodnotu hash. fce pro retezec
2. zamkne se dat. struktura, ve ktere je ulozen seznam slov pro tuto hodnotu funkce
3. prida se slovo a odkaz do dat. struktury
4. odemknuti
Zindexovani textu je timto algoritmem velmi rychle, pokud to spustite s vice vlakny, tak dochazi sice ke kolizim, ale neni jich prilis (do 1%). Vyhledavani je take velmi rychle - spocita se hodnota has. fce hledaneho retezce a pak uz se jen v pomerne malem seznamu nalezne konkterni hledane slovo (samozrejme lze zase vyuzit has. fce). Nevyhoda - problem hledani podobnych slov.
Celkem by me zajimalo, jaky algoritmus pouziva autor megatextu (pripadne jaky byste doporucili ostatni), opravdu me neni jasne (bez nejake ironie), jakou vyhodu ma trideni vsech slov, pripadne prohledavani seznamu setridenych slov oproti hashovani.
S pozdravem,
Jindrich Sarson
Re: Neverte reklame - algoritmus k indexovani
celé vláknoRe: Neverte reklame - algoritmus k indexovani
celé vláknono asi si uplne nerozumime. Ja jsem netvrdil, ze vsechna data budou v pameti. V pameti je pouze tabulka s odkazy pro kazdou hodnotu fce - ktera ma konstantni velikost, rekneme treba 10 MB. Odkazy pak jsou napr. soubory. Po castech jde samozrejme tridit take, sloucit 2 hash tabulky neni zadny problem. Algoritmus neni samozrejme tak naivni, ze by pri pridani noveho slova do prislusneho seznamu, ktery je urcen hash. fci zvetsoval vzdy - soubor se vzdy zvetsi o urcity nsobek puvodni hodnoty (podobne, jako se to dela u dynamickych poli) - takze nedochazi k prilisne fragmentaci.
Chtel bych se zeptat, jak mate vyresenou situaci, kdy se objevi nova stranka. To sestavujete cely velky index znovu? Pridani noveho slova do hash tabulky je zalezitost okamziku.
Co se tyce vyhledavani, tak pri pouziti binarniho trideni se samozrejme skace po disku vice, to je snad jasne. Pri pouziti hash se skoci jednou - na misto, kam se odkazuje has funkce a zde jiz pak jsou samotna data. Pri binarnim puleni to musi pekne trhat hlavicky (zvlaste u velkeho souboru).
Dobrou noc,
Jindrich Sarson
Re: Neverte reklame
celé vlákno> To nepopírám, zobrazuje tam nějaké ohodnocení.
neni to 'nejake ohodnoceni' ziskane 'nejakou smysluplnou metodou'. Je to 'dobre ohodnoceni' ziskane 'dobrou metodou'.
> počítač, který je schopen pojmout matici o 1E18 koeficientech
Neni zcela jasne o ktere z matic hovorite. Mate na mysli nejaky konkretni algoritmus ? Z jakeho duvodu se domnivate, ze se vsechny analyzy musi provadet 'najednou' ?
> znate efektivní algoritmus pro vyhledávání v neseřazených datech?
Kdyby vsechny algoritmy vyhledavani vyzadovaly data pripravena pekne podle abecedy, obavam se, ze by slo skutecne o 'neresitelny problem' (ve smysluplnem case) - k tomuto zaveru vsak pravdepodobne smerujete. Nebo je motivace Vasi polemiky jina?
Pochopitelne si jednotlive algoritmy ruznymi metodami 'pomahaji'; v dusledku se nejedna o nic jineho nez o obycejnou optimalizaci naroku. Jak uvadite v jinem prispevku, o hashovani jste uz slysel - to je dobry priklad.
Pojmy, ktere jste (vyse) zminil: 'pamet', 'vypocetni sila', 'nejake algoritmy' (, ...) ve skutecnosti NEJSOU ARGUMENTY VYLUCUJICI EXISTENCI INTELIGENTNIHO (chapejte funkcniho) VYHLEDAVANI, jak vyplyva z Vaseho nazoru - JSOU NEZBYTNYM PREDMETEM OPTIMALIZACE TAKOVEHO VYHLEDAVANI. Tedy napr. funkcnost/kvalitu Google nesnizuji ale naopak pozvedavaji. Pro dalsi diskusi povazuji za nezbytne si tento rozdil v chapani ujasnit, Vas prvni prispevek dava pak zcela jiny smysl.
Re: Neverte reklame
celé vláknoRe: Neverte reklame
celé vláknoToto je prvni odstavec ze stranky http://www.google.com/technology/index.html.
Takze argument, ze na vasem PC to trva dlouho neobstoji. Na tisicech PC to asi bude o neco rychlejsi.
Re: Neverte reklame
celé vláknoŽádný originální český vyhledávač tuto technologii zřejmě nevyužívá, ale např. redbox.cz používá vyhledávač Google jako background - mají to licencované. Teď to tam ale nikde nemůžu najít :-)
Re: Neverte reklame
celé vláknoO názor nahoře to zaznělo - využívají toho, že podstatně levnější je mít 4 bazarové počítače v síti než 1 superstroj. Uvědomte si, že stačí mít nějaká Pentia, klidně bez monitoru, klávesnice, myši, jen počítač... to se dneska dává skoro za odvoz. No a pak to propojit po síti a nechat pracovat. Podle mě je to super myšlenka.
Upresneni
celé vláknoMetod trideni je vskutku mnoho, nekdo jejich studium povazuje za jednu ze zakladnich oblasti algoritmizace. Ujistuji Vas, ze Empyreum Service Develeopment, ale zcela jiste ani Google nevyuzivaji ke trideni ani jinym analyzam Vami citovany "bezne vybaveny pocitac". Nase systemy se od beznych lisi predevsim softwareovym vybavenim (99% vlastni produkty, zasada nepouzivani produktu spolecnosti Microsoft, atp.).
Domnivam se, ze byste mel vyuzit moznosti konzultace v oblasti technologie FullRank nasi spolecnosti. V pripade zajmu kontaktujte, prosim, nase obchodni oddeleni na adrese sales@empyreum.cz.
Yahoo
celé vláknopouze malicka chybicka
celé vláknoPodotykam - radeji takoveto napul prevzate clanky nez blaboly vycucane z prstu.
Re: pouze malicka chybicka
celé vláknoRe: pouze malicka chybicka
celé vláknoSvedsky neumim, ale kdyz uvedete vas zdroj, rad se na nej mrknu. O hokeji vsak tyto clanky nebudou, i ten Google byl spis jako priklad, me jde predevsim o algoritmy, myslenky a technologie.
Co to je znamost stranky...
celé vláknoRe: Co to je znamost stranky...
celé vláknoAle nebojte, v pristim dilu se k citacni analyze jeste vratime, dokonce uvedu jeste lepsi algoritmus.
Re: Co to je znamost stranky...
celé vláknoNicmene hlavni trend vyhledavacu vidim v presnosti - na Intenetu se da najit vse a to ve spouste zdroju. Presnost tedy jako obrana proti informacnimu zahlceni velmi kriticka. Bohuzel soucasne vyhledavace se orientuji spise na uplnost :-( .
Takze doporucuji se zamerit na vyhledavaci stroje s automatickym profilovanim uzivatelu - ty mohou zjistit, ze pod pojmem 'sit' minim ethernet a ne neco na chytani ryb ;-).
No ale abych jen nepindal - www.autonomy.com - _velmi_ fikany kontextove orientovany vyhledavaci engine s profilovanim uzivatelu...
Re: Co to je znamost stranky...
celé vláknoRe: Co to je znamost stranky...
celé vláknoV ten moment by mi byl mily prehledny "lidsky" popis instalace vcetne zakladnich konfiguraci - neco jako reportaz z instalace. Google ji jednoduchym dotazem nedoda (mozna nekde vzadu). S pouzitim AND OR NOT atd. jsem se propracoval na takovou reportaz nejakeho Japonce. A vsechno bylo hned jasne. To se tyka hledani informaci z jakehokoli oboru ci kategorie lidskych cinnosti.
Page Rank je dobry pro stranky, ktere si vyslouzily zajem odkazy odjinud. Ale chudinky stranecky, ktere "nikdo nema rad" a jsou velmi dobre, Page Rank nevytahne ze tmy. Page Rank bych (i kdyz to neni presne ono) prirovnal ke kamenikum, kteri prezentuji malou cast hudby jejim mlacenim do hlav lidi vsemi kanaly. Lidi se tak odkazuji na jejich cedecka. Jenze na svete jsou mnohem vetsi kvanta perfektni hudby, kterou drtiva vetsina lidi nezna. (Skoro bych Googlu navrhl, aby umoznil zadani "Page Rank = 0" pro vytazeni "nepopularnich" stranek:)
Na Googlu je skvela jedna vec, kterou nikdo nezminil - slucovani stranek ze stejneho zdroje, takze je vypis prehlednejsi (nemusi se poskakovat po spouste vypisu, resp. zadavat vylucovaci NOT). I ono "More pages from..." je parada (stejne tak "Similar Pages" a "Cached").
Krome toho je Google dobry v tom, ze vytahuje i texty z databazi (neignoruje "?" v URL), coz zdaleka vsichni necini, a pokud to cini, ne v takove mire. Well...that's all.
Jiny nazev ?
celé vláknoRe: Jiny nazev ?
celé vláknoPokud mate nejake zajimave informace o vyhledavani ve videodatech, velmi by me zajimaly, ja sam nevim o zadnem projektu, ktery by tohoto byl schpny (nemyslim soucasne multimedia searchery, ty hledani pouze v textovych nazvech)
PageRank
celé vláknoTo, ze je pocitani PageRanku "miliarda rovnic o miliarde neznamych" rozhodne neznamena, ze by se mela resit matici 1E18 prvku, jak navrhuje pan Sustek (a z toho pak spravne vyvozuje, ze by to bylo nemozne). Je to stejne hloupy napad jako radit slova ze stranek podle abecedy (= neoptimalni algoritmus)
Resi se to iterativnim opakovani rovnice (vzpominate na clanek? je tam zjednodusena rekurzivni definice pageranku). Ta po cca 20 iteracich (jedna iterace ma slozitost umernou poctu linku, vsechny operace jsou trivialni) aproximuje vysledky s pozadovanou presnosti.
Na toto staci jediny bezny pocitac (lepe kdyz ma vic pameti) a par minut v pripade indexu ceskeho, nekolik hodin az desitek v pripade celosvetoveho.