Názory k článku
Co opravdu očekáváme od vyhledávačů?
Semanticke znacky
celé vláknoSorry za lamersky dotaz.
Re: Semanticke znacky
celé vláknoRe: Semanticke znacky
celé vláknoRe: Semanticke znacky
celé vlákno<i>...</i> uzavřete do <q>...</q>. Takže místo tohle zobraz kurzívou řeknete tohle je citát.
predstava ...
celé vláknojsem jen jeden z mnoha lidi co vyhledavani na webu cas od casu potrebuji a proto se me naroky meni pripad od pripadu.
Kdyz chci vyhledavat v ceskych webech, je pro me dulezite, aby vyhledavac umel sklonovat, nebot kolikrat mnou hledana stranka obsahuje slovo nejakym zpusobem vysklonovane, musi si take umet poradit s diakritikou (zkuste zadat googlu 'akvarijni rybicky' a 'akvarijní rybičky' a pak totez v jyxu). Me pro vyhledavani na ceskem webu jyxo vyhovuje snad nejvic ze vseho co jsem zatim mel moznost otestovat.
Vyhovuje mi i "dalsich XXX odkazu odtud", coz dost vyhledavacu umoznuje, nektere umoznuji i nahled stranky - to je taky fajn, aspon se netahaji obrazky, ale leckdy by mi stacil vetsi vysek nez jen jedna ci dve radky ve vysledku hledani, abych se zorientoval jestli me to zajima nebo ne.
Nekdy zase clovek hleda obrazek a zde se mi treba libi pristup googlu, ze zobrazuje rovnou nahledy. Nevim sice jestli ty obrazky vyhledava jen podle nazvu, altu ci i neceho jineho, ale povetsinou jsem nasel co jsem hledal.
Jindy clovek potrebuje najit diskusi na nejake tema a zde je dost problem, ale to nebude ani tak problem vyhledavacu, jako spis serveru s diskusemi, ze prispevku je tam tolik, ze uz se to prakticky neda dohledat ci uz zmizeli - zkratka je to bida.
Vyhledavani souboru ci utilitek moc nepouzivam, ale dovedu si predstavit ze pouzit k tomu bezny vyhledavac by asi praci neusnadnilo. I tento druh vyhledavani ma sva specifika a jeho realizace by rade lidi mohla pomoci.
Obdobne je to z vyhledavanim hudby, melodii, navodu ci manualu k vyrobku, cenikach apod.
Zpresnovat by se dalo dost dlouho.
Katalogizace odkazu (ala seznam) ma take sve vyhody, ale velkou nevyhodu spatruji v tom, ze rada odkazu se v nich nikdy neobjevi a jinak nez fulltextem se k nim neda dostat - takze ja katalogizacni vyhledavani pouzivam jen v pripade, ze selze fulltext - a i tak mi ve vetsine pripadu nepomuze (leda by ve fulltextu bylo obrovske mnozstvi odkazu, ktere nejde zpresnit a nechce se mi to prohledavat odkaz po odkazu)
/ Lukas Suchanek
Zánik katalogů?
celé vláknoMyslíte si, že vývoj na internetu spěje k zániku katalogů?
Re: Zánik katalogů?
celé vláknotakhle pesimisticky bych to nevidel. Katalogy mohou existovat v mnoha ruznych podobach a zvlaste ty, co si kladou za cil byt specializovane na urcitou omezenou oblast mohou mit slusnou budoucnost - konec koncu kde hledat "kompletni seznam neceho", nez ve specializovanem "katalogu"?
Na prikladu seznamu lze ukazat, ze katalogizacni hledani je pro radu lidi porad jediny mozny zdroj odkazu. Procento internetovych laiku a zacatecniku vyhledavajicich pouze katalogove je znacne, dokud se na kurzech pocitacovych gramotnosti, zakladu internetu, na skolach s indosem bude vyucovat vyhledavani pres Seznam (Atlas, Centrum, ...) porad to bude mit vyznam.
Zjednodusil jsem to jen na CR, protoze poznatky o tom jak je to ve svete nemam. Nepredpokladam, ze by se tam zacinalo hledat rovnou ve fulltextech, konec koncu prave hledani v katalogu je lidem zvyklim pouzivat Zlate Stranky tak nejak blizsi. Nevim jak moc je Google (ci jine fulltextove vyhledavace) marketingove agresivni, ale vim, ze Seznam si v tomto ohledu nevede nejhure - a fakt, ze defaultni vysledky jsou z katalogu a fulltext je az dalsi v nabidce take o necem svedci - konec koncu ze zobrazovani zvyhodnovanych odkazu jsou mimo jine take zivi.
Ale fakt, ze katalogy nejsou schopny autokatalogizace (tj. ze by si podobne jako fulltext tahaly stranky z internetu a sami si je tridily do svych skatulek) je chte nechte stavi do jine roviny.
Kdyz uz je ale rec o budoucnosti vyhledavani - objevily se zpravy o semanticke analyze obsahu stranek a pripadne i semanticke analyze vyhledavaciho dotazu. Mozna, ze tudy driv nebo pozdeji povede cesta, ale jsem spise skeptik. Mozna ze to bude fungovat nejdrive pro anglictinu, coby jeden z jednodussich (a nejrozsirenejsich) jazyku, ale pro cestinu se toho v dohledne dobe nedockame.
/ Lukas Suchanek
Autokatalogizace (automatické vytváření katalogů)
celé vláknoRe: Zánik katalogů?
celé vláknoJa osobne hledam fulltextem vsechno, co shanim :)
Re: pri hledani googlem se AFAIK nejprve vypisi veci z katalogu
celé vláknoRe: pri hledani googlem se AFAIK nejprve vypisi veci z katalogu
celé vláknoRe: Zánik katalogů?
celé vláknoTake bych navrhoval ustoupit z tech managerskych formulaci, kterymi je text doslova prosycen. Uplne mi tim unikl smysl nekterych odstavcu.
Kdyz uz by to melo byt hi-tech, doporucoval bych neco o mobilnich agentech. Google je stara technologie a takhle hledac za par mesicu vypadat nebude.
Jde-li naopak o katalogy, tak jejich zanik je spojen s lenosti tvurcu a neporadkem a nelogicnosti, kterou v tom maji. Projdu-li si katalogy 3 velkych ceskych vyhledavacu, tak je to tragedie. Vemte si treba Seznam - plagiat Yahoo jak vysity, naprosta impotence vlastni myslenky. Podobnou lenost myslet projevuji pri sprave katalogu, a pak to logicky umira.
Re: Zánik katalogů?
celé vláknoXML je relativně složitou rodinou standardů, která předpokládá, že ji někdo dodefinuje a pak ji bude masivně, dlouhodobě a konzistentně používat. K tomu, aby se tak skutečně stalo, musí ale mít uživatelé dobrý důvod a motivaci. A ta mi v případě XML chybí. Aspoň zatím.
Re: Zánik katalogů?
celé vláknoS "obycejnymi" lidmi je to pravda, ale otocte to na pozitivum. Pak muzete vytvorit agenta s jednoduchou neuronovou siti a par heuristikami, co dokazi danou informaci hledat jako "jeho pan" (zde pozor na tu 1-1 vazbu na uzivatele), vytvaret JEHO pageranky (nikoliv ty globalni googlovske) a simulovat JEHO zpusob hledani a mackani odkazu. Potom staci aby tahle masinerie bezela non-stop, a kdyz "pan" neco hleda, aby parametry predala centralnim algoritmum. Pak se daji tyhle parametry clustovat (lidi jsou vesmes stejni), cimz vytvorite katalogy/clustery "lidi" a.k.a. jejich profilu. Vyhody to ma dve - marketing ve stylu big bro, a pak pro moznost cachovat vypocty na core uzlu.
Razem jste v jinem svete. Dejte mi solidni konektivitu, unix masinu na pateri, stravenky, a do Vanoc to jede... :-)
Re: Zánik katalogů?
celé vláknoTak poslete mail a muzete to mit :)
Re: Zánik katalogů?
celé vláknoRe: Zánik katalogů?
celé vláknoOT
celé vláknoCo současné vyhledávače neumějí najít
celé vláknoJinak jsem pesimista - vyhledávače především trápí, jak vylepšit hledání pro "internetově hloupého uživatele". Výsledkem takových vylepšení bude, že "hloupý uživatel" dokáže najít to co dnes já (jo, považuju se za "internetově chytrého uživatele") a já o trošku víc a snad pohodlněji.
Od "hodnosti" stránek k "hodnosti" zdroje?
celé vláknoGoogle si to uvědomuje a pokouší se to řešit pomocí své služby news.google.com; zde jsou zprávy řazeny primárně podle času od nejnovějších po nejstarší a k jejich uveřejnění postačí, že pocházejí z důvěryhodného zdroje. Slabinou tohoto mechanismu ale je, že někdo musí stanovit, kdo je a kdo není tímto "důvěryhodným" zdrojem - tato část je zřejmě prováděna ručně (přesný algoritmus nebyl zveřejněn). To představuje velký problém - důsledky viz za okamžik.
Také v Google je navíc zapotřebí rozlišovat "důležitost" zpráv (analogie "hodnosti"), neboť jinak by nebylo zřejmé, které zprávy zařadit na automaticky generovanou titulní zprávu, kterou každá taková služba "musí" mít (zejména z důvodu návštěvnosti). Pokud bychom vycházeli pouze z časového údaje, dostali bychom službu typu www.newshub.com, tedy titulní stránku, která se neustále mění, a která tedy není pro čtenáře příliš zajímavá (přece se na ní nebude dívat stokrát denně - na to nemá čas nikdo). Předpokládám, že relevance zprávy je ve službě news.google.com definována počtem jejích výskytů v monitorovaných médiích. A zde jsou možná slabá místa:
1) Jak zjistit, že daná zpráva ze dvou různých zdrojů je "stejná", tedy že pochází ze stejného zdroje?
2) Kdo vybírá oněch privilegovaných 4500 zdrojů, které jsou relevantní? Právě zde je totiž zásadní problém - zatímco vyhledávání v "klasickém" Google pomocí Page Rank funguje vcelku dobře i pro český obsah (zřejmý důsledek toho, že stanovení Page Rank probíhá automaticky), vyhledávání ve zprávách nefunguje pro český obsah ani náhodou. Vyzkoušejte si sami... Odborníci Google neznají česká média. Ale v reálném světě to od nich ani chtít nemůžeme. To je tedy zásadní slabina, kterou by Google mít neměl.
Nenapadá někoho, jak by se hodnocení informačních zdrojů (a tedy identifikace "privilegovaných" zdrojů) dalo automatizovat, a tím i objektivizovat? Výsledkem by mimo jiné bylo, že by news.google.com začal fungovat i pro neanglické stránky.
Šlo by to ještě jednodušeji
celé vláknoTo ale neřeší náš problém, spíše ho ještě zvětšuje: výběr důležitých zpráv závisí o to více na výběru důležitých a "důležitějších" médií. A idnes.cz či ihned.cz je v takovém případě ze hry...
Re: Šlo by to ještě jednodušeji
celé vláknoKrom toho google crawluje podle pageranku a refresh priority (ta je dynamicky urcena frekvenci a rozsahem update dane stranky). Nevidim problem. Problem je centristicka architektura googlu. Ale jak jsem napsal jinde, google zacina byt brontosaurus, co se prezil.
Ted jde jen o to, jestli Microsoft napise ten svuj super stroj driv jak nekdo druhy. Podle toho co vim, verim v to druhe.
Re: Šlo by to ještě jednodušeji
celé vláknoRe: Šlo by to ještě jednodušeji
celé vláknoMimo jine tim vyriznou uzivatele, kteri hledaji jen zpravy. To stroj pochopitelne nepozna, kdyz mu nekdo napise "vulcan", co dotycny chce. Muze chtit zpravy z reuters (news oblast), seznam vulkanu (web stranky - veda), nebo komercni nabidku jedne firmy (web stranky - komerce).
Oddelenim news se to pro uzivatele zprehledni.
Je z toho videt, ze puvodni obecne algoritmy google nejsou idealni, protoze pro realne pouziti je potreba parametrizovat (news/web/komerce/maillist/...).
Je ale lepsi otazka - jestli reseni "news" nelze udelat pomoci clustrovaci techniky co pred 10ti lety delal Cutting a spol.
Re: Šlo by to ještě jednodušeji
celé vláknoJá bych tedy "zprávy" definoval jako službu uživateli, který již daný subjekt zná, který však o něm potřebuje nejnovější informace. Vidíte to jinak?
PS: byl bych rád, kdybyste mohl uvést nějaké odkazy na Cuttinga. Na Google jsem neuspěl, protože "cutting edge technology" je příliš populární buzzword, takže nějaký pán stejného jména nemá šanci...
Re: Šlo by to ještě jednodušeji
celé vláknoNews google - stroj uz tim kde hledate, vi co hledate. Kdyby ale vedel kdo jste (profil), hledal by jeste o tridu lepe. Proto reseni z google je jen reseni z nouze, sice mozna zajimave, ale je to jen zaplata.
"Definice" zpravy neni az tak komplikovana - "dobra" zprava je na dobrem pageRankove strance pouze kratce, pak jde na misto lowRankove a zustava tam. "Flash" je pak zprava, co take zije kratce, ale nejde na lowRank.
Re: Šlo by to ještě jednodušeji
celé vláknoRe: Šlo by to ještě jednodušeji
celé vláknoKdyz vse vezmete jako staticke stranky, nikdy zpravu nepoznate. Proto je uvedena definice jedina pouzitelna, o kazde jine lze naopak dokazat, ze je nepouzitelna.
PageRank prece take spocitate az po urcitem case, to neni hodnota, kterou mate hned co danou stranku stahnete (jestlize dokazete opak, dejte mi prosim vedet). A presto je to pouzitelne.
Re: Šlo by to ještě jednodušeji
celé vláknoRe: Šlo by to ještě jednodušeji
celé vláknoVe skutecnosti, PageRank muzete spocitat dokonce jeste predtim, nez danou stranku stahnete :)
Viz definice PageRanku - jeho hodnota pro urcitou stranku neni ovlivnena vubec nicim, co se na one strance nachazi.
V praxi je ale PageRank ci jeho obdoby obvykle pocitan jednou za nejaky cas, protoze je to casove narocne (u Google je perioda jeden mesic, u Jyxa jeden den, u AllTheWebu pravdepodobne jeden tyden).
Jeste k ruznym dalsim napadum z jinych prispevku:
Kategorizace stranek pomoci ciselniku - ano, tenhle projekt existuje, jmenuje se Open Grid. Bohuzel se vubec nerozjel kvuli obvyklemu zacarovanemu kruhu, ktery je primo v jadru podobnych myslenek.
Koudelka bez RPG her - tak ono staci zadat dotaz jako koudelka -RPG. Alespon tohle je ve vetsine pripadu vyresene...
Re: Šlo by to ještě jednodušeji
celé vláknoNevim jaky pagerank znate vy, ale normalne se v nem pocita s poctem linku do stranky a ze stranky (tj. ta stranka je treba). Znam heuristiky pro situace, kdy je jiz stanoven pagerank ostatnich stranek a treba urcit pg nove stranky, to umim. Ale obecne to neumim, a spise by mi to pripominalo vesteni z kristalove koule nez vypocet (viz. priklad vyse).
Re: Šlo by to ještě jednodušeji
celé vláknoP(A) = d/N + (1-d)*Soucet(P(B)/outdegree(B))
Kde A je ta stranka, B jsou vsechny stranky, ktere na ni odkazuji, d je konstanta, N je pocet dokumentu.
Tedy vidite, ze pro vypocet P(A) neni potreba znat zadnou vlastnost stranky A - pouze vlastnosti stranek, ktere na ni odkazuji.
> [poctem linku] ze stranky (tj. ta stranka je treba)
(tohle prave neplati, viz vzorec)
Pridanim podminky "nic nemate stazene" samozrejme menite situaci; ale o tom rec nebyla - slo o to, zda vyhledavac muze urcit pagerank stranky pred stazenim, po stazeni nebo dokonce az nejakou dobu pote (vase puvodni tvrzeni).
Re: Šlo by to ještě jednodušeji
celé vláknoVe Vasi rovnici je evidentne nejen P(A) zavisle od P(B), ale i naopak. Proto opet nemate pravdu, ze pro stanoveni pg na obsahu (odkazech) stahovane stranky nezalezi. Zalezi.
Prijmeme-li DODATECNY predpoklad, ze nam staci urcita presnost stanoveni pg, pak pochopitelne pg je mozne odhadnout i pred stazenim jakekoliv stranky.
Pohotovy ctenar zajiste rychle stanovi vzdalenost Zeme-Slunce s presnosti na jeden svetelny rok :-) (tim chci naznacit, ze jiz nechapu smer tohoto vlakna, ale rad se necham prekvapit nejakou brilantni matematickou myslenkou)
Re: Šlo by to ještě jednodušeji
celé vláknoTento predpoklad neni nijak dodatecny, je uplne v zakladu vypoctu pageranku - ten se pocita iterativne a jen do urcite presnosti. Viz literatura dostupna na webu.
Takze nemam co bych menil na tom, co jsem uz rekl.
> Ve Vasi rovnici je evidentne nejen P(A) zavisle od P(B), ale i naopak.
A pokud bychom tuhle uvahu dovedli do konce, tak bychom zjistili, ze vlastne pagerank nelze nikdy vypocitat :)) - coz je sice (brano absolutne) pravda, ale trochu to neodpovida tomu, ze se pagerank bezne pocita...
Re: Šlo by to ještě jednodušeji
celé vláknoUvedte laskave prime odkazy, kde tvrdi opak, jste-li toho schopen.
Re: Šlo by to ještě jednodušeji
celé vlákno1. Vypocet PageRanku je vzdycky (vzdycky!) priblizny.
2. Stejnym (stejnym!) zpusobem a vzorcem, jakym pocitate PageRank pro zacrawlovane stranky, jej muzete vypocitat i pro novou stranku, kterou ve sve databazi nemate jeste zarazenou. (a jak vyplyva z 1, bude to opet priblizne).
3. Nikde jsem netvrdil, ze zacrawlovanim nove stranky neziskate dalsi informaci, ktera pak lehce zmeni pageranky sveho okoli. Ale to je vlastnost, se kterou se jiz predem pocita, a PageRank je primo od zacatku navrhovan pro grafy, ktere jsou neuplne (jako napr. databaze vyhledavace).
4. Kdyztak se muze laskavy ctenar vratit a procist si cely nas thread - to jak zacal a na co bylo vzdy reagovano (a zjisti souvislosti, vyznamove posuny a dodatecne podminky, ktera se snazi opravit drivejsi omyly).
Prime odkazy, ktere jste si pral:
1. "" (tedy tato diskuse; vzorec, ze ktereho muzete odvodit vse dalsi, je uz tady).
2. http://www-db.stanford.edu/~backrub/google.html (originalni research paper Pagee a Brina)
3. http://www.google.com/search?hl=en&q=jyxo+site%3Ajyxo.cz (zde uvidite, ze google skutecne pageranky pro nezaindexovane stranky pocita; tyto pageranky mohou byt i pomerne vysoke, jak vidite z poradi vypsanych odkazu; legenda: jsou to odkazy ze sexusu; v robots.txt je ale indexovani techto stranek zakazane)
Re: Šlo by to ještě jednodušeji
celé vláknoRe: Šlo by to ještě jednodušeji
celé vláknoA to jsem komukoliv s dobrym napadem na zlepseni vyhledavani schopen poskytnout velmi slusne zazemi...
Re: Šlo by to ještě jednodušeji
celé vláknoRe: Šlo by to ještě jednodušeji
celé vláknoPersonalizace vyhledávačů
celé vláknoRe: Šlo by to ještě jednodušeji
celé vláknoPro úplnost jsem se díval, jak funguje cnn.com. Tam má titulní strana 9 a plný text článků z ní vedoucí 2. To už je lepší typ chování, ale problém je v tom, že ty plné články nikdy nemají devět, jak naznačujete - pouze jsou po určitou dobu z takové strany odkazovány.
Re: Co současné vyhledávače neumějí najít
celé vlákno"Interaktivní" obsah webu - výsledky dotazů do různých databází atp.
Takovému obsahu se říká neviditelný web.
Re: Co současné vyhledávače neumějí najít
celé vláknoa) neumeji
b) nechteji
terminologie - relevantni - pertinentni
celé vláknoTermín - pertinentní informace
Termín anglicky - pertinent information
Výklad termínu - Informace které vyhovují subjektivním požadavkům uživatele na obsah informace nebo dokumentu.
Termín - relevantní informace
Termín anglicky - relevant information
Výklad termínu - Informace formálně nebo věcně shodné s dotazem zadaným uživatelem v přirozeném či selekčním jazyku. Formální relevance je shoda formulace rešeršního dotazu se selekčními údaji dokumentu, věcná relevance je shoda obsahu informačního dotazu s obsahem vyhledaného dokumentu Ke zjišťování relevance se používají koeficienty (míry) úplnosti a přesnosti.
Zdroj: Česká terminologická databáze z oblasti knihovnictví a informační vědy (TDKIV)
/i ta je součástí deepwebu :o) - k němu je pertinentnentní článek pro trošku hlubší vhled na http://www.brightplanet.com/deepcontent/tutorials/deepweb/index.asp
Co mi chybí
celé vlákno-hledání informací o dodavatelích/odběratelích ...
-hledání informací o zájmech (třeba moderní architektura)
-hledání informací pro práci (chyby v SW produktech ...)
Na skoro všechno ostatní již mám vybudované standardní představitele (nehledám vyhledávač, ale jdu na google, nehledám informace o internetu, ale jdu na lupu, ...)
K vybudování portolia oblíbených značek/serverů jsem kdysi také používal vyhledávač, ale skoro jistě jako katalog, nikoliv fultext. Myslim, ze vychazet pri analyze z toho, co lide hledaji, muze prinest trosku inovativni vysledky. Prinejmensim rozvrstveni katalogu rozhodne neodpovida frekveci klicovych slov.
Ve výše zmíněných ad-hoc dotazech se setkávám se 2 problémy:
-moc výsledků,
-žádné výsledky.
MOC VÝSLEDKŮ
problém vidím v ohodnocující funkci, pageranku. TAdy se mi libi, co umi treba vivisimo (trochu neco na ten zpusob ma jyxo)-kategorizovat podle ruznych (i kdyz hodne neumelych) aspektů, které ale vygeneruji extra ke kazdemu dotazu dynamicky.
Docela by se mi i libilo, kdyby se dalo volit napriklad podle posledni fakticke aktualizace. Libilo by se mi zvolit si globalni "oblast zajmu" pro vysledky a pak dohledavat (jako treba ebay v advanced search). Libila by se mi možnost jednoduse vyhazovat sluvka (ze vsech vysledku). Kdyz hledam Koudelka (fotograf ze skupiny Magnum a zaroven nazev RPG hry, pak bych chtel mit moznost rict, ze v ostatnich vysledcich nechci odkazy na tu hru).
ZADNE VYSLEDKY
Docela pomohlo zahrnuti .doc, .pdf ... Libil by se mi i automaticky preklad z ruznych jazyku. Libilo by se mi vygenerovani abstraktu stranky podle obsahu na tech strankach, kde jsou treba jen obrazky podle toho, odkud a kam vedou odkazy...
Jine vysledky nez jsem ocekaval
Obcas se to stane, zejmena, kdyz jsem spatne vyhledaval. Presto. Kdyz napisu do vyhledavace napriklad "okna" (vymena oken v panelaku) objevi se mi SEO optimalizovane, nebo kdysi (bez kontroly pravidel napr seznamu) zadane odkazy na okna. Kdyz mam stesti a jsou to firmy, pak ale bez informace o firmach (co je mi platnej na prvnim miste vonasek a spol s lokalni pusobnosti na druhem konci republiky). Libilo by se mi, treba propojeni na extra databaze. V tomto pripade Estav.cz. Pak muzu chtit vypis od nejvetsich firem po nejmensi,zjistit reference. Myslim, ze by se vyhledavaci/katalogu tez vyplatilo pro top 4000 vyhledavani udelat specielni stranky. Ty by se daly generovat napriklad oz zpetne vazby od uzivatelu. Google toolbar cosi sbira. Treba pak muze katalog vedet, jak dlouho jsem byl na nejakem odkazu (nez jsem se vratil pro dalsi odkaz u stejneho klicoveho slova). Zabezpeceni zpetne vazby by mohlo byt take (tento site uz nechci nikdy videt, dnes nechci videt, pro toto klicove slovo nechci videt ...)
Moznosti je spousta. Tak snad vas toto dlouhe povidani alespon malinko inspiruje.
Filip
Co to takhle spojit - fulltextový katalog.
celé vláknoProto mě napadlo, což takhle naroubovat do fulltextu vlastnosti katalogu? Mělo by to smysl?
Prvním krokem by bylo sestavit závazný seznam kategorií (číselník) - uznávám, že je to úzké místo, ale budiž. Číslo kategorie(í) by jako jakousi meta informaci zadali autoři do svých stránek a tím řekli vyhledávači: "já jsem stránka o stavebnictví". Žádná registrace do katalogu, žádné formuláře, jen jedno číslo kategorie. Pokud by takovýto číselník používali velké fulltexty, jistě by se našlo mnoho webů, které by byly takto vybavené. Zároveň by se tím odfiltrovalo velké množství mrtvých stránek (resp. "mrtvých" webmasterů :-).
Uživatel by pak kromě slovní fráze, kterou hledá, zvolil i jednu či více oblastí, kterých se jeho dotaz týká a tím výrazně zpřesnil výsledek vyhledávání.
Nechci se tu více rozepisovat, pro zájemce více zde:
http://hlava.net/blog_det.php?blogid=1052771571
Re: Co to takhle spojit - fulltextový katalog.
celé vláknoPS: Proc kdyz pouziju v komentari uhlove zavorky a zvolim typ text, je lupa.cz stejne vymaze?
Re: Co to takhle spojit - fulltextový katalog.
celé vláknoRe: Co to takhle spojit - fulltextový katalog.
celé vláknoFulltexty a katalogy
celé vláknoDalsi problem, kdy ani rozsirene hledani v Googlu nefunguje tak jak by si clovek predstavoval - hledal jsem stranky o gelogii ostrova Korfu, a zadal "geology Corfu", narazil jsem ale na to, ze existuje jisty geolog jmenem Corfu, a nenasel jsem rozumny zpusob jak Googlu sdelit, ze chci aby vzal v potaz Corfu jako nazev ostrova, ne autora, ktery se objevuje v citacich.
Nekdy je hledani v Google narocne na volbu klicovych slov. Hledal jsem obrazky pro deti, kresbicky zviratek a pohadkovych postav, neco pro inspiraci pro nove obaly vyrobku urcenych pro male deti. Pouzil jsem hledani obrazku na Googlu, a nejprve zadaval "cartoon animals" (pripadne primo napr. "cartoon dog"), pak zkousel misto cartoon "clipart" a "line art", ale porad to nebylo ono, potreboval jsem neco v detskem stylu, a klicova slova "children", "kids" vybrala jenom obrazky deti, ne obrazky pro ne. Nakonec na cele care vyhralo klicove slovo "coloring" (coloring books jsou omalovanky) - ale koho to napadne hned?
Ve vetsine pripadu musi clovek ovladat mozne synonyma - pokud nefunguje ubytovani, musim zkusit penzion, hotel, privat, a to vcetne moznych tvaru (penzion vs. pension, treba). Vetsinou mi pri prvnim pokusu vypadne rada stranek, a na zaklade vysledku odhaduju lepsi klicova slova (neco jineho nez hledani ve vysledcich, co nabizi Google). To si ale clovek musi udelat sam, fulltexty tak inteligentni zase nejsou.
Leo
Re: Fulltexty a katalogy
celé vláknoMě nikdy nevadilo, co nám neposkytují vyhledávače, vždy jsem se snažil pilovat spíš své rešeršní strategie. Jelikož se v názvech článku uvádí jen F., je trošku složitější se dopátrat, že jde o jméno Fernando. Možná, že kdybyste mu do Osla napsal, tak vám poradí nějaký dobrý geologický web nebo informační systém pro geology, nějaká databáze určitě bude :o) Nevím co přesně hledáte, ale vypadá to jako informace pro byznys (pokud nemáte jako zálibu geologii nebo jako předmět studia). Nemůžete čekat, že kvalitní informace pro byznys vám najde za pět minut Google. Pokud chcete nějakou databázi pro geologii, můžu se vám zkusit podívat. Je pak i šance, že některé z knihoven má přístup zdarma.
Re: Fulltexty a katalogy
celé vláknoJinak zajem o geologii ostrova Korfu je zajmem amaterskym, zajima me totiz o tomhle ostrove prakticky vsechno. Leo
Re: Fulltexty a katalogy
celé vláknoPokud se spokojíte s ubytováním, jehož provozovatel na kvalitu své internetové prezentace kašle, nehledejte ho na Webu.
Re: Fulltexty a katalogy
celé vláknoRe: Fulltexty a katalogy
celé vláknoUbytování a jiné služby si vybírám podle toho, zda mají na webu dostatek informací, zda je tam mají prezentovány přístupně, použitelně a přehledně, zda je patrné, že s nimi jde operativně komunikovat emailem (nesnáším telefony), apod. Pokud stránky splňují tato kritéria, velmi pravděpodobně se odkaz na ně objeví v Googlu na první stránce výsledků pro vhodně zvolený dotaz.
V oborech s velmi malou nabídkou je situace samozřejmě jiná, ale v dostatečně konkurenčních oborech nevidím důvod, proč bych měl nakupovat od někoho, kdo zatím Internet dostatečně dobře nezvládl. Nevyplatilo by se mi to, protože by mne to stálo mnohem víc času a starostí.
Re: Fulltexty a katalogy
celé vláknoA nehledam na internetu zdaleka jen kvuli nakupovani (at uz zbozi nebo sluzeb).
Re: Fulltexty a katalogy
celé vláknoJá vám přeci nechci brát váš způsob hodnocení a objednávání služeb. Pokud vám vyhovuje, je všechno v pořádku. Jde jen o to, že mně vyhovuje něco jiného a vyhledávání na webu v tom hraje značnou roli. Před časem jsem se dokonce pokoušel Googlem hasit barák. Já vím, asi jsem cvok :-)