Webseek bude zcela jiste novym kvalitnim produktem . Jeste chybi nektere drobnosti pro skutecne ostry provoz. Jiz sama pouzita technologie mnoho napovida..Jako prvni jeho sluzby bude pouzivat Yo.cz
Zdravim Michale,
jestli si vzpominate na nas nedavny rozhovor o "korektnosti" - tak toto je jen dalsi dukaz :-) Nekdo jiny by se mozna podepsal jako illich@centrum.cz a rekl, ze empyreum je proste jeste lepsi (ale jak je videt, takove chovani je opravdu jen pro "otrle" povahy z yo.cz :-))
Mejte se fajn
Petr Samcenko
> Webseek bude zcela jiste novym kvalitnim produktem .
> Jeste chybi nektere drobnosti pro skutecne ostry provoz.
> Jiz sama pouzita technologie mnoho napovida..Jako prvni
> jeho sluzby bude pouzivat Yo.cz
Tady predstavitel Yo rika, ze "Yo.cz pouziva sluzby Webseek", ackoliv tady nejde o zadne dva subjekty, ale jeden. Rikate "bude", ackoliv jiz ho pouzivate. "Produkt" si sami chvalite jako "kvalitni" a nazyvate ho jmenem, ktere je zavadejici, nebot onen produkt se jmenuje jinak.
---
Co se tyka vasich stranek, i ty jsou dost vesele:
> Na rozdíl od konkurence jsme vyhledávací stroj
> AspSeek, na kterém WebSeek beží, nemuseli vyvíjet > sami. Do vývoje engine AspSeek přispělo 20 vývojářů z > 9 zemí. Z tohoto důvodu máme nesrovnatelně nižší
> náklady na vývoj, testování a provoz.
Skutecne jste ho nevyvijeli sami :) - protoze jste ho nevyvijeli vubec. Podle aspseek.org autori jsou:
* Alexander F. Avdonkin <al@sw.com.sg>
* Kir Kolyshkin <kir@asplinux.ru>
* Igor Sukhih <igor@asplinux.ru>
plus nekolik contributoru, mezi nimiz neni zadne vase jmeno, ani jmeno nikoho z Ceske republiky. Vy jste aspseek pouze integrovali do svych stranek.
Navic na webseek.cz neni zmineno zadne propojeni s Yo.cz. (a ze takto to cele pusobi na bezne uzivatele je patrne ostatne i z clanku: autor mu sice venoval hodne casu a usili, ale propojeni webseek+aspseek+yo si nevsiml. Tedy jakkoliv zde v diskusi opozdene prezentujete otevrenost, tak pred 95% ostatnich se snazite budit jiny dojem o puvodu, ucelu a propojenosti pouzitych programu).
---
Jeste dovetek, at me spatne nepochopite:
(a) aspseek se mi libi, jakozto i cele hnuti open source
(b) Yo.cz fandim, to jen vyroky pana Pericevice ve mne pravidelne vzbuzuji uzas
(c) tyto nazory jsou pouze jen me soukrome, ne nazory zadne firmy ani skupiny lidi
PS: Vim, ze jste vy osobne poslal k ASPseeku prevodni tabulku pro ceske znaky + seznam stopslov (tedy cca 5kB textu), ale rikat tomu vyvoj (jeste v danych souvislostech) je dost odvazne :)
Pane Illich vy jste vazne demagog.Nevim kde jste vzal ze Yo a Webseek jsou ten samy subjekt a ja jsem "predstavitel Yo"
Vase korektnost kterou diskujete na vasi aplikaci neni jen vas soukromy nazor ale skupiny lidi se kterymi toto diskutujete i u me vzbuzuje uzas..? A to v tom ze jste jedinny kdo webseek nemuze stravit.
> Nevim kde jste vzal ze Yo a Webseek jsou ten samy subjekt
Usuzuji z toho, ze domena webseek.cz se resolvuje na 217.11.237.37, coz se zpetne resolvuje na www6.yo.cz, stejne tak i link na http://217.11.237.37/ ukazuje vas projekt webdomena.cz. Cely tento IP prostor je v registru pristupnem zde na Lupe (racte kliknout vlevo), oznacovan jako "PERICEVIC-CZ". V tuto chvili nemam pristup k zadnym logum, takze vam nepovim, odkud bezi samotny crawler, ale nedivil bych se, pokud by pro nej platilo totez.
Ale mozna se i pres veskera fakta mylim, a tak se pro jistotu ptam: Provozuji vyhledavac webseek.cz lide z Yo.cz?
> a ja jsem "predstavitel Yo"
(1) Jste vlastnik domeny yo.cz
(2) Tak jiz vyse zminovana sit se jmenuje po vas.
(3) Opakovane mluvite za Yo do ruznych konferenci i zde na Lupe
(4) Domena yo.cz ma popis "Vaclac Pericevic-Movies; Legerova 26;"
Ale mozna se i pres veskera fakta mylim, a tak se pro jistotu ptam: Jste predstavitel Yo.cz?
> neni jen vas soukromy nazor
Je to muj soukromy nazor a nici jiny.
> A to v tom ze jste jedinny kdo webseek nemuze stravit.
Uz potreti v teto diskusi rikam, ze se mi aspseek libi :)
Musím říci, že jsem Marka Prokopa dvakrát žádal, aby zjistil, která firma nebo jaká skupina lidí za WebSeekem stoji, ale ani jemu, ani mně se napodařilo zjistit z dostupných zdrojů, že jde o projekt YO. Určitě by to bylo v textu uvedeno. Děkuji Janu Karabinovi, že nám to nyní objasnil.
Mimochodem, až bude WebSeek podporovat všechny typy dotazů, které deklaruje, bude to důvod, proč jej budu upředsnostňovat pro prohledávání českých stránek před Google. Nyní, přestože Google neaktualizuje index tak často jako WebSeek, raději používám Google, protože vím, jak se jej ptát, abych získal očekávané odezvy.
> Skutecne jste ho nevyvijeli sami :) - protoze jste ho
> nevyvijeli vubec. Podle aspseek.org autori jsou: Alexander...
> plus nekolik contributoru, mezi nimiz neni zadne vase jmeno,
> ani jmeno nikoho z Ceske republiky. Vy jste aspseek pouze
> integrovali do svych stranek.
engine aspseek vychazi z projektu udmsearch (nyni mnogosearch.ru). pokud si prohlednete zdrojaky aspseeku a mnogosearch zjistite ze maji mnoho spolecneho.
Polovina trid v aspseeku zacina "Udm". Proto jsem mezi vyvojare pocital i vyvojare UdmSearch.Ono i v THANKS je napsano za aspseek vychazi z UdmSearch.
mozna jsem mel rozlisit devlopers a contributors, ale na strance urcene predevsim manazerum mi to prislo bezucelne;-)
Ale jinak mate pravdu, formulace je ponekud sebevedoma. Stranky webseeku, v dobe zverejneni clanku, nebyly urceny ke zverejneni...musim se zeptat autora jak nas nasel;)
Do vyvoje aspseeku, jsem prispel opravou nekolika chyb + nekolik patchu ktere jeste nejsou ve stavu kdy by snesly zverejneni;) ale webseek je pouziva...
Na provozu webseeku se podileji pouze NEKTERI lide z yo.cz.
Mam ten dojem nekde na yo.cz je webseek uveden mezi projekty
PS: kdyz tolik fandite AspSeeku a zvobodnemu software, nechcete se pripojit k jeho vyvoji? ;-)
> PS: kdyz tolik fandite AspSeeku a zvobodnemu software,
> nechcete se pripojit k jeho vyvoji? ;-)
Budete se divit, ale mozna to neni spatny napad. Zkusim se nad tim zamyslet ;)
Kazdopadne na AspSeeku se mi hodne nelibi jedna vec, a to ze je postaven nad SQL databazemi - to podle me neni schudna cesta: bude se to spatne skalovat a rychlost nebude takova, jaka by mela byt.
Ostatne asi tim je zpusobene, ze ma webseek takovou malickou databazi (tretina/ctvrtina oproti ostatnim), ze?
> Budete se divit, ale mozna to neni spatny napad. Zkusim se nad tim zamyslet ;)
pokud to myslite vazne, doporucuji spise GNU projekt mifluz (gnu.org/projects/mifluz). Je tam sice vic prace, ale moznost idexovat 500milionu stranek je impozantni. Skoro konkurence Googlu;)
To ze je AspSeek postaveny na SQL databazi se mi prave libi...;) cela architektura je pruhlednejsi a s databazi se daleko lepe manimupuje. Mate pravdu ze je to trochu pomalejsi, ale nijak vyrazne.
Skalovat se bude AspSeek diky sqldb take lepe, hodne prace usetri skalovatelna DB (napr. podporovany Oracle)
autori aspseeku chteji nekdy v budoucnu dodelat do AspSeeku skalovani, ale prijde mi to zbytecne, mifluz je prespektivnejsi...
Pro indexovani 'mensiho' poctu dokumentu, tak do 50milionu, je AspSeek idealni nastroj.
WebSeek ma mensi databazi pouze kvuli tomu ze bezi ze starsi zalozni kopie (protoze nam ve 14dnech odesly ctyri disky IBM - rozdil je v IBM;-)
PS: IMHO nejzajimavejsi napad (a take nejslozitejsi) je distribuovany vyhledavac nebo dokonce peer2peer...
> pokud to myslite vazne, doporucuji spise GNU projekt
> mifluz (gnu.org/projects/mifluz). Je tam sice vic prace,
> ale moznost idexovat 500milionu stranek je impozantni.
> Skoro konkurence Googlu;)
(spravne URL je zrejme http://www.gnu.org/software/mifluz/)
No nevim, nevim, tohle je ted pouze vytvarec inverzni databaze, nic vic. Neprostudoval jsem to dukladne, ale nejak tam nevidim moznost rozskalovat to na vic pocitacu, takze tech 500 milionu stranek bude spis jen nejaky teoreticky limit (prece jenom ~3TB disku do jednoho pocitace nenarvete).
Diky za tip.
> WebSeek ma mensi databazi pouze kvuli tomu ze bezi ze
> starsi zalozni kopie (protoze nam ve 14dnech odesly
> ctyri disky IBM - rozdil je v IBM;-)
Jo, jo, Empyreum Fulltext take uz sejmul par IBMek 75GB ;)
www.senga.org (skupina vyvijejici mifluz):
"Senga is a development group focused on information retrieval software. The primary purpose of the components distributed on Senga is to build a large scale internet search engine."
mifluz je GNU projekt, a GNU jsou znami megalomani;-)
takze IMHO je mifluz/senga dlouhodobe perspektivni...
Zajímala by mě odpověď na otázku "Kolik procent uživatelů Internetu využívá fulltext a kolik ručně tříděné katalogy?". Domnívám, že katalogy odkazů jsou mnohem populárnější. Osobně se k fulltextu uchyluji pouze pokud hledam nějakou specialitku.
Mohu Vas ujistit, ze ja osobne napriklad nepouzivam k hledani nic jineho nez fulltext. Proklikavani spoustou kategorii bez jistoty, ze potrebna podkategorie existuje a ze se nachazi prave v kategorii, na kterou klikam, zpusobuje neumernou delku a neefektivnost takovehoto vyhledavaciho procesu. Chvilkove zamysleni nad vhodnymi klicovymi slovy a jejich bleskove vyhledani mi pripadaji mnohem vyhodnejsi zpusob, jak na internetu najit v podstate cokoliv. Staci znat dobry fulltextovy vyhledavac :-).
Nehlede na to, ze prirazovani stranek do kategorii je vyrazne subjektivni zalezitost, ve vetsine pripadu, kdyz neco hledam, tak bych byl schopen vymyslet mnoho ruznych kategorii, do kterych hledane informace mohou spadat.
Osobne si myslim, ze uloha katalogu pri vyhledavani na internetu bude s casem vyrazne klesat a zdokonalovani fulltextu - viz. vynikajici Google - bude v budoucnu dominantni zpusob vyhledavani.
Podle meho nazoru ma jak katalog tak fulltext sve opodstatneni. Zalezi na typu informace, kterou tazatel vyhledava.
Prvni priklad: Chci si dokoupit surroundy pro sve domaci kino. Vzhledem k tomu, ze mam hlavni reprobedny od fy Tannoy a jsem s nimi spokojen, chci od teto firmy i surroundy. Ukol je najit prodejce teto znacky. Idealni pripad pro katalog, necham vyhledat Tannoy a mohu si vybrat u koho nakoupim. Pokud bych vyuzil fulltext musel bych se prodirat spoustou stranek kde nikdo Tannoye neprodava a misto toho jsou to diskusni skupiny kde se dozvim, ze za
a) Tannoy je ten nejhorsi shit, ktery si kupuji akorat napul hlusi looseri, kdezto odbornik koupi xy a za
b) ze Tannoy je spica narozdil od xy, ktere stoji za prd a kdo je obhajuje je naprosty debil.
Druhy priklad: Uvazuji nad koupi graficke karty, chci se podivat na recenze a sem tam nejaky flame abych vedel jak to s kartami dnes vypada. Idealni je pouzit fulltext, protoze s katalogem bych musel hledat obecne stranky o hrach, kartach, PC a podobne. Stalo by to moc casu a jeste bych spoustu relevantnich odpovedi nikdy nenasel.
Zaver: Rozhodnuti zda fulltext ci katalog zavisi na informaci, kterou pozaduji. Musim si vybrat tak aby to byla nejoptimalnejsi cesta k relevantni informaci.
Jednoznačně převažuje vyhledávání v katalogu Seznamu, pramení to z historických důvodů, české fulltexty odjakživa stály za houby a teď se začalo pracovat na určité změně. Mezitím ovšem přišel Google a když tedy někdo používá fulltextové vyhledávání, pak Google. V současné době si také nikdo nedovolí svoji stránku nezaregistrovat v katalogu Seznamu, proto zde obvykle najdete všechno. Otázka je, jak snadno, což souvisí s kvalitou registrace.
Vzhledem k tomu, jak náročný je fulltext na zpracování dotazu, a zároveň jak je náročný finančně (pokud využíváte cizího zdroje), nelze se divit, že portály běžně nabízejí jako základní databázi k prohledávání tříděný katalog.
Z toho lze usoudit, že většina lidí používá katalog, jednak protože používají spíše portál, než stránku fulltextu, jednak protože si na portálu prostě nepřehodí v roletce nebo přepínači na fulltext. Mnozí ani neznají rozdíl.
Ke škodě uživatelů se dá říci, že "volí" především katalog.
> jednak protoze si na portálu proste neprehodí v roletce nebo prepínaci na fulltext. Mnozí ani neznají rozdíl.
Napriklad na centrum.cz se i bez nejakeho zaskrtavani, tedy defaultne, objevi pri vyhledavani z hlavni stranky portalu vyjezd, jez obsahuje jak vysledky z katalogu tak z fulltextu (prepinacem muze uzivatel samozrejme ovlivnit, pokud by z hlavni stranky chtel vyhledavat jen v nektere ze sluzeb...)
Chtěl bych touto cestou vyjádřit omluvu uživatelům ftxt.quick.cz za chybné zobrazení odkazů sama na sebe. Při rekonfiguraci robota (tj. části, jež stahuje obsah stránek z web serverů) jsme omylem vypustili definici zamezující cyklickému přístupu sama na sebe.
Chybu jsme neprodleně opravili a v brzké době bude k dispozici katalog stránek sestavený dle upravené konfigurace.
Ftxt.quick.cz využívá technologie Megatext. Unikátní vlastností je možnost vyhledávat česká ohýbaná slova ve všech jejich morfologických tvarech. Databáze, jež je pravidelně kompletně obnovována každé dva týdny, obsahuje 5 miliónů webových stránek s celkovým počtem 1,5 miliardy slov.
Radek Doležel
ČESKÝ TELECOM, a. s. - Imaginet, o. z.
Internet Content Group
Nejsem si tím docela jistý, ale řekl bych, že skloňovat a časovat, stupňovat a negovat by měl umět i WebSeek. K čemu jinému by jinak využíval iSpell. Ovšem je pravda, že poslední iSpell, který jsem viděl, obsahoval jen asi 190.000 hesel. Je to sice více, než kolik obsahuje Slovník spisovné češtiny, Slovník spisovného jazyka českého nebo Pravidla pravopisu, ale i tak je to velmi málo. Chtělo by to, aby opensource komunita zapracovala, třeba by pro ten účel dostala svolení využít i Český národní korpus, mohla by to být třeba zajímavá ročníková či diplomová práce pro někoho z komputační lingvistiky třeba na MFF UK. Co říkáte.
To taky, ale quick.cz opravdu ignoruje robots.txt, proto jsem na svůj web zakázal přístup z 194.228.200.8. Robot Megatextu neobtěžuje tak často, zatím jsem ho nechal být.
Je zajímavé, že se čeští roboti zpravidla nesnaží stahovat stránku v různých kódováních češtiny - autoři si dají tu práci s implementováním pravidel pro vyloučení URL s /toISO-8859-2/ apod., ale dodržovat všeobecně uznávaný Robots Exclusion Protocol je nad jejich síly.
No on ani Webfast (Centrum) není v tomto ohledu zcela OK, i na
to zminovane "podnikani na webu" se ve vysledcich objevi odkazy vedouci na http://fulltext.centrum.cz, sice diky relevanci az na na 21. miste, ale je to ten samy problem
jako na Quicku.
'sitemax 0 "nalezl" and "dotaz" and host "fulltext.centrum.cz"' a pokrocile vyhledavani na webfast.cz neni take spatne.
Tento "novy" produkt jsem si otestoval, a musim konstatovat, ze se jedna zatim o to nejhorsi co jsem v TLD cz vubec videl, hned za takovymi kvalitami jako atlas, centrum a seznam.
Relevanci to totiz stanovuje dle meho nazoru velice nestastne a osobne se domnivam, ze jde o dalsi produkt, jehoz autori si neco malo precetli o nejakem vyhledavacim modelu, ale vubec nemeli zkusenosti nebo teoreticke zaklady ke zpracovani radove milionu dokumentu.
Proto opet nezbyva, nez k hledani v CZ zone vyuzit vyhradne zahranicni PROFESIONALNI systemy. Bohuzel je tu pak problem aktualnosti dat, ale aspon clovek najde co potrebuje mezi prvnimi 20-ti hity...
Nedostatecne zohlednuje delku dokumentu vuci frekvenci slov dokumentu, tj. nepenalizuje "kratke" dokumenty. Zohledneni slov v linku (slova na ktera se klika) je nedostatecne, stejne tak jako analyza dalsi stylistiky HTML stranky. Take se domnivam, ze thesaurus a lemmatizer nepracuji zcela dokonale, a spise v linqui asi vyuzivate neco jako n-gramy.
Nezohlednuje vzajemne reference a neimplementuje pravdepodobne zadne techniky vzajemne reference indexovanych dokumentu, alespon na zakladni urovni indukcniho modelu. Spatne to pak napr. analyzuje content pages od information pages. Dale se domnivam, ze to prilis preferuje vyskyty, pouhych paternu puvodnich termu (asi souvislost s n-gramovou technikou nekde uvnitr stroje).
Tolik po zbeznem testovani. Na dalsi bych to potreboval projet proti TREC a dale slovnat na C3 clusterovani v ramci vetsi baze nejenom s "rozumnymi" texty.
Moje analyza odpovida cene, za kterou ji porizuji :-). Netvrdim, ze zminovany produkt nema hodnotu, spise jsem se snazil najit mista, ktera je jeste mozno dle meho skromneho nazoru zlepsit... Berte to prosim pouze jako feedback, ktery je mozna kriticky, ale je minen v "dobrem", a rozhodne nemusi byt vzdy 100% vystizny a presny (tj. muze byt mylny).
Pochopitelne by mi pomohlo, kdybych znal konstrukci a modely, na kterych to bezi. Rychleji bych se dokazal zamerit na odpovidajici mista. :-)
dekuji za rychlou reakci a konstatuji, ze se Vase analyza skutecne v nekterych vecech vzdaluje skutecnemu reseni; domnivam se, ze je to vsak skutecne zpusobeno tim, ze vidite nas system pouze zvenku. Radi s Vami nektere aspekty osobne prodiskutujeme (obavam se vsak, ze to bude nad ramec komentare k clanku :)), procez Vas prosim o kontaktovani prostrednictvim e-mailu (karel.panek@empyreum.cz), nejlepe jeste behem dnesniho dne (s ohledem na moje casove moznosti).
Jediný spolehlivý český fulltext, který znám je ten od Empyrea, nejvíc mi vyhovuje verze, kterou pužívá iDNES ( http://hledej.idnes.cz ).
Na internetu hledám většinou informace o hudebních skupinách a interpretech a v této oblasti je bezkonkurenčně nejlepší. Jediným konkurentem je webfast, ale nachápu odkud bere nesmyslné titulky a popisky (nevím proč ignoruje description a framy).
empyreuum, ani google, ani cokoli jinyho stejne nebyly schopny po 6 měsících od změny stránek zaregistrovat nějakou jejich změnu. A to i přes to, že sem posílal do systému link znova. V marné naději, že se odkaz změní.
Nevím co používá jako vyhledávač quick.cz, ten aspoň přidal i ten druhý odkaz a nyní existují oba. Stejná adresa, jiný popis. Problém je ale hlavně v cashováním stránek. Proč tam proboha zůstává něco, co už půl roku neexistuje a celé zaměření stránek je naprosto odlišné?!