Hlavní navigace

Jak se hledá na Morfeu

Pavel Houser 27. 5. 2003

Krátce po uvedení nového fulltextu společnosti NetCentrum se této aplikaci podíváme na zoubek - především s ohledem na nové vlastnosti, tedy ohýbání slov, kontrolu překlepů a synonyma. Spíše než nějaký kompletní soud je následující článek především výsledkem autorova drobného hračičkářství.

Za nejméně podstatnou pokládám kontrolu překlepů. Zde jsem jako výtku zaregistroval, že systém často nerozlišuje mezi anglickou a českou klávesnicí – tj. nenapadne ho, že „sb2rn0“ je zřejmě míněno jako „sběrné“. Co se týče záměny Z a Y, yambeyi systém nepochopí jako „zambezi“. Když vyměníme pouze jedno písmenko (zambeyi), systém stejně nezareaguje. Naproti tomu „kbantový“ systém rozpozná jako „kvantový“. Problém snad nedělá ani vypadnutí písmene – Locneska je potenciální Lochneska, nukeon je nukleon apod.

Dokonce i když systém najde zadaný řetězec, přesto nabídne i logičtější variantu – tedy kromě výpisu, kde lze najít slovo „tokoko“, se nás Morfeo zeptá, zda jsme neměli na mysli „rokoko“. Rokoko je ovšem nabídnuto i na „pokoko“ (p a r jsou přitom na klávesnici pořádně daleko od sebe). Systém také umí ošetřit negramotnost uživatelů v případě záměny y/i. Na gotyku nabídne gotiku apod. Překlepy se vztahují i na vlastní jména, borged je převeden na spisovatele (Borges) apod.

Shrnuto: Kontrole překlepů by zřejmě neuškodilo, kdyby více zohledňovala umístění písmenek na klávesnici a z toho vyplývající pravděpodobné záměny. Člověku, který místo rokoko napíše pokoko, se tak jako tak zavděčíte jen obtížně. :-) Obecně však kontrolu překlepů nepokládám pro použitelnost systému za příliš významnou.

Pojďme k synonymům. Protein není rozpoznán jako bílkovina, ovšem procházka už může být toulka, potulka, toulání, vycházka, výlet či špacír. Nedá se ale říct, že systému vadí chemické názvy, protože sacharid je cukr nebo uhlohydrát. Triangl ovšem není trojúhelník (a ani naopak – měl jsem podezření, že vazby povedou v některých případech pouze od českých výrazů ke slovům cizím, ale zdá se, že přiřazení jsou symetrická). Hrál jsem si chvíli se zeměpisnými názvy: Cejlon není rozpoznán jako Srí Lanka, London není Londýn, Holandsko není Nizozemí.

U běžných slov se však synonyma zdají být vcelku postačující. Ani tuto funkci ovšem nepokládám za příliš významnou a navíc mi není úplně jasné, kde „synonymnost“ končí (krysa není potkan, havran není vrána, uživatel to však často nerozlišuje; mají být takové výrazy provázány?).

Jako nejzajímavější a nejpotřebnější se mi jeví ohýbání slov. I zde jsem se však setkal s názory opačnými (např. s tvrzením, že na skutečně relevantní stránce by se příslušný výraz měl vždy alespoň jednou vyskytnout i v prvním pádě). Narcistně jsem v tomto případě hledal údaje o své maličkosti a skutečně jsem objevil stránku, kde se řetězec jméno + příjmení v prvním pádě vůbec nevyskytoval. „City slečna sněhem“ také systém pochopí ( → kniha Cit slečny Smilly pro sníh). „Dům smutek“ dá knihu Přítelkyně z domu smutku – podpora skloňování tedy neznamená pouze rozšíření o hvězdičkovou konvenci, ale aplikace se umí vypořádat i se změnou hlásek v kmeni slova. Systém si poradí i s ohýbáním relativně nezvyklých slov – tudíž „Nibelungové“ vede na stránky, kde se tito sice nevyskytují, ale zato se zde pojednává o Písni o Nibelunzích.

Jak se zdá, (subjektivně) nejdůležitější inovace na Morfeu vyšla z našeho minitestu také jako nejvydařenější. Nenašel jsem žádný důvod k nespokojenosti.

Poslední cíl, který na tiskové konferenci zveřejnili provozovatelé Centra, je rozpoznávání frází textu jako „uspořádaných celků“. Hledaný řetězec „2+kk nové butovice“ by měl být systémem „pochopen“ jako hledání bytu v této pražské čtvrti, ne rozebrán na jednotlivá slova propojená operátory AND či OR. Trochu to již na Morfeu funguje, v budoucnu to má samozřejmě fungovat ještě mnohem lépe. V tuto chvíli se mi zdá, že systém si poradí třeba s řetězcem „kk“ (identifikuje ho jako související s bydlením), „2 + 1 nové butovice“ se už ale jako pátrání po bytu nerozpozná. Odpovědi aplikace na mě taktéž již působily dojmem, že systém do určité míry umí odfiltrovat balast v dotazech, tj. ve frázi „hledám byt nové butovice“ bude ignorováno „hledám“.

Na okraj: Osobně jsem docela zvědavý, jak se Morfeo bude dále rozvíjet. Kdybychom chtěli problém postavit teoreticky, řešíme (mj.), jakým způsobem vlastně z určité syntaxe vystává sémantika (význam slov). Nedomnívám se, že by problému bylo realizovatelné pouze analýzou gramatické struktury dotazu (co je přísudek apod.), systém se skutečně musí snažit „pochopit“, o čem uživatelův dotaz vlastně je.

Našli jste v článku chybu?

5. 6. 2003 14:24

hlad (neregistrovaný)
Jojo, taky sem ho teď sháněl. On totiž každej nezná Morfea, pro mě to je novinka. Zkoušel jsem tedy www.morfeus.cz, ale to mě přesměrovalo na centrum.cz. Ale pak sem tadyk uvidel www.morteo.cz a to je to co jsem hledal. Autor nejspíš opomněl uvést odkaz.
dík

30. 5. 2003 9:41

Michal Illich (neregistrovaný)
Vsak jsem vam odpovidal uz predevcirem mailem... Ted tu odpovim obecne, aby to bylo uzitecne i pro ostatni.

Casto se stava, ze prijde webmaster a povida: vyhledavac je dobry/spatny, protoze MOJE stranky jsou vysoko/nizko.

Zkusim vysvetlit jednu systemovou vec: vyhledavac nema zadnou odpovednost vuci webmasterum - je zodpovedny UZIVATELUM (a v pripade Jyxa portalum, kteri technologii licencuji). Uzivatelum musime poskytnout relevantni, kompletni a vyvazene vysledky - to je jedine, co mne za…



Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

Měšec.cz: Kdy vám stát dá na stěhování 50 000 Kč?

Kdy vám stát dá na stěhování 50 000 Kč?

Vitalia.cz: Jak koupit Mikuláše a nenaletět

Jak koupit Mikuláše a nenaletět

Vitalia.cz: Vláknina: Rozpustná, nebo nerozpustná?

Vláknina: Rozpustná, nebo nerozpustná?

Měšec.cz: Zdravotní a sociální pojištění 2017: Připlatíte

Zdravotní a sociální pojištění 2017: Připlatíte

DigiZone.cz: Digi CZ výrazně zlevnila balíček HBO

Digi CZ výrazně zlevnila balíček HBO

120na80.cz: Pánové, pečujte o svoje přirození a prostatu

Pánové, pečujte o svoje přirození a prostatu

Měšec.cz: Platby do zahraničí: pozor na tučné poplatky

Platby do zahraničí: pozor na tučné poplatky

DigiZone.cz: Milan Kruml: procházka TV historií

Milan Kruml: procházka TV historií

Vitalia.cz: To není kašel! Správná diagnóza zachrání život

To není kašel! Správná diagnóza zachrání život

Root.cz: Nová třída SD karet A1 s vysokým výkonem

Nová třída SD karet A1 s vysokým výkonem

Měšec.cz: Golfové pojištění: kde si jej můžete sjednat?

Golfové pojištění: kde si jej můžete sjednat?

120na80.cz: Rakovina oka. Jak ji poznáte?

Rakovina oka. Jak ji poznáte?

Podnikatel.cz: Pozor, pojišťovny mění čísla účtů

Pozor, pojišťovny mění čísla účtů

Vitalia.cz: Pravda o přibírání na zimu

Pravda o přibírání na zimu

120na80.cz: Rovnátka, která nejsou vidět

Rovnátka, která nejsou vidět

Podnikatel.cz: Přivýdělek u Airbnb nebo Uberu? Čekejte kontrolu

Přivýdělek u Airbnb nebo Uberu? Čekejte kontrolu

Podnikatel.cz: Babiše přesvědčila 89letá podnikatelka?!

Babiše přesvědčila 89letá podnikatelka?!

Měšec.cz: U levneELEKTRO.cz už reklamaci nevyřídíte

U levneELEKTRO.cz už reklamaci nevyřídíte

Podnikatel.cz: Zavře krám u #EET Malá pokladna a Teeta?

Zavře krám u #EET Malá pokladna a Teeta?