Hlavní navigace

Jak se hledá na Morfeu

27. 5. 2003
Doba čtení: 3 minuty

Sdílet

Krátce po uvedení nového fulltextu společnosti NetCentrum se této aplikaci podíváme na zoubek - především s ohledem na nové vlastnosti, tedy ohýbání slov, kontrolu překlepů a synonyma. Spíše než nějaký kompletní soud je následující článek především výsledkem autorova drobného hračičkářství.

Za nejméně podstatnou pokládám kontrolu překlepů. Zde jsem jako výtku zaregistroval, že systém často nerozlišuje mezi anglickou a českou klávesnicí – tj. nenapadne ho, že „sb2rn0“ je zřejmě míněno jako „sběrné“. Co se týče záměny Z a Y, yambeyi systém nepochopí jako „zambezi“. Když vyměníme pouze jedno písmenko (zambeyi), systém stejně nezareaguje. Naproti tomu „kbantový“ systém rozpozná jako „kvantový“. Problém snad nedělá ani vypadnutí písmene – Locneska je potenciální Lochneska, nukeon je nukleon apod.

Dokonce i když systém najde zadaný řetězec, přesto nabídne i logičtější variantu – tedy kromě výpisu, kde lze najít slovo „tokoko“, se nás Morfeo zeptá, zda jsme neměli na mysli „rokoko“. Rokoko je ovšem nabídnuto i na „pokoko“ (p a r jsou přitom na klávesnici pořádně daleko od sebe). Systém také umí ošetřit negramotnost uživatelů v případě záměny y/i. Na gotyku nabídne gotiku apod. Překlepy se vztahují i na vlastní jména, borged je převeden na spisovatele (Borges) apod.

Shrnuto: Kontrole překlepů by zřejmě neuškodilo, kdyby více zohledňovala umístění písmenek na klávesnici a z toho vyplývající pravděpodobné záměny. Člověku, který místo rokoko napíše pokoko, se tak jako tak zavděčíte jen obtížně. :-) Obecně však kontrolu překlepů nepokládám pro použitelnost systému za příliš významnou.

Pojďme k synonymům. Protein není rozpoznán jako bílkovina, ovšem procházka už může být toulka, potulka, toulání, vycházka, výlet či špacír. Nedá se ale říct, že systému vadí chemické názvy, protože sacharid je cukr nebo uhlohydrát. Triangl ovšem není trojúhelník (a ani naopak – měl jsem podezření, že vazby povedou v některých případech pouze od českých výrazů ke slovům cizím, ale zdá se, že přiřazení jsou symetrická). Hrál jsem si chvíli se zeměpisnými názvy: Cejlon není rozpoznán jako Srí Lanka, London není Londýn, Holandsko není Nizozemí.

U běžných slov se však synonyma zdají být vcelku postačující. Ani tuto funkci ovšem nepokládám za příliš významnou a navíc mi není úplně jasné, kde „synonymnost“ končí (krysa není potkan, havran není vrána, uživatel to však často nerozlišuje; mají být takové výrazy provázány?).

Jako nejzajímavější a nejpotřebnější se mi jeví ohýbání slov. I zde jsem se však setkal s názory opačnými (např. s tvrzením, že na skutečně relevantní stránce by se příslušný výraz měl vždy alespoň jednou vyskytnout i v prvním pádě). Narcistně jsem v tomto případě hledal údaje o své maličkosti a skutečně jsem objevil stránku, kde se řetězec jméno + příjmení v prvním pádě vůbec nevyskytoval. „City slečna sněhem“ také systém pochopí ( → kniha Cit slečny Smilly pro sníh). „Dům smutek“ dá knihu Přítelkyně z domu smutku – podpora skloňování tedy neznamená pouze rozšíření o hvězdičkovou konvenci, ale aplikace se umí vypořádat i se změnou hlásek v kmeni slova. Systém si poradí i s ohýbáním relativně nezvyklých slov – tudíž „Nibelungové“ vede na stránky, kde se tito sice nevyskytují, ale zato se zde pojednává o Písni o Nibelunzích.

Jak se zdá, (subjektivně) nejdůležitější inovace na Morfeu vyšla z našeho minitestu také jako nejvydařenější. Nenašel jsem žádný důvod k nespokojenosti.

cif 24 - early cena - média

Poslední cíl, který na tiskové konferenci zveřejnili provozovatelé Centra, je rozpoznávání frází textu jako „uspořádaných celků“. Hledaný řetězec „2+kk nové butovice“ by měl být systémem „pochopen“ jako hledání bytu v této pražské čtvrti, ne rozebrán na jednotlivá slova propojená operátory AND či OR. Trochu to již na Morfeu funguje, v budoucnu to má samozřejmě fungovat ještě mnohem lépe. V tuto chvíli se mi zdá, že systém si poradí třeba s řetězcem „kk“ (identifikuje ho jako související s bydlením), „2 + 1 nové butovice“ se už ale jako pátrání po bytu nerozpozná. Odpovědi aplikace na mě taktéž již působily dojmem, že systém do určité míry umí odfiltrovat balast v dotazech, tj. ve frázi „hledám byt nové butovice“ bude ignorováno „hledám“.

Na okraj: Osobně jsem docela zvědavý, jak se Morfeo bude dále rozvíjet. Kdybychom chtěli problém postavit teoreticky, řešíme (mj.), jakým způsobem vlastně z určité syntaxe vystává sémantika (význam slov). Nedomnívám se, že by problému bylo realizovatelné pouze analýzou gramatické struktury dotazu (co je přísudek apod.), systém se skutečně musí snažit „pochopit“, o čem uživatelův dotaz vlastně je.

Byl pro vás článek přínosný?

Autor článku

Autor je redaktorem Sciencemag.cz.

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).