Hlavní navigace

Google pracuje lépe s češtinou, zavedl stemming.

Redakce

Při svém rešeršování Googlem jsem nedávno objevil, že Google zavedl v práci s českým jazykem tzv. stemming. Jedná se o zohledňování gramatických tvarů podstatných jmen, přídavných jmen i sloves, které je nyní funkční ve vyhledávání českých výsledků na Googlu. Lukáš Morávek z českého zastoupení Googlu, kterého jsem v této věci oslovil, mi sdělil: Naše implementace gramatiky je, na rozdíl od tradičních morfologických řešení ve vyhledávání, specifická. Je řešena tak, aby uživatel dostal co…

Při svém rešeršování Googlem jsem nedávno objevil, že Google zavedl v práci s českým jazykem tzv. stemming. Jedná se o zohledňování gramatických tvarů podstatných jmen, přídavných jmen i sloves, které je nyní funkční ve vyhledávání českých výsledků na Googlu.

Lukáš Morávek z českého zastoupení Googlu, kterého jsem v této věci oslovil, mi sdělil: Naše implementace gramatiky je, na rozdíl od tradičních morfologických řešení ve vyhledávání, specifická. Je řešena tak, aby uživatel dostal co nejlepší výsledky vyhledávání. Znamená to, že na jedné straně pracujeme nejen s gramatickými formami jednotlivých slov, ale zahrnujeme i relevantní transformace typu podstatně jméno-přídavné jméno, sloveso-podstatné jméno.

Např. na dotaz doplněk k svatbě ve výsledku najdeme i svatební doplňky. Dochází tedy k transformaci podstatného jména „svatba“ na přídavné jméno „svatební“.

Brand

Nesnažíme se hledat varianty, které by mohly zhoršit výsledky vyhledávání. Například mnohé tvary sloves mohou přinášet nerelevantní výsledky. Pokud tedy Google nehledá některý tvar slov, dělá to záměrně, což vede k ještě lepším výsledkům vyhledávání v českém jazyce, vysvětlil Lukáš Morávek z českého zastoupení Google. Technologie byla nasazena do rutinního provozu nedávno, po období testování, které Google u většiny svých služeb vždy během vývoje provádí na blíže nespecifikované skupině uživatelů.

Pokud hledáte tip na další příklady, zkuste např. dotazy semestr umělá inteligence nebo v rámci hrátek s Googlem zkuste položit dotaz dětské hraní.

Našli jste v článku chybu?
11. 5. 2007 15:45
Bohužel, na [pankrácká cela] se také objeví celá a čela. Ale věřte, že už tenhle problém také řeší. Pokud teď chcete opravdu jen tele, zkuste +tele, ale zase tím o veškeré "výhody" stemmingu přidete. BTW, nemyslel jste při pokládání dotazu na jatečně upravené tělo telete? ;-)
11. 5. 2007 15:30
(neregistrovaný)
No, když už Google zavedl stemming, ještě by se mohl naučit rozlišovat slova podle háčků a čárek nad písmeny. Tuhle jsem hledal "tele" (mládě krávy) a tvrdošíjně mi to cpalo "tělo"...