Hlavní navigace

Seznam.cz nasadí nového indexovacího robota

Jiří Macich ml.

Seznam.cz brzy vypustí do akce třetí generaci svého indexovacího robota. Pokud si říkáte, že s tím hodně naděláme, vězte že se nejedná jen o přepracování nějakého pavouka stahujícího obsah webu, jedná se o přechod na zcela odlišnou technologii poskytující úplně jiné možnosti pro práci s nasbíranými daty. Ty se ukládají do úložiště typu NoSQL a nad daty pracuje Map/Reduce framework, píše se na stránkách blogu fulltextového týmu české portálové jedničky.

Seznam.cz brzy vypustí do akce třetí generaci svého indexovacího robota. Pokud si říkáte, že s tím hodně naděláme, vězte že se nejedná jen o přepracování nějakého pavouka stahujícího obsah webu, jedná se o přechod na zcela odlišnou technologii poskytující úplně jiné možnosti pro práci s nasbíranými daty. Ty se ukládají do úložiště typu NoSQL a nad daty pracuje Map/Reduce framework, píše se na stránkách blogu fulltextového týmu české portálové jedničky.

Že by to chtělo napsat a navrhnout všechno hezky znova od začátku jsme si již před časem řekli, síly a kapacity pro takový úkol jsme dali dohromady letos na jaře. A vida, už se chystáme ho vypustit ven. Nějaký čas ho ještě budeme ladit a až se bude chovat mravně, nahradí současného robota. Na Vaše weby se bude hlásit jako „SeznamBot/3.0-alpha“, pokud by páchal nějakou neplechu, neváhejte nám dát vědět, vzkazuje Seznam.cz správcům a majitelům webů přes jeden ze svých oficiálních blogů.

Našli jste v článku chybu?