Na Google News si nejvíce považuji jejich "alertu", tedy e-mailu, který mi přijde vždy, když se v přehledu zpráv objeví nějaký článek s mnou zadanou klíčovou frází. V e-mailu jsou samozřejmě titulky, anotace a odkazy rovnou na ty články.
Jojo, cosine similarity je "industry standard" a s některými klíčovými modifikacemi ji používám také. Daleko zajímavější mi ale přijde oblast samotného clusterování - algoritmů je mnoho, ale většinou mají buď ne příliš dobré výsledky nebo jsou neúnosně náročné na výkon.
Pamatuje si jeste nekdo PRESS.CZ z roku 1999? To bylo presne o tom samem. Obsahovalo to radove 40 zdroju zprav, melo to vsechny rubriky a getter pro kazdy zdroj a navrch tam sedel jeden editor ktery vytahoval ty nezajimavejsi clanky.
Delali to GLOBE ale jakmile to prodali VideOnLine tak to skoncilo.
1/ je to v češtině
2/ je zde nepřeberné množství zdrojů z různých okruhů témat, nejen zpravodajství
3/ je zde možnost vytvoření tzv. "Můj" tedy stránku odkazů kterou si vytvořím sám a se zdroji, které zajímají mne
4/ když mi nějaký zdroj chybí mohu využít "přidat"
5/ v přehledu po najetí myší na titulek se mi ukáže obsah článku, takže se mohu rozhodnout zda jej otvírat a číst celý či ne
6/ je zde zdarma monitorovací služba, kde si mohu zadat slova či jejich části, která mi tato služba sleduje a zasílá odpovídající články včetně odkazu a sručného obsahu emailem
Asi před třemi lety jsem pro vlastní potřebu vyvinul vlastní metodu dekonstrukce webových stránek zpravodajských serverů, asi dost obdobnou té, kterou užívá p. Lahvička. Systémek tehdy ukládal 1-4 denně do databáze data a obsahy článků z cca 200 serverů. Kdyby snad měl někdo zájem...
Prijde mi, ze se trochu zapomelo na RSS/XML feed... :/ Kdo ma dneska cas lezt po zpravodajskych serverch, kdyz na polovine z nich vas otravuje flashova reklama pres celou stranku prohlizece? - Snad si na stranku novyden.cz vzpomenu za pul roku, az tam tuto sluzbu asi pridaji; obavam se, ale ze skonci zapomenuta.
Měli byste, Michale, něco udělat s tím sdružováním zpráv. Přecijen poplatky za televiz a poplatky za parkování, nebo papežova žádost Bushovi a náboženské nepokoje v Karáčí toho moc společného nemají.
takových projektů je velmi málo. Inews.cz grupuje jen podle toho, do jaké skupiny je zařazen server nebo z níž se odebírají zprávy. rozhodně to nedělá nějakou analýzu významu a důležitosti ani příbuznosti zpráv...
s tim souhlasim, spise me mrzelo, ze clanek vyzniva, jako kdyby nic podobneho neexistovalo, je pravdou ze neznam web V CR, ktery by umel analyzy vyznamu,..., ale to podle me nedela z noveho projektu neco uplneho noveho v cze inetu
spise me slo o ze, kdyz jsem cetl clanek, tak me to pripadalo, jako kdyby neco takoveho fakt nebylo, neslo mi o inews.cz, spise o obecnost. Ze by to byl katalog jen s vypisem domen to je pravda. Jinak k inews.cz nemam zadny vztah spise je jen pouzivam. A napadly me jako velice dobry priklad, jelikoz pokud se nemylim, tak jsou uz v provozu vcelku dlouho.
Bál jsem se, že někdo přijde s tím, že jsem na něj zapomněl. Agregátorů zpráv je na českém webu opravdu zbytečně mnoho a žádný není dotažený. Vám vadí, že jsem nezmínil přímo inews.cz, ale to bych musel zmínit nejméně desítku dalších, které nějakým podobným způsobem agregují. Myslím, že to je spíš otázkou na katalog, ne na článek. Krom toho jsem se snažil z těch možných vybrat ty, které jsou nejznámější a určité vlastnosti výjimečné. Každopádně, tenhle článek měl být věnován především těm, které zvládají na rozumné úrovni sdružování zpráv podle tématu, což inews.cz opravdu nedělají.
> spise me slo o ze, kdyz jsem cetl clanek,
> tak me to pripadalo, jako kdyby neco
> takoveho fakt nebylo, neslo mi o inews.cz,
> spise o obecnost.
Musel jste se přehlédnout. Hned v prvním odstavci odkazuji na Právě dnes, Volný Noviny, Novinky - Deníky, Headlines, News Centrum a Jyxo Články. Ty jsou myslím s inews.cz srovnatelné.
opravdu musíte přejímat každou blbost? Opravdu vám není divné, že je zde 35 tisíc uživatelů ADSL když před dvěma týdny to bylo 25 tisíc? Opravdu vám není divné, že ten debil z iHned SČITÁ počty ADSL uživatelů jednotlivých poskytovatelů ačkoliv číslo od Telecomu už tyto počty obsahuje???
A rovnou bych pripojil ze je cirka jedna hodina rano a na novemdnu je zprava o Euro 2004 - presneji o utkani s Danskem, ktera tvrdi ze je stara pet hodin. Vestecka agregace!
No a to sem samozrejme omylem pripojil k odpovedi k nekomu jinemu. Tento clanek se zda byt nakupenim dobrych doporuceni, proc nepsat nic verejneho po nocich.
Stáří u starších zpráv jsou zaokrouhlené na hodiny směrem nahoru - systém samozřejmě zná stáří s přesností na cca 5 minut, ale publikovat údaje typu před 285 minutami (nebo třeba před 27 hodinami 50 minutami) se mi nechce, není to podle mě srozumitelné a ani to k ničemu zvláštnímu neslouží - čas je prostě pro rychlou a hrubou orientaci, kdy se co stalo.