U iDnes maji tak trochu chybku (mozna je to vlastnost :-))) Zkuste nahore na www.idnes.cz misto "kandahar" zadat "kandahár" - a razem mate odkazy na nejnovejsi zpravodajstvi... Holt ta cestina...
Vidím. Podle pravidel češtiny je Kandahár správně, ale netuším, proč se samohlásky automaticky nepřevání na krátké a oháčkované souhlásky na neoháčkované. Myslel jsem, že převod na ASCII je normální věc. Zvláště protože lidé používají různá kódování češtiny...
To by někde musel být přece převodní program!
Každý přece převezme hotový program pro indexování a přece se nebude zajímat, jak do něj zabudovat překódování do ASCII. V angličtině něco takového také není potřeba.
Jedině to vyjde dobře, když na WWW-serveru je automatické překódovávání češtiny a indexovací program posílá takové http-hlavičky v požadavcích, že se překódovává do ASCII. Ale když většinou naše zpravodajské servery mají jedině a pouze 1250... Stejně prý uživatelé nechtějí nic jiného.
Je pekne hrat si na vestce, ale Google announcovany semanticky web nepouziva. Jedine, co umi, je rozlisit, ze nektere dokumenty jsou newsy a nektere stranky se aktualizuji casteji. Z nepritomnosti ceskych periodik je jasne znat, ze tyto informace o newsech jsou RUCNE vlozene ze strany Google.
O RDF, XML ani jinych pouzivanych formatech se ve zprave od Google nedoctete... coz o to: muze je pouzivat, protoze poskytuji vicemene standardizovany format, jak rozlisit titulek/popisek/datum, atd., ale stejne tak dobre muze spolehat na samotne HTML a strukturu odkazu, coz je vec, kterou zvlada dobre.
Navic semanticky web je daleko sirsi pojem - muze rozlisovat az na uroven slov (viz zminovany <doktor>Radim Uzel</doktor>), RSS a RDF pouze podavaji ta nejzakladnejsi metadata.
Vsak ja tam nerikam, ze by Google indexoval z exportnich souboru nebo nedejboze rovnou ze zdrojaku napsaneho vcetne notaci. Ale mysli, ze to je dalsi krok.
Děje se něco s http://www.empyreum.cz ?
Vrací mi to jen prázdnou stránku, ale odkaz http://fulltext.empyreum.cz/designer.php?s=kandahar funguje správně.
Proč?
Nevim, skoly nemam, ale kdyz se podivam na fulltext Empyreum - iDNES tak se mi po zadani odkazu Kandahar zobrazi aktualni clanky (z dneska 8.01). Staci kliknout na obrazek. Tak nevim co byste chteli vic ?
ac jejich autori tvrdi, ze jsou lepsi, tak jednoduse nejsou :) a rozdil neni pouze v objemu zaindexovanych dat.
Nebo snad se nekdo snazi tvrdit, ze kdyby Centrum, Seznam, Empyreum atd. zakoupili par nabusenych pocitacu a par TB diskoveho prostoru a pres noc (vzdyt tvrdi, ze indexovani probehne v cuku letu) zaindexovali *.com (nebo rovnou * :), tak by vsichni lidi po svete nepsali do prohlizece altavista.cz, ale treba seznam.cz?????
HA HA HA!
Tim nechci shazovat mistni programatory (nektere cizi prohledavace take za moc nestoji), ale obavam se, za tato doba je daleko.
Uz se tesim na dalsi srovnavaci clanek. Muzete treba porovnavat zdnet.com a zive.cz :)))) No to se zase nasmejeme!
(jee, ted jsem si uvedomil, ze sem pan Hlavenka rad prispiva... Cha chaaaa. Nic si z toho nedelejte, vzdyt Zive je navstevovany server.. ;)
na fulltextu idnesu http://hledej.idnes.cz se po zadani slova kandahár i kandahar zobrazi link s obrazkem na hledane slovo a po kliknuti se zobrazi presne takove zpravy, ktere od toho ocekavam a z dneska. Stejne tak i na jina slova napr.Ladin , teror, usa a dalsi slova z oblasti jako treba hudebni interpreti a skupiny a mnoho dlasich. Tak nevim ale zpravy ktere budou az zitra asi zadny fulltext nezobrazi :-) .
No, hezky jste psal o sémantickém popisu webu, ale trochu vám ušla dost důležitá věc. K významovému popisu obsahu webu se používá XML, v danném případě jeho subset NewsML. NewsML se v tomto případě prosazuje docela dost, samozřejmě v zahraničí a samozřejmě hlavně tam, kde se takové informace používají primárně, jako Reuters atd. Do vyhledávačů podpora NewsML nedorazila.
Já si nejsem jistý, jestli by to ještě byl vyhledavač (fulltext), ale asi ano. Na NewsML jsem také často narazil, ale RDF/RSS vychází také z XML (jinak řečeno, je to XML) a neměl by být problém mezi těmito dvěma formáty přecházet -- IMHO je to lhostejno. Jen RSS má (se svou modularizací a podporou Dublin Core) větší uplatnění a jelikož tu máme co dočinění s XML, pak není problém zapsat značky obou třeba zároveň... Ale jak jsem koukal, mnohdy by to bylo redundantní. Vpodstatě stačí se rozhodnout.
Servery jako Moreover běžně nabízejí výstupy v Plain Text, WML (XML), OCS, RSS, CDF, EDDX, CF, WebPart, Flash, texťák s tabulátory, HTML... Do ostatních si to můžete převést z toho, který vám bude nejblíže.
Je lhostejno, jestli server použije NewsML nebo RSS, důležité je, že takto poskytnuté informace se dají strojově zpracovávat.
RSS je především formát pro popis linkování, nikoliv pro popis struktury linkovaného dokumentu. NewsML je zaměřeno právě na to, aby umělo v článku dát do vsoustažnosti geografické, korporátní a jiné souvislosti a vytvářet mezi nimi později váhové vazby. Jaký je v tom rozdíl zjistíte v okamžiku, kdy začnete pracovat nad databází desítek milionů článků, jaký ma AP či Reuters a budete se snažit najít něco o politické situaci v Kandaháru na konci Nadžibuláhovy éry :)
Myslim, ze pokud do cele zalezitosti zacneme mihat i temporalni databaze vcetne prostorovych (geografickych), pujdeme nad ramec textovych policek zde na Lupe. Tedy ne ze by me to vadilo, ale snad to ctou i "normalni" lidi.
Velky rozdil mezi RSS a NewsML osobne nevidim. NewsML podle meho nazoru umi byt lepe zapojeno do vyhledavacu jine generace, tj. stroju, kde informace hleda ctenare, nikoliv jak je tomu nyni - ctenar hleda informaci.
Ovsem pro kvalitni vykon systemu (jeho presnost) to bude mit pouze vyznam v tom, ze lide, co zaplavuji inet spoustou zbytecnosti, do NewML asi nepujdou. Tim bude mozna tento standard prospesny - bude obsahovat predevsim kvalitni informace.
Ale zustava fundamentalni otazka - je lepsi "inovace" a maximalni "pohodli" ve stylu XML, nebo drevni prace jako dosud? V druhem pripade muzete jiste veci odhalit, v tom prvnim kdyz nekdo bude tvrdit <BIRTH>30.4.2071</BIRTH><DEATH>45.13.1972</DEATH>, tak s tim nic neudelate... To prvni razi Microsoft v oblasti uzivani O/S, druha moznost vice odpovida Unixu. Choose your poison! :-)
Já to pochopil tak, ze MS ve Wordu sice pouziva XML, ale jen k oznaceni formatovani, coz je naprd. Kdezto rucni editace zdrojoveho kodu vede k tomu, ze tvurce hledi i k vyznamu prvku... Pochopil jsem dobre?
Ja to myslel tak (cestina neni muj 1. rodny jazyk), ze kdyz se pouzije prilis mnoho ficur, ktere svazuji uzivatele natolik, ze nema prilis variabilniho prostoru, tak muze dojit k paradoxu, kdy efektivita takoveho aparatu je ve skutecnosti nizsi nez naprosta svoboda (rozumejte chaos).
Viz. pripady "Microsoft" v. "Unix-like", a je otazka, zda "XML" v. "totalni chaos formatu kupr. HTML" neni obdoba. Aspon jeste nikdo nepodal studii nebo dukaz, ze by XML byl skutecne prinos ve kvalite. A tento dukaz neexistuje ani v teorii, pokud muj prehled v dane oblasti saha. Je to jen ubecne uznavany predpoklad, ale take se verilo, ze v roce 2000 budeme travit dovolene na Mesici...
Domnivam se, ze WEB nerovna se informace o udalostech. Semanticke vyhledavace (ci spise to, co pod timto slovnim spojenim chapete zde v kontextu Vasi diskuze) maji implementovane napr. v U.K., kde jde o vyhledavace do jejich RAE DB.
Stejne jako tvrzeni, ze pro popis webu se uziva XML je ponekud prilis siroke, protoze XML je opravdu velmi siroky pojem, a rozhodne nemusi platit, ze semantiku lze vyjadrit jakoby vyhradne v XML.
A nakonec se trosku vyjadrim i k tomu, ze do vyhledavacu NewsML jeste nedorazilo. Pozitivne vim o jednom vyhledavaci, ktery pracuje vyhradne nad XML standardy, ktery by to zajiste pojmul, kdyz NewsML je "jen aplikace" XML. Tento vyhledavac jsem totiz psal osobne :-). Bohuzel v Ceskych koncinach nebezi, protoze o jeho provoz meli zajem (bohuzel) vyhradne za louzi. Je to mozna skoda...