Sémantický web je – řečeno muzikantskou terminologií – „šlágr poslední sezóny“. Není se co divit, Tim Berners-Lee, James Hendler a Ora Lassila – tři hlavní architekti sémantického webu W3C totiž slibují, že stroje budou umět číst a rozumně zodpovídat dotazy. Kdy? V podstatě kdykoli.
Co to je ten sémantický web? Význam slova web v tomto kontextu netřeba příliš vysvětlovat. Stejně jako v případě World Wide Webu jde o decentralizovanou síť hypertextovými odkazy vzájemně propojených dokumentů v počítačové síti. Přídomek sémantický pak dává tomuto webu ještě další rozměr. Sémantika je v jazykovědě nauka o významech slov a vyšších jazykových celků. Stručně řečeno, sémantický web taková síť, kde dokumenty obsahují skryté značky, které poskytují informace o významu obsažených dat.
Nechme ale promluvit již zmíněné autory článku The Semantic Web, jenž byl letos v květnu uveřejněn v prestižním časopise Scientific American:
Většinu obsahu dnešního webu tvoří dokumenty, které sice mohou číst lidé, ale počítačové programy, které by s daty mohly smysluplně manipulovat, si s nimi poradit neumí. Počítače jsou zatím schopny rozpoznat, která část dokumentu je hlavička, která je odkazem na jiný dokument, ale už nejsou s to rozeznat, že jde o domovskou stránku nemocnice a odkaz vede k životopisu lékaře.
Vizionáři Berners, Hendler a Lassila si řekli, že doba, kdy umělá inteligence (artificial intelligence) dosáhne takové úrovně, aby stroje byly běžně schopny porozumět mluvenému nebo psanému textu, je ještě daleko, a proto bude daleko snazší, pokud lidé vytvoří systém pravidel --, jakýsi umělý jazyk – který bude určen pro smysluplnou výměnu informací mezi člověkem a strojem a stroji navzájem.
Nejedná se o další počítačový jazyk, který by se lidé museli učit, naopak autoři zde předpokládají, že informační systémy (a zde se nemyslí jen web) jsou dnes de facto vytvářeny jako automatizované systémy, do nichž lidé informace zadávají prostřednictvím promyšlených rozhraní. Pro přidání sémantické hodnoty je tedy jen třeba rozšířit tato rozhraní (obvykle formuláře administračních aplikací) o několik jednoduchých prvků.
Následujícím krokem pak bude úkol naučit uživatelské aplikace, aby informace ze sémantického webu uměly zpracovávat. Ani toto nemusí být tak složité, všechny potřebné nástroje pro zavedení sémantického webu máme totiž již dnes k dispozici a ve velké míře je využíváme. Prvním předpokladem pro sémantický web je vhodný nosič informací – v našem případě to bude značkovací jazyk (markup language) – zde se uplatní standard eXtensible Markup Language (XML). Druhým předpokladem je pak sada pravidel, která určuje, jak budou jednotlivé významy v dokumentu označovány – zde se osvědčí standard typu Resource Description Framework (RDF). Posledním nutným předpokladem, který je též již splněn, je pravidlo označování zdroje a jeho jednotlivých entit – tyto nároky dokonale splňuje IETF RFC 2396, lépe známé jako Universal Resource Identifier (URI).
Tři výše zmíněné standardy umožňují vložit do dokumentu informaci tak, aby i stroj byl schopen ji správně pochopit. Pokud stroj bude vědět, že křestní jména má hledat uvnitř značky <křestní_jméno>
, pak až budete hledat osobu, která se jmenuje Mikuláš, bude ve zdrojových kódech dokumentů webu hledat řetězec <křestní_jméno>Mikuláš</křestní_jméno>
. Vyhledávání citlivé na význam slov vám ušetří probírání výsledků dotazu, kdy nalezené slovo Mikuláš označuje město Liptovský Mikuláš na Slovensku. Pokud navíc určíte, že křestní jméno je podmnožina jména, můžete nechat hledat slovo Mikuláš jako jméno a do výsledku budou zahrnuti i lidé, kteří se Mikuláš jmenují příjmením, například Rostislav Mikuláš.
A vaše dotazy mohou jít ještě dál. Autoři v úvodu citovaného článku zmiňují příběh, kdy slečna Lucy telefonuje sestře Pete, aby se dohodly, kam se jejich matka má objednat na odborné vyšetření, protože Lucy už někam spěchá a Pete tedy bude muset matku vyzvednout a odvézt z vyšetření domů. Příběh z běžného života pak pokračuje tím, že si sestry dohodnou, v kterých lokalitách je pro ně v daném čase nejvhodnější setkat se, a Lucy nechá vyhledat odborného lékaře s patřičnou kvalifikací a ordinací v městských částech, které oběma sestrám budou vyhovovat kvůli dopravnímu spojení; lékaře, který ordinuje a má volný termín v požadovanou dobu. To vše je možné pouze díky sémantickému webu.
Hudba budoucnost? Ani náhodou! XML je už dnes hojně využíváno k výměně informací, třeba v obchodním styku. Standard RDF byl aplikován mimojiné i v RDF Site Summary (RSS) – formát RSS slouží k výměně informací o obsahu internetových sídel, využívá jej například Moreover k distribuci odkazů na články. Velmi snadno tak ve vyhledavači, který umí prohledávat dokumenty obsahující notaci RSS, zadáte dotaz na článek od určitého autora a z určité kategorie – nebudete tedy obtěžováni změtí odkazů, kde se název kategorie a jméno autora objevuje také. Když v takovémto vyhledavači budete hledat články Bernerse-Lee, tento dokument vám nabídnut nebude, přestože se tu jméno Berners-Lee objevuje a je tu dokonce zmíněn jeho článek.
Nuže, web začíná dostávat smysl, zatím s tímto smyslem stroje většinou neumějí zacházet, neumějí se třeba učit smyslu informací z dalšího typu dokumentů (pokud umí vyhledávat lékaře, nezvládne se obvykle sám naučit vyhledávání restaurací), nacházíme se ale na počátku vzniku sémantického webu. Za několik málo let třeba nebudeme informace na slepo vyhledávat ve fultextových vyhledavačích, ale budeme pokládat dotazy chytrým sémantickým agentům, které si informace v síti budou umět přečíst. Je to další krok k myslícím strojům.