Hlavní navigace

Budoucnost patří sémantickému webu

Martin Kopta 10. 12. 2001

Většinu obsahu dnešního webu tvoří dokumenty, které sice mohou číst lidé, ale počítačové programy si s nimi neporadí. Rozpoznají sice, která část dokumentu je hlavička, která je odkazem na jiný dokument, ale už nepochopí, že jde o domovskou stránku nemocnice a odkaz vede k životopisu lékaře. Právě tohle se se sémantickým webem změní.

Sémantický web je – řečeno muzikantskou terminologií – „šlágr poslední sezóny“. Není se co divit, Tim Berners-Lee, James Hendler a Ora Lassila – tři hlavní architekti sémantického webu W3C totiž slibují, že stroje budou umět číst a rozumně zodpovídat dotazy. Kdy? V podstatě kdykoli.

Co to je ten sémantický web? Význam slova web v tomto kontextu netřeba příliš vysvětlovat. Stejně jako v případě World Wide Webu jde o decentralizovanou síť hypertextovými odkazy vzájemně propojených dokumentů v počítačové síti. Přídomek sémantický pak dává tomuto webu ještě další rozměr. Sémantika je v jazykovědě nauka o významech slov a vyšších jazykových celků. Stručně řečeno, sémantický web taková síť, kde dokumenty obsahují skryté značky, které poskytují informace o významu obsažených dat.

Nechme ale promluvit již zmíněné autory článku The Semantic Web, jenž byl letos v květnu uveřejněn v prestižním časopise Scientific American:

Většinu obsahu dnešního webu tvoří dokumenty, které sice mohou číst lidé, ale počítačové programy, které by s daty mohly smysluplně manipulovat, si s nimi poradit neumí. Počítače jsou zatím schopny rozpoznat, která část dokumentu je hlavička, která je odkazem na jiný dokument, ale už nejsou s to rozeznat, že jde o domovskou stránku nemocnice a odkaz vede k životopisu lékaře.

Vizionáři Berners, Hendler a Lassila si řekli, že doba, kdy umělá inteligence (artificial intelligence) dosáhne takové úrovně, aby stroje byly běžně schopny porozumět mluvenému nebo psanému textu, je ještě daleko, a proto bude daleko snazší, pokud lidé vytvoří systém pravidel --, jakýsi umělý jazyk – který bude určen pro smysluplnou výměnu informací mezi člověkem a strojem a stroji navzájem.

Nejedná se o další počítačový jazyk, který by se lidé museli učit, naopak autoři zde předpokládají, že informační systémy (a zde se nemyslí jen web) jsou dnes de facto vytvářeny jako automatizované systémy, do nichž lidé informace zadávají prostřednictvím promyšlených rozhraní. Pro přidání sémantické hodnoty je tedy jen třeba rozšířit tato rozhraní (obvykle formuláře administračních aplikací) o několik jednoduchých prvků.

Následujícím krokem pak bude úkol naučit uživatelské aplikace, aby informace ze sémantického webu uměly zpracovávat. Ani toto nemusí být tak složité, všechny potřebné nástroje pro zavedení sémantického webu máme totiž již dnes k dispozici a ve velké míře je využíváme. Prvním předpokladem pro sémantický web je vhodný nosič informací – v našem případě to bude značkovací jazyk (markup language)  – zde se uplatní standard eXtensible Markup Language (XML). Druhým předpokladem je pak sada pravidel, která určuje, jak budou jednotlivé významy v dokumentu označovány – zde se osvědčí standard typu Resource Description Framework (RDF). Posledním nutným předpokladem, který je též již splněn, je pravidlo označování zdroje a jeho jednotlivých entit – tyto nároky dokonale splňuje IETF RFC 2396, lépe známé jako Universal Resource Identifier (URI).

Tři výše zmíněné standardy umožňují vložit do dokumentu informaci tak, aby i stroj byl schopen ji správně pochopit. Pokud stroj bude vědět, že křestní jména má hledat uvnitř značky <křestní_jméno>, pak až budete hledat osobu, která se jmenuje Mikuláš, bude ve zdrojových kódech dokumentů webu hledat řetězec <křestní_jméno>Mikuláš</křestní_jméno>. Vyhledávání citlivé na význam slov vám ušetří probírání výsledků dotazu, kdy nalezené slovo Mikuláš označuje město Liptovský Mikuláš na Slovensku. Pokud navíc určíte, že křestní jméno je podmnožina jména, můžete nechat hledat slovo Mikuláš jako jméno a do výsledku budou zahrnuti i lidé, kteří se Mikuláš jmenují příjmením, například Rostislav Mikuláš.

A vaše dotazy mohou jít ještě dál. Autoři v úvodu citovaného článku zmiňují příběh, kdy slečna Lucy telefonuje sestře Pete, aby se dohodly, kam se jejich matka má objednat na odborné vyšetření, protože Lucy už někam spěchá a Pete tedy bude muset matku vyzvednout a odvézt z vyšetření domů. Příběh z běžného života pak pokračuje tím, že si sestry dohodnou, v kterých lokalitách je pro ně v daném čase nejvhodnější setkat se, a Lucy nechá vyhledat odborného lékaře s patřičnou kvalifikací a ordinací v městských částech, které oběma sestrám budou vyhovovat kvůli dopravnímu spojení; lékaře, který ordinuje a má volný termín v požadovanou dobu. To vše je možné pouze díky sémantickému webu.

Hudba budoucnost? Ani náhodou! XML je už dnes hojně využíváno k výměně informací, třeba v obchodním styku. Standard RDF byl aplikován mimojiné i v RDF Site Summary (RSS) – formát RSS slouží k výměně informací o obsahu internetových sídel, využívá jej například Moreover k distribuci odkazů na články. Velmi snadno tak ve vyhledavači, který umí prohledávat dokumenty obsahující notaci RSS, zadáte dotaz na článek od určitého autora a z určité kategorie – nebudete tedy obtěžováni změtí odkazů, kde se název kategorie a jméno autora objevuje také. Když v takovémto vyhledavači budete hledat články Bernerse-Lee, tento dokument vám nabídnut nebude, přestože se tu jméno Berners-Lee objevuje a je tu dokonce zmíněn jeho článek.

Nuže, web začíná dostávat smysl, zatím s tímto smyslem stroje většinou neumějí zacházet, neumějí se třeba učit smyslu informací z dalšího typu dokumentů (pokud umí vyhledávat lékaře, nezvládne se obvykle sám naučit vyhledávání restaurací), nacházíme se ale na počátku vzniku sémantického webu. Za několik málo let třeba nebudeme informace na slepo vyhledávat ve fultextových vyhledavačích, ale budeme pokládat dotazy chytrým sémantickým agentům, které si informace v síti budou umět přečíst. Je to další krok k myslícím strojům.

Anketa

Za jak dlouho se Google naučí prohledávat web podle zde popsaného principu sémantického webu?

Našli jste v článku chybu?

12. 12. 2001 15:52

shrek (neregistrovaný)
Na druhou stranu pokud zacne nezanedbatelne procento uzivatelu webu moznosti semantickeho vyhledavani intenzivne vyuzivat, mnohy webmaster se nad tim podle me zamysli - budto z komercnich duvodu nebo aby nevypadal jako neschopny amater. :-)

12. 12. 2001 11:54

Michal Kubeček (neregistrovaný)
To sice má, ale pokud má být k něčemu užitečný, nemůže vypadat tak, že v něm bude něco jako
  • nemoc: (combobox)
  • stádium: (combobox)
  • prognóza: (combobox)

Má-li to mít smysl, musí tam být pole, kam bude samostatně psát souvislý text. A v tom okamžiku je vše na jeho dobré vůli.

DigiZone.cz: NG natáčí v Praze seriál o Einsteinovi

NG natáčí v Praze seriál o Einsteinovi

Vitalia.cz: Jak vybrat ořechy do cukroví a kde mají levné

Jak vybrat ořechy do cukroví a kde mají levné

Podnikatel.cz: Italové dělají mozzarellu z mléka z Česka

Italové dělají mozzarellu z mléka z Česka

Vitalia.cz: Pravda o přibírání na zimu

Pravda o přibírání na zimu

Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

Podnikatel.cz: Hledáte investora? Neunáhlete se

Hledáte investora? Neunáhlete se

Root.cz: 250 Mbit/s po telefonní lince, když máte štěstí

250 Mbit/s po telefonní lince, když máte štěstí

Podnikatel.cz: Babiše přesvědčila 89letá podnikatelka?!

Babiše přesvědčila 89letá podnikatelka?!

120na80.cz: Popraskané rty? Některé balzámy stav zhoršují

Popraskané rty? Některé balzámy stav zhoršují

Podnikatel.cz: Vládu obejde, kvůli EET rovnou do sněmovny

Vládu obejde, kvůli EET rovnou do sněmovny

120na80.cz: Co všechno ovlivňuje ženskou plodnost?

Co všechno ovlivňuje ženskou plodnost?

DigiZone.cz: Recenze Westworld: zavraždit a...

Recenze Westworld: zavraždit a...

Vitalia.cz: Nahradí sluch, ale zvuk je zcela jiný

Nahradí sluch, ale zvuk je zcela jiný

Měšec.cz: Europlatby: někde bez poplatku, jinde i 350 Kč

Europlatby: někde bez poplatku, jinde i 350 Kč

Root.cz: Telegram spustil anonymní blog Telegraph

Telegram spustil anonymní blog Telegraph

120na80.cz: Stoná vaše dítě často? Upravte mu jídelníček

Stoná vaše dítě často? Upravte mu jídelníček

120na80.cz: Pánové, pečujte o svoje přirození a prostatu

Pánové, pečujte o svoje přirození a prostatu

Vitalia.cz: Dáte si jahody s plísní?

Dáte si jahody s plísní?

Měšec.cz: Kdy vám stát dá na stěhování 50 000 Kč?

Kdy vám stát dá na stěhování 50 000 Kč?

Měšec.cz: Za palivo zaplatíte mobilem (TEST)

Za palivo zaplatíte mobilem (TEST)