Siri je jedna z funkcí, na kterou měl Steve Jobs již pramalý vliv. V té době se potýkal se zdravotními problémy a lidé kolem iOS a iPhone si uvědomovali, jaký náskok získává Google se svou hlasovou technologií. Jenže ani Google se zatím příliš daleko nedostal. Je schopen do jisté míry převádět hlasové příkazy na text, velmi efektní je překlad hlasu z jednoho jazyka do druhého, ale to je tak všechno. Službu v Androidu shazují hlavně problémy s kvalitou záznamu hlasu, což není ani tak problém samotného systému, jako konkrétních telefonů a toho, jak si poradí s potlačováním ruchů. Když není příliš podařené, systém má potíže hlasový pokyn rozpoznat.
Kromě toho Google vlastně se svým hlasovým rozpoznáváním mnoho kouzel ani funkcí ve skutečnosti neuměl. Hlasový vstup sloužil spíše jako náhrada klávesnice, Android se pokusil diktované slovo převést na text, ale jeho význam nerozpoznal. A tím také nemohl navazujícímu programu říct více než ono slovo. Se sémantikou textu Google začal kolem roku 2009 teprve bojovat a nedělal žádné velké pokroky ani na svém vyhledávači.
Sémantické vyhledávání je buzzword roku 2009
Sémantické vyhledávání se sice na přelomu desetiletí stalo buzzwordem internetu, v roce 2007 jsme si říkali, že budeme záhy vyhledávat hlasem - a zmýlili jsme se jen ve firmě, která toho dosáhne. Až na několik výstřelků se vlastně nic nepodařilo dotáhnout do zásadně lepšího stavu, než k jakému se Google propracoval dalším vylepšováním algoritmů vyhledávače mimo sémantickou zónu. Zkrátka a dobře, na to, aby vyhledávač dobře vyhledával, nepotřeboval vlastně ani rozpoznat význam slova, které hledá, nýbrž servírovat dokumenty, které jej obsahovaly a byly hojně linkované.
Google situaci řešil tak, že v únoru 2010 přikoupil za 50 milionů dolarů firmu Aardvark zaměřenou na „sociální vyhledávání“, v daném případě analýzou významu a kontextu zadávané fráze.
V tu dobu ještě Apple neví, že s Aardvarkem Google žádné terno neudělá a službu v září 2011 zruší, přičemž zbytky rozpadlého vývojového týmu převelí na další rutinní vylepšení vyhledávání přes sociální okruh hledajícího. V tu dobu už ale ví, že s Googlem bude ve sporu dlouhodobě a že je důležité se od jeho služeb oprostit všude, kde to jde. Zejména ve vyhledávání.
Má sice dost soudnosti na to, aby neudělal ukvapené kroky jako nezměnitelnou náhradu mizerně hledajícím Bingem, ale chce mít otevřený prosto a nedostat se do závislosti na svém nepříteli. Jenže konkurovat Google ve webovém vyhledávání, to je velmi naivní plán. Ani Apple se všemi svými zdroji si nemůže dovolit pomýšlet na úspěch v něčem tak složitém a rozsáhlém. Vyhledávač Google je na internetu synonymem pro dnešní způsob vyhledávání a šance, že by někdo mohl vytvořit webovou službu, která by jej zásadně překonala, je pramalá. Relevance výsledků vyhledávání Google je momentálně dostatečná k tomu, aby uživatelé neměli důvod ke změně.
Jak porazit Google ve vyhledávání
Jenže Apple si uvědomuje, že Google lze porazit jinak. Lze udělat to, co udělalo již několikrát s úspěchem: v případě iPodu, iPhone a co za chvíli udělá s iPadem. Jak se Apple stalo největším prodejcem hudby? Ne tím, že otevřelo více obchodů s Cdčky za lepší ceny nebo nakoupilo nejrychlejší lisovnu stříbrných kotoučů, ale tím, že vytvořilo nový trh, ten ovládlo a vytěsnilo jím trh starý. A to je strategie, kterou Apple ovládlo dobře. Šlo o to vytipovat klíčová místa, kde je možné takovou páku nasadit. Kde je možné včas vytvořit předpolí, to opevnit a zajistit a pak už jen zpovzdálí a zpoza valu patentů a jiných obranných opatření postřelovat konkurenci.
Apple jako klíčový bod k průlomu na trh vyhledávání vytipovalo právě sémantickou hlasovou analýzu, tedy rozpoznávání hlasových pokynů, jejich převod na význam a vyřešení. Něco, co generace futurologů nazývají umělou inteligencí. Proč?
Protože uživatel potřebuje položit otázku a získat na ni odpověď. Pro uživatele je rovněž často vhodnější vynechat z pokládání otázky klávesnici, ale položit ji hlasem. Mějme na paměti, že v USA tráví mnoho času lidé v autě nebo jiném dopravním prostředku, kde psaní není možné nebo není ani dovoleno. A bylo by skvělé, kdyby zde mohli vyřídit svoji základní agendu. Najít restauraci, naplánovat v ní schůzku. Tedy všechno, co zařídíte s Googlem. Jenže... proč byste to vlastně nemohli vyřídit jinak? Když už máte telefon, čas a nemáte možnost psát, proč tedy ne hlasem?
Je třeba najmout Siri
V dubnu 2010 Apple kupuje prakticky neznámou společnost Siri, jejímž jediným viditelným produktem je program Siri Assistant v App Store. Částka, za kterou si Apple Siri pořídil, nebyla oznámena, ale odhaduje se v rozmezí 100-200 milionů dolarů. Co ale vzrušuje odborníky více, je to, k čemu by Apple mohlo Siri potřebovat. Na první pohled jde jen o další aplikaci vezoucí se na pokusech o rozpoznávání a zpracování hlasu.
Jenže za Siri je o něco více než pouťová atrakce. Společnost založila v roce 2007 trojice výzkumníků, kteří se před tím podíleli na projektech DARPA a univerzitních výzkumech rozpoznávání přirozeného jazyka: výkonným ředitelem společnosti je Dag Kittlaus, šéfem vývoje Adam Cheyer a Tom Gruber je technickým ředitelem.
Siri toho neuměla málo. Používala rozpoznávání řeči od Nuance, vývojáři se tedy nezabývali samotným rozpoznáváním hlasu, ale zpracováním významu a kombinováním informačních zdrojů. Mohli jsme Siri požádat o to, aby vám vyhledala dobrou italskou restauraci v okolí a ona zkombinovala několik zdrojů dat, aby vám doporučila tu správnou. Dokonce uměla přes OpenTable zarezervovat stůl.
Samotné hlasové ovládání měl již iPhone 3GS v roce 2009 a nebylo to nic mimořádného. Siri je ale něco více. Je to opravdový digitální asistent, který reaguje na to, co říkáte a není jen hlasovým spouštěčem předdefinované funkce. Umí kombinovat zdroje, má přístup do rozsáhlé znalostí knihovny Wolfram Alpha i Wikipedie, využívá Google, Bing i Yahoo. Můžete se jí zeptat, kolik zbývá dní do Vánoc a Siri odpoví přesným číslem.
Uvedení Siri na trh koncem roku 2011 bylo velmi úspěšné. Pravda je, že nejdříve k Siri panovala určitá skepse. Mobilní telefony měly k dispozici již dříve řadu „hlasových asistentů“, jenže vždy šlo o jednoduché funkce, jejich možnosti končily u vyhledání kontaktu a zavolání jej. Siri byla úplně jiná kvalitativní třída.
Majitele iPhone 4 ovšem silně zklamalo, že v iOS 5 pro ně nebyla dostupná. Apple Siri zprovoznil pouze v novém 4S. Nejdříve za tím byla spatřována obchodní politika firmy, Apple se tak mělo snažit prodat více nových telefonů a firma samotná to komentovala velmi vágně „nedostatečným výkonem“. To bylo poněkud podivné, protože procesor A4 je sice pomalejší, jenže Siri stejně většinu dat posílala ke zpracování na server, takže největší práci dělal vzdálený počítač, nikoliv samotný iPhone.
Nakonec se ukázalo, že rozdíl je opravdu v procesoru. Apple se totiž dohodlo se společností Audience na integraci jejich technologie pro potlačování rušivých zvuků EarSmart přímo do čipu A5. Tímto způsobem významně zredukovalo chyby v rozpoznávání a zvýšilo kvalitu výstupu Siri a to je zřejmě také hlavní důvod, proč Apple nepustí Siri do nižších verzí iPhone, které mají jednodušší obvody pro redukci ruchu.
Se Siri je legrace
Siri přímo vybízela k řadě pokusů. Tak především se celá řada lidí pokusila rozluštit její protokol pro komunikaci se serverem, což bylo korunováno úspěchem a pro jailbreaknuté telefony vznikla celá řada alternativ. Siri je dokonce možné rozchodit na starších iPhonech, ovšem s tím, že rozpoznávání hlasu není tak precizní – řešení se jmenuje Spire, ale je to staré dobré použití jailbreaku se všemi klady i zápory takového postupu.
Hackování Siri vedlo k zajímavým pokusům, jako je nastavení termostatu topení, startování auta na dálku hlasovým příkazem či vybrání vhodného televizního programu a jeho spuštění na set-top-boxu. Je ovšem možná vhodné připomenout, že tato ovládání se týkala programovatelných zařízení, například šlo o termostat ovládaný počítačem, nikoliv termostatickou hlavici na tělese topení. Tu bude stále nejlépe ovládat vaše ruka. Apple velmi rozsáhle z hackerské komunity těží a řadu vývojářů najal právě z prostředí kolem jailbreaku jeho telefonů. Ačkoliv jailbreak nijak nepodporuje ani neusnadňuje, pokud jeho podkladem není bezpečnostní chyba, neblokuje jej nijak aktivně.
Na trh se dostávají i neoficiální rozšíření, prvním takovým byla v lednu 2012 Lingual, opět fungující jen pod jailbreakem. Lingual umožní Siri překlady do třicítky jazyků.
Objevily se i pokusy, zda Siri projde Turingovým testem, tedy zda je první skutečnou umělou inteligencí, tady je ale dlužno dodat, že Siri je velmi submisivní umělá inteligence, zaměřená na plnění příkazů svého pána či paní, takže nedalo příliš mnoho práce ji v turingově testu odhalit, ačkoliv jinak jsou její odpovědi velmi sofistikované a námětem častých vtípků i překvapení.
Siri je velmi mladý program, který svou slávu prožívá vlastně od té doby, co jej Apple v říjnu 2011 „znovupředstavilo“. To také znamená, že svou pozici a odezvu teprve hledá, ale dostalo se jí vřelého přijetí. Stala se předmětem řady převážně dobře míněných vtipů a nápadů a dostala se až do filmu. V seriálu Teorie velkého třesku se do Siri v telefonu beznadějně zamiluje Raj Koothrappali...
A jen tak mimochodem, zajímavé je, že o Siri se uvažuje výhradně v ženském rodě, ačkoliv angličtina pro Velkou Británii je namluvena mužským hlasem, zatímco australská a americká angličtina jsou ženské.
Pro úspěch je třeba ještě udělat hodně
Siri byla původně uvedena na trh v angličtině, němčině a francouzštině, chystají se i další jazykové verze. Ostatně, na internetu se objevily informace o tom, že Siri na sebe sama prozradila (ovšemže při výslechu), že ještě v létě 2012 bude japonská, ruská verze a mandarínská čínština.
Nyní půjde hodně o to, jak se Apple podaří Siri dále vylepšovat a reagovat na požadavky trhu. Opět to nemá jednoduché, proráží cestu tam, kde se pohybuje sám vpředu před ostatními a kde nemá, podle čeho se zorientovat.
Například v USA Siri ztěžuje pozici to, že neumí španělsky, ignoruje tedy 12 % obyvatelstva. Integrace nových jazyků, nových informačních zdrojů, rychlý posun do dalších regionů, dost možná odkoupení firmy Wolfram Alpha, jejíž analytika a znalost strojového zpracování netříděných dat je základem části kvalitních výsledků Siri.
To jsou úkoly pro Apple, pokud chce změnit svět vyhledávání tím, že jej od základu změní. Je to bláhové? Možná. Ale malý ten, kdo má malý cíl a Apple nikdy neumělo cílit dost nízko.
V každém případě jde o zajímavý pokus, jak omezit nadvládu Google nad vyhledáváním, a je třeba Apple přičíst kladné body za to, že pochopilo, že řešením není lepší kopie Google vyhledávače...