Hlavní navigace

Ben Gomes: Vyhledávání hledá jehlu v kupce sena (1)

28. 5. 2012
Doba čtení: 13 minut

Sdílet

S čím se potýká vyhledávání u Google a jak se mění a bude měnit? O co vlastně Google všemi změnami usiluje a kam míří? Máme se bát o soukromí? Co nového ve vyhledávání se chystá? To byly hlavní směry rozhovoru s Benem Gomesem, jedním z nejvýše postavených lidí v Google, odborníkem právě na vyhledávání.

Ben Gomes, „Distinguished Engineer“ u Google. Dříve. Nyní viceprezident a „Google Fellow“, jedna z nejvyšších pozic u Google. Jeden z důležitých lidí, kteří se v Google starají o vyhledávání je u Google přes deset let. Podílel se například na vzniku Google Instant, tolik diskutované funkčnosti, která je dnes užitečnou součástí Google.

Poznámka: S Benem Gomesem jsem se setkal v Praze, zatímco on seděl v Google v USA. Spojilo nás Google Hangout a nahrávat tenhle hodinový hovor bylo docela napínavé, stejně napínavé jako ho z nahrávky dostat do české podoby. Ze všech rozhovorů s poslední doby bylo v nahrávce nejvíc míst, kde bylo špatně rozumět. Výsledek je ale, řekl bych a pevně doufám, hodně zajímavý. A případně prosím omluvte některé vzniklé nedostatky. 

Abychom vás trochu přiblížili čtenářům… Zjistil jsem, že jste vysoce postavený inženýr… 

Ano, byl mi dokonce udělen titul Google Fellow, což je ekvivalent vice-prezidenta…

Pro Google jsem začal pracovat před téměř 13 lety, je to nějakých dvanáct a půl roku, a pracoval jsem pravděpodobně ve vícero oblastech poskytování služby než kdokoli jiný ze skupiny. Začínal jsem v oblasti pageranků a polling indexování v době, kdy jsme měli 50miliónový index a trvalo to čtyři týdny jej načíst a vytvořit, a nyní to děláme tak, že dokážeme dokumenty z webu dodat uživateli někdy i ve zlomku minuty. V tom smyslu je to tedy před dlouhou dobou. 

Pak jsem dělal několik let ranking a pracoval jsem také na některých moderních rysech, jako je oprava pravopisu apod., a teď převážně vedu skupinu, která pracuje na takových věcech, jako je Google Instant, opravy v reálném čase a mnoho dalších vlastnostech mezi rankingem a výsledky vyhledávání. Co se týče mě, chtěl jsem strávit celou svoji kariéru ve vyhledávání, a proto nevím tolik o ostatních součástech Googlu, ale vím toho docela dost o různých aspektech vyhledávání.

Takže Google Fellow je tedy lepší?

No ano… s tím bych souhlasil.

Takže vysoce postaveným inženýrem už nejste…

Ne.

Jste tedy nyní Google Fellow… Co to tedy znamená, jaký je smysl této pozice?

V Silicon Valley vznikla taková tradice, že lidé ve firmách byli schopni získat v rámci firmy vyšší postavení na technické úrovni. To znamená, že vynikající technická práce vás ve společnosti vynese nahoru a Google Fellow je titulem pro takové případy… a proto je výrazem vynikající kvality technické práce a na té úrovni je také pozice vice-prezidenta, v Googlu je to vice-prezident… 

Mluvíte o vice-prezidentovi… Kolik je kroků mezi pozicí vice-prezidenta a Fellow…? 

Ne, ne, ne, tak to není… Totiž…

Dělám si legraci, dělám si jen legraci…  Dobře, pojďme tedy mluvit o sociálním vyhledávání, ano?

Ano…

SOCIÁLNÍ VYHLEDÁVÁNÍ

Jedná se o cosi velice zvláštního a každý o tom mluví… Každý tvrdí, že to nechce, atd. Mohl byste nějakým způsobem jednoduše a stručně popsat sociální vyhledávání? 

Jde o to, že můžete získat více informací, než kolik je k dispozici na webové síti… Existují informace, které považujete za soukromé, a informace, které vám byly poskytnuty buď veřejně, anebo soukromě. Úkolem sociálního vyhledávání je poskytnout vám veškeré informace, a to z celého světa, tj. veřejné informace dostupné prostřednictvím univerzálního vyhledávání i informace, které byly vám a vašim přátelům sděleny veřejně nebo soukromě.

Můžete tak získat informace, které vám byly v minulosti nedostupné. V mém případě, například, dotazy, které pro mne v minulosti nic neznamenaly, jako třeba jméno mé sestry, mají dnes smysl. Mohu ji vepsat do vyhledávače a získat její fotografie… 

Mohu hledat člověka jménem Ben Smith a obdržet nejenom jeho fotografie, ale také fotografie jeho  dětí včetně jeho komentářů, které nedávno umístil na Google Plus, atd. 

Takže díky sociálnímu vyhledávání dostáváte během jednoho kroku veškeré informace z celého světa, zejména pak informace, ke kterým máte přístup právě vy, tudíž informace, které vám byly poskytnuty veřejně nebo soukromě…  

To ale pak znamená, že musíte mít přátele nebo nějaké kontakty na internetu. Je to tak?

Víte, své soukromé informace vlastníte tak jako tak, a to včetně svých soukromých složek, svých soukromých komentářů, atd., ale máte pravdu, potřebujete kontakty na internetu… a my jsme pro vás připravili rámec, který vám to usnadní.  

A znamená to, že potřebujete nějaké kritické množství kontaktů, aby to bylo užitečné? Jde o to, že pokud jich je málo, nemůžete docílit kvalitu nebo vyprodukovat užitečné informace … jak se na to dívá Google? 

Naším cílem bylo pokrýt co největší množství těchto kontaktů … proto jsme toho názoru, že na síti je k dispozici hodně informací pro hodně lidí a hodně uživatelů služeb společnosti Google… a zbytek vytvoříme časem. 

Ale i tak jsou k dispozici vaše osobní údaje, které jsou pro vás důležité bez ohledu na to, zda jiní lidé s vámi informace sdílejí nebo ne. Určité aspekty a vaše osobní údaje již jsou užitečné, a informace, které s vámi budou lidé sdílet, jsou již dnes důležité pro některé uživatele služeb společnosti Google, kteří již využívají další služby. V budoucnosti budou stále užitečnější i jiným uživatelům, jakmile se připojí.  

Chápu. Snažíte se tedy využít veřejně sdílené informace a není o tom pochyb. Nicméně, stále je potřeba, aby lidé něco sdíleli, a vy musíte být schopni vytvářet propojení mezi těmito lidmi a vámi.

Správně.

A jste si skutečně jisti potřebou sociálního vyhledávání… není klasické vyhledávání naprosto dostačující?

V zásadě jde o to, že se jedná o informace, ke kterým máte přístup… Takže existují určité druhy vyhledávání, která jste v minulosti realizovat nemohl, a která můžete provádět dnes a která mají smysl.

Mohl byste tvrdit, že se snažím zaměřit se na sociální index. Do určité míry to tak funguje, samozřejmě, ale existuje spousta věcí, které pomocí tohoto indexu dělat nemůžete, protože údaje nejsou k dispozici. A i když jsou podobné údaje k dispozici, obdoba platí pro univerzální vyhledávání, což chápete.

Můžete do vyhledávače vložit jméno Martin Luther King, ale neobdržíte videa nebo fotografie Martina Luthera Kinga. Můžete vyhledávat informace o Obamovi, ale zprávy o něm se vám nezobrazí. Nějaké informace dostanete, ale ne všechny informace, ke kterým máte přístup a o které se můžete zajímat. Takže existuje dotazování, které je proveditelné pomocí sociálních údajů, a které v minulosti možné nebylo. 

Takže svým způsobem spoléháte na sílu lidských bytostí celého světa… v tom smyslu, že vám pomohou vytvořit dokonalejší index.

Mám pocit, že tomu tak bylo vždy, a to v i případě webové sítě. Webovou síť vytvořily lidské bytosti celého světa a my jsme využili práci lidí celého světa, abychom zpřístupnili informace lidem celého světa…

Hmmm, ano, to je ale odlišný způsob budování…

…a našim cílem je shromáždit všechny tyto informace a zpřístupnit je každému.

Ale ta druhá věc je pravděpodobně, jak si někteří lidé myslí, jenom ukázka současné neschopnosti společnosti Google zachytit sociální vlnu, tedy sociální  média… Jinými slovy, snažíte se pouze zachytit cosi, co vám uniká.

Jsme toho názoru, že tyto informace, vaše informace, a informace, které s vámi lidé sdílejí, jsou pro lidi důležité a chtějí mít k nim přístup. A naším cílem při vyhledávání je vždy udělat všechno možné, abyste obdržel veškeré informace dostupné na webu. Některé údaje jsou samozřejmě omezené a my k nim stále nemáme přístup.

Přesně, jako například Facebook.

… a co v rámci údajů, ke kterým máme přístup?

Máte na mysli údaje na Facebooku, který představuje největší databázi sociálních údajů?

Ano, ale údaje, ke kterým máme přístup, umíme zpracovávat a zpřístupňovat je.

SOCIÁLNÍ VYHLEDÁVÁNÍ A PAGERANK

Ovlivní sociální vyhledávání page rank ve tradičním slova smyslu?

Dnešní hodnocení stránek zahrnuje mnohem více faktorů než jen page rank. Při hodnocení se zvažuje více než 200 faktorů. A při vzniku sociálního vyhledávání najednou zvažujete úplně nový faktor, že? S kým jsou lidé propojeni? Jak silné je propojení s těmito lidmi? A tak dále to, co si dokážete vybavit. A najednou se tyto nové nástroje stávají součástí vyhledávání. 

Takže ano, vliv na hodnocení existuje. V určitém okamžiku budeme schopni říci, zda a jak je hodnocení ovlivňováno, ale vliv existuje.

Page ranking je jeden z mnoha signálů, které ovlivňují hodnocení stránek. Page ranking je jeden z nejúžasnějších nástrojů k hodnocen, je to ve skutečnosti projekt, na kterém jsem pracoval po mém nástupu do společnosti Google.

A vidíte rozdíl mezi sociálním grafem a znalostním grafem ve smyslu tohoto kontextu?

Ano. Nicméně se domnívám, že existují velmi podobné koncepce, ale nepředstavují stejnou věc. Tudíž znalostní graf představuje v jistém smyslu všechny entity světa a zahrnuje i lidi celého světa, včetně spojení mezi nimi. Ale znalostní graf zahrnuje mnohem více. Obsahuje pochopitelně znalosti o víře, prvky periodické tabulky, druhy zvířat, všechny věci, které nejsou na první pohled zřejmé, nebo ke kterým nemáme osobní vztah.  

Jak plánujete vybudovat znalostní graf v této oblasti, protože v dnešní době se snažíte pouze o přenos sociálního grafu na spojení mezi lidmi…

Ano, znalostní graf – Máte-li na mysli vyhledávání, pak jsme ušli dalekou cestu. Aa máte-li na mysli informace z doby, kdy jsem vyrůstal, údaje vládly světu. Máte pocit, že když máte k dispozici dobrou knihovnu, budete mít moc nad lidmi. Takže například nějaká univerzita má vynikající knihovnu, takže má obrovskou výhodu oproti univerzitám třetího světa.

Já pocházím z Indie, což je země třetího světa, která neměla přístup k takovým informacím, samozřejmě. (např. 100 miliónů svazků, miliony knih, atd.) to byla velká výhoda. Takže lidé s přístupem k těmto informacím mají velkou výhodu. 

Dalším krokem tohoto všeho byla otázka, co se s těmito údaji stalo. A ta se stala mnohem jasnější díky přístupu ke správným informacím, které potřebuji a které jsou obsaženy v ohromné sbírce údajů. A to je v dnešní době nesmírně důležité. Víte, o čem by se mluvilo a mluvilo a najednou by se to stalo součástí Googlu. Takže přístup k určité důležité informaci bylo přesně to, o čem přemýšlela společnost Google. 

Nesnažila se ve skutečnosti odpovědět na vaši otázku, ale jejím cílem bylo poskytnout vám informaci nebo údaje, které posloužily jako odpověď nebo byly blízko toho, na co jste se ptal. Posunuli jsme se blíže k tomu, co nazýváme znalost, ale v podstatě se jedná o odpovídání na otázky. 

Znalostní graf je tedy na cestě?

S tím souvisí řada aspektů, a to v oblasti konkrétní odpovědi na vaši otázku, přičemž se jedná i o budování znalostního grafu, který představuje svět. 

Proto vidíte počátky toho, co obsahuje hodně informací. V tomto kontextu se snažíme vybudovat znalostní graf, který umožní odpovídat na mnohem více otázek. Zeptáte-li se dnes Googlu na výšku budovy Empire State Building, požadovaný údaj obdržíte. Jedná se však o pouhý dětský krůček na dlouhé cestě. 

Jistě si umíte představit, že budeme moci odpovídat na mnohem složitější a sofistikovanější otázky pomocí dokonalejšího grafu. Pochopení toho, co takový graf představuje, je to, co je důležité. Takže tento graf systematicky budujeme. Jedná se o vědomostní základnu složenou z kousků ve dvou rovinách. Jedna spočívá ve stejné sémantické cestě porozumění jazyku, kterou jsme vždy využívali. Začali jsme tedy využívat Google k vyhledávání určitého výrazu, řekněme „auto“. V dnešní době vyhledáváme „auto“ v určitém kontextu a je to vždy stejné. Řeknete-li, že si přejte změnit barvu, změnit jas monitoru, pak my víme, že změna v daném kontextu znamená úpravu. 

Proto víme hodně o používání slov na světě, jak se slova používají v praxi, spoustu vynikajících slov, atd… Vybudovali jsme tyto vědomosti a velké množství znalostí bylo do tohoto systému zabudováno. I dnes pokračujeme v  porozumění pozicím jednotlivých věcí a odlišným slovům, která používáme. A toto vše má základ v obsahu webové sítě a ve vyhledávací frázi, kterou nám lidé poskytují. Takže bez ohledu na formu této poskytované vyhledávací fráze se z ní hodně učíme. A je dobře, že budujeme explicitní graf pomocí vstupů ze světa a pomocí způsobu jejich vzájemného hodnocení.    

Tomu rozumím, ale řekl jste jednu důležitou věc, o jazyku. Mimochodem, jaký je váš mateřský jazyk?

Divil byste se, angličtina.

Angličtina?

Narodil jsem se v Africe. Jazykem mých rodičů byla svahilština. Pocházím z města Goa v Indii, kde se mluví anglicky, a to je, jak jsem začal a nyní mluvím anglicky.

Rozumím tomu tedy dobře, že vaši rodiče jsou z Indie?

Narodili se v Africe.

A jejich mateřský jazyk?

Lidová angličtina a angličtina, přičemž lidová angličtina je bohužel…

Snažím se dopracovat k tomu, že mojí mateřštinou je čeština… Hovořím však i trochu anglicky, mluvím i holandsky a rusky, ale všechny tyto jazyky jsou naprosto odlišné. Domníváte se, že Google je schopen rozumět správně česky?

Víte, správné porozumění je velice těžké. Porozumění představuje z určitého hlediska spektrum. Což je jeden důvod, proč se domnívat že přístup ke všemu je v tom, že Google přenáší a pracuje ve spoustě jazyků, můžeme překládat nejenom pouze češtinu, ale i thajštinu a čínštinu, a v tomto smyslu můžeme mluvit i o ostatních jazycích.

Takže budeme postupovat tak, že využijeme všechny informace dostupné na webu a všechny dotazy vznášené na Google. A to jsou velmi bohaté zdroje údajů. Podíváte-li se na všechny fráze zadávané v češtině, můžete se, například, hodně dozvědět o fungování synonym v češtině, a přesně tímto způsobem jsme zjistili, jak fungují synonyma v angličtině. Stejné techniky, které používáme k pochopení synonym v angličtině, využíváme k porozumění synonymům v dalších jazycích, ale není tomu tak, že když vím, že anglický „car“ znamená auto, že bych mohl tento fakt využít pro algoritmické rozdělování zdrojů našich údajů.

Takže věříte, že když budete mít dost údajů od lidí, kteří využívají vaše služby, že budete schopni dozvědět se všechno o jejich jazyku a možnostech jeho používání atd.…? 

Jak jsem řekl, existují dva velké zdroje údajů. Webová síť je obrovský zdroj údajů. Pro věci, které existují a byly již přeloženy. Přesně, díky tomu můžete zlepšit své porozumění vztahům v jiných jazycích.

Samozřejmě, ale promiňte, musím vás přerušit… Webová síť je plná naprosto překroucených a poničených jazyků a nesprávně napsaných slov a lidí, jejichž mateřštinou je čeština, a kteří se snaží psát anglicky, a tak dále.  Takže se neustále učíte ze spousty šumu, ano?

Ano, to je velmi viditelný problém a také důvod, proč pro nás na něm pracuje řada lidí s doktorským titulem. Jedná se o velmi zajímavý problém a jeden z nejúžasnějších důvodů pro práci ve společnosti Google.

Tyto důvody platí i pro mne. Je to, ano, je to velmi zajímavé. Například, jste dokonalý v angličtině a během několika měsíců chcete být dokonalí ve čtyřech nejsilnějších evropských jazycích. A bylo tomu tak v dobách, kdy byl Google malá společnost.  Takže je potřeba e je naučit a hovořit s lidmi, kteří nám pravděpodobně řeknou, zda děláme dobrou práci nebo ne. Ale hlavní algoritmy pracují na základě, který jsme již vyvinuli a stejné metody uplatňujeme na jiné jazyky. 

A díky tomu všechny tyto jazyky známe. Proto jsou některé údaje jasnější, tudíž můžeme odhalovat šum nebo jej odstraňovat. Díky různým zdrojům údajů jsme se naučili popisovat modely druhů šumů a můžeme nyní odstraňovat jejich vlivy.  Všechny tyto věci trvají dlouhou dobu. Já jsem pracoval na systémech, řekněme před deseti lety.

Takže jde o získání dostatečného objemu údajů, objemu údajů, které můžete zpracovat, a vítězství je vaše…

Nestačí pouze dostatečný objem údajů. Musí to být hlavně správné údaje.

Nejsem si jist, jaké údaje máte na mysli, přesto ale…

Údaje musí být schopny obsahovat mnohem více informací, než kolik bylo možné v minulosti a to je problém i příležitost. Když se nad tím správně zamyslíte, snažíte se nalézt jehlu v kupce sena; obtížnost problému stoupá s velikostí kupky sena. Proto s rostoucím objemem údajů narostly problémy při hledání správného údaje, o který jste požádal. 

Ano, samozřejmě.

CIF23

A to způsobuje více šumu a zmatku, neboť lidé se snaží působit proti tomu, co děláme. Probíhá neustálý boj s lidmi, kteří se snaží získat výsledky atd. Takže tento boj i lidé, kteří jej s námi vedou, se neustále zdokonalují. Takže ve skutečnosti pro celý systém, a cestu jak získat správný údaj, který si přejete, to je stále obtížnější. Toto vše souvisí s mnoha různými problémy.

Rozhovor bude, tradičně, pokračovat v dalším článku. Tématem bude soukromí, co nového ve vyhledávání Google chystá, jak a kdy budeme moci počítače ovládat hlasem a zda k tomu bude nutná umělá inteligence.

Autor článku

Konzultant a publicista, provozuje www.pooh.cz. Podle některých si myslí, že rozumí všemu, sám je však přesvědčen o pravém opaku a ani v 30+ letech nedokázal přijít na to, jak mít peníze a nepracovat.
Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).