Hlavní navigace

Tomáš Mikolov (Facebook): Siri, Cortana či Alexa jsou vlastně hloupé. Západu může ve vývoji AI ujet vlak

Autor: Jan Sedlák
Jan Sedlák

Tomáš Mikolov se zabývá výzkumem umělé inteligence ve Facebooku, kam přišel z Googlu. V mnoha ohledech je skeptik.

Doba čtení: 20 minut

Tomáš Mikolov přes tři roky působí ve výzkumném týmu Facebooku v jeho centrále v Silicon Valley. Přišel tam z podobné pozice v Googlu a předtím byl také na stáži v Microsoftu. Zabývá se zejména strojovým učením a zpracováním jazyka a stojí za knihovnami word2vec a fastText, které používá řada velkých hráčů.

Hlavním Mikolovým tématem je takzvaná vektorová reprezentace slov, pomocí které lze zlepšovat například automatické překlady, rozpoznávat řeč nebo nevyžádanou poštu v e-mailu. Technika vektorové reprezentace slov také ukázala, že překlady lze realizovat i bez slovníků a znalosti jazyka.

Mikolov, který nedávno vystoupil i na konferenci New Media Inspiration, v rozhovoru pro Lupu v kancelářích pražské společnosti GoodAI popisuje nejenom tento princip, ale také to, že jsme se ve výzkumu umělé inteligence za poslední desítky let vlastně o moc neposunuli. Mluví také o digitálních asistentech nebo o tom, jak velké firmy často ztratí schopnost inovovat.

Na oficiálním profilu na stránkách Facebook Research se uvádí, že vašim dlouhodobým cílem je vyvinout inteligentní stroje schopné učení se komunikací s lidmi. Jak jste v tomto snažení daleko?

To se velmi těžko posuzuje. Kdybych to vzal od konce, tak nic, co by bylo schopné se učit z interakce takovým způsobem, jakým bych si představoval, nemáme a nemá to nikdo. Je to dlouhodobým cílem pro hodně firem. Je zde vize, že budeme mít inteligentní osobní asistenty, kteří nám budou pomáhat tak, jako opravdoví lidští asistenti. K tomuto cíli máme strašně daleko. To, co se tomu nejvíce podobá, jsou různí „rule-based“ asistenti typu Siri. Ti jsou ale z technologického hlediska směšně daleko k tomu, co si myslíme, že by mohlo existovat v budoucnu.

Současnou technologií jsou systémy, které ručně píší lidi a dělají různé menší komponenty typu, že se mohu zeptat na počasí. Je to celé postavené na pravidlech, která někdo musí napsat. Komunikace, učení, inteligence – to se nedá popsat pomocí pár jednoduchých pravidel. Máme spousty menších samostatných aplikací například na rozpoznávání řeči, obrazu a tak dále, což se dále dělí na spousty podproblémů. To vede k tomu, že umíme řešit některé z těchto problémů dobře. Ty, které řešit neumíme, na ty se tak nějak zapomnělo.

Tomáš Mikolov na konferenci New Media Inspiration 2018
Autor: Karel Choc

Tomáš Mikolov na konferenci New Media Inspiration 2018

Já se snažím zaměřit na věci kolem komunikace, zpracování jazyka. I zde je možné vidět, že si lidé definovali spousty menších cílů jako jazykový rozbor, rozpoznávání různých typů slov. V NLP máme definovány stovky různých úloh, ale nikdy to vlastně k ničemu pořádně nevedlo, kdybych měl být skeptický.

Má v dnešní době smysl zkoušet vytvořit nějakou obecnou umělou inteligenci, nebo je lepší se zaměřit právě spíše na menší specifické úkoly?

Smysl má oboje. Záleží, v jakém časovém horizontu si představujeme, čeho bychom mohli být schopní dosáhnout. Pokud chci během šesti měsíců vyvinout nějakého chatbota a dodávat ho s telefonem, nemá smysl dělat na nějaké human-level AI, protože za tu dobu nic, co by uživatel mohl použít, nebude hotové. Pak má smysl používat systémy založené na pravidlech, napsat je ručně a nepřehánět to s nějakou velkou vizí.

To předvedli třeba na ČVUT s botem Alquist, který skončil druhý v soutěži The Alexa Prize. Jejich řešení není postavené na tom, že by chtěli vyvinout nějakou převratnou technologii, ale „jenom“ pospojovali to, co víme, že jakž takž bude fungovat. Napsali si různá pravidla. Například si zjistili, že uživatelé se rádi baví s botem, který je zabaví a občas řekne vtip. Můžete tedy mít komponentu, která bude vybírat z velkého množství připravených vtipů. Takže umělá inteligence nemusí generovat vtipy a stačí, když je vybírá z databáze. Pak už to ovšem není úplně umělá inteligence, ale takový velký program. Ale když chcete uspět v soutěži, je toto v dnešní době rozhodně nejschůdnější cesta.

Strojové učení, navzdory všem těm vyjádřením z poslední doby, za předchozích 20 let nijak zásadně nepokročilo. Typy aplikací, které umíme řešit, jsou v podstatě stejné jako tehdy, ale máme více dat a peněz, což umožňuje zaplatit více počítačů a vědců. Takže zatímco dříve počítače hrály na skvělé úrovni šachy, dnes skvěle hrají Go, umí rozpoznávat složitější obrázky. Stejné je to s rozpoznáváním řeči, strojovým překladem… Vše se inkrementálně zlepšilo, ale množiny úloh, které nešly vyřešit tehdy, neumíme vyřešit ani dnes.

Takže jsme se posunuli pouze v tom, že máme řadu cloudů, serverů, paměti a dat?

A více peněz. To jsou velice důležité věci pro statistické modely, které jsou dnes nejvíce využívané. Ale nemá to nic moc společného s nějakým převratným objevem, který bychom potřebovali pro to, abychom vymysleli umělou inteligenci, o které jsme se začali bavit na začátku. Tedy něco, co bychom mohli rozvíjet pouze díky komunikaci.

Většinou do přednášek dávám jednoduché příklady, že když se pokusíme naučit chatbota nějaký nový typ úlohy, tak by neměl zapomenout to, co se naučil dříve. To zní samozřejmě. Jenže když se pak podíváme na techniky, které se ve strojovém učení používají a o kterých se mluví jako o AI, což je třeba deep learning, tak přesně toto neumí.

Když naučím neuronovou síť, aby řešila nějaký typ úloh, pak ji přetrénuji na jiný typ úloh a ona zapomene, co se naučila předtím. Takhle si intuitivní inteligenci nepředstavujeme. My jako lidé se můžeme učit nové věci bez toho, aniž bychom staré zapomínali. Také se umíme nové věci naučit rychleji, pokud se vztahují k něčemu, čemu už rozumíme. Když umím číst, je pro mě mnohem jednodušší se naučit programovat, protože umím znaky, slova. Bez toho by vše bylo komplikovanější a zdlouhavější. A je jedno, jakou mám inteligenci, prostě mi to bude trvat déle. Toto dnešní systémy neumí a nesplňují to.

Existuje něco, co byste už dnes označil za pokročilejší formu AI? Dnes se hodně o AI mluví, často jde ovšem o nějakou statistiku nebo algoritmus využitelný pro jednu věc.

Je nutné si uvědomit, proč tito lidé a organizace taková prohlášení vydávají. Není to z důvodu, že by tomu sami věřili, jsou to marketingové proklamace. To se děje od začátku. Už od padesátých let tady vždy byla skupinka lidí, která slibovala něco, co neumí splnit, dostali na to peníze a po letech se zjistilo, že neví, kudy kam. Poté investice skončily pro všechny okolo. Proto není dobré, když někdo vytváří bubliny a dává sliby. V dnešní době se to bohužel děje znovu. Je to takový cyklus. Máme zde skupiny lidí, kteří tvrdí věci, které jsou zavádějící nebo lživé.

Takže lze očekávat nějakou „AI winter“, jak se fázím v tomto cyklu říká?

Ano, říká se tomu AI winter, něco jako zima umělé inteligence. Ta nastává poté, co lidé přeženou sliby a ti, kdo rozhodují o tom, kam putují peníze ve výzkumu, tyto prostředky přesměrují jinam. Uvidíme, jak dlouho to teď vydrží. V současné době tyto investice jdou spíše od soukromých firem než od vlád, což je trochu odlišná situace. Firmám jako Google, Facebook a tak dále strojové učení pomohlo výrazně. Otázkou je, na kolik by jim stačil machine learning, který opravdu funguje, a nakolik je třeba ta marketingová bublina kolem. Těmto firmám se asi nakonec i tato bublina vyplatí, když nebude stát příliš mnoho peněz. Přeci jenom je pro značku lepší, když se lidé baví, že má nějaká firma bláznivé nápady typu „jak letět na Mars“, nebo když se budou bavit o otázkách, proč ta Tesla pořád prodělává peníze.

Možná se tyto firmy snaží na vlnu dostat i další? Google například v cloudu nabízí TPU čipy určené pro AI operace, vydal TensorFlow a tak dále.

Nevím, kolik z těchto věcí mají v současné době peněz a do jaké míry jde o ekonomickou věc a sázku do budoucnosti. Z mého pohledu tyto aktivity vypadají smysluplně. Třeba Amazon na cloudu vydělává hodně peněz (AWS v podstatě tvoří jediný zisk firmy – poznámka redakce). Hodně lidí na něm dělá – a v budoucnu bude dělat ještě více – aplikace využívající machine learning. Pokud tyto zákazníky chcete přitáhnout, je dobré tyto možnosti nabídnout levněji a také toho nabídnout o něco více. Tohle se vyplatit může, každopádně jde o aplikované strojové učení než výzkum technik, které ještě neumíme dát dohromady.

Největší hráči v technologiích se v poslední době honí za digitálními asistenty jako Siri, Cortana, Alexa a tak dále. Jejich schopnosti jsme už nakousli, je každopádně pro Google a spol. tohle věc, od které hodně očekávají, nebo jde o pokusy s tím, že se uvidí?

Svým způsobem je to oboje. Nikdo neví, čeho je možné v oboru se současnou technologií dosáhnout. Tak, jak fungují, jsou ty asistentky v podstatě hloupé. Pro firmy, které mají tolik peněz, že neví, za co je utratit (jen Apple má na účtech přes 250 miliard dolarů – poznámka redakce), jsou takovéto investice zajímavé. Když se lidi do budoucna budou rozhodovat, jaký telefon si koupit, na základě toho, co nabídne v oblasti digitální asistentky, vyplatí se do této oblasti investovat.

A to, jak dnes lidé tyto asistentky používají, si neodvažuji tipnout, sám žádnou nepoužívám. Je pravda, že například pro lidi ve Spojených státech, kteří tráví hodně času v autě, je řečové ovládání populární. Od toho se pak odvíjejí další kroky – uživatelé třeba mohou začít hlas využívat k vyhledávání. Je ale opravdu otázkou, kam se s dnešní hloupou technologií lze dostat. Myslím si, že uživatele začne štvát, když se jejich technologie, která se tváří jako člověk, neustále bude chovat hloupě a bude dělat chyby, které člověk v běžné komunikaci prostě nedělá. Těžko se to předvídá. Možná Google a další dojdou k tomu, že asistenti zvládnou hlásit počasí, přečtou nějaký ten vtip a podobně a že to lidem bude stačit. A paralelně s tím další skupiny budou dělat na další generaci, která už bude mít inteligenci, uživatel ji bude moct učit a bude se moci rozvíjet.

Jak moc zásadní bude pro firmy a organizace sedět na datech a pracovat s nimi? Už dnes jsou nejhodnotnější firmy světa ty, které zpracovávají data. Navíc třeba na Siri je celkem vidět, že Apple nemá přístup k takovému množství dat, k jakým má přístup třeba Google díky vyhledávání a dalším službám.

To už zásadní je řadu let. Je to třeba důvod toho, proč Microsoft tak těžce prorážel se svým vyhledávačem Bing. Ten byl technologicky v některých oblastech oproti Googlu napřed. Takové strojové učení se v Googlu dlouho nevyužívalo, i když si toho většina populace není vědomá. Vývoj trval dlouho. Tak, jak se vyhledávač vyvinul na začátku, se inkrementálně vylepšoval. Skok na něco jiného vyvolával ve firmě hodně tření a trvalo to roky. Bing nemusel začínat od nuly a mohl hned používat něco, co je lepší. Bing na tom tedy technologicky nebyl špatně. Jedním z velkých rozdílů bylo to, že Google měl data. A také samozřejmě to, že ten, kdo je první, svým způsobem bere vše. Uživatelé nemají důvod přecházet.

Zde se také vracíme k předchozí otázce, proč se firmy snaží bojovat v oblasti chytrých asistentek. V dnešní době možná ještě nevíme, jak asistentky budou důležité za pět či deset let. Může se ale třeba stát, že lidé utečou od vyhledávače k těmto asistentům. A co pak takový Google bude dělat? Asi je tedy důležité se takovýmto věcem věnovat a neriskovat, že zaspí dobu. Apple zase může vidět riziko v tom, že lidi utečou od jeho telefonů v případě, že se na Androidu objeví nějaká úžasná asistentka. A zároveň další firmy vidí potenciál, že podíl na trhu mohou získat.

Jak zásadní mohou být data pro budoucnost států a ekonomiky? Už nyní se objevují dost odlišné přístupy, jak s nimi nakládat. V Číně je „všechna“ berou a chtějí vyhrát souboj v umělé inteligenci, v Evropě si naopak s GDPR a spol. data stále více uzamykáme.

To může celkem dost limitovat výzkum a pokrok a nasazování aplikací – jak v Evropě, tak ve Spojených státech. Je otázkou, jak nastavit pravidla, aby byla pro celou společnost nastavena co nejvýhodněji. Současný stav úplně ideální není. Některé země budou například moci využít data pro zlepšení zdravotnictví. Důvodem, proč se dnes ve velké míře ve zdravotnictví nepoužívá strojové učení, které dokáže vidět a analyzovat násobně více snímků než lékař, není to, že by to nebylo technicky možné. Důvodem je právě nemožnost s daty nakládat. To jde proti zájmům společnosti. Je jasné, že lidé nechtějí, aby jejich zdravotní záznamy byly na internetu, ale to neznamená, že nelze využít šifrování a tak dále.

Pokud v tomto Evropa a Spojené státy něco neudělají, budují si velké ekonomické ztráty. Čína si s tím nebude muset lámat hlavu, techniky si vyvine a pak to bude prodávat doktorům do Evropy za velké peníze. Nakonec může západu technologicky ujet vlak kvůli různým nařízením, které vymýšlí úředníci, kteří se v technologiích moc neorientují. Bohužel se to asi stane. Je to kyvadlo civilizací, kdy někdo jde nahoru, někdo stagnuje, někdo jde dolů.

Co je to vektorová reprezentace slov, kterou se zabýváte?

Jde o to, že klasický počítač vidí slova tak, že si nejdříve spočítá slovník a každé slovo se převede na číslo, což je pozice v tom slovníku. Tím pádem je věta zakódovaná jako sekvence čísel a každé slovo je vlastně unikátní. Stačí udělat jeden překlep a počítač slovo vidí jako naprosto jiné slovo. Pro počítače toto funguje dobře, protože počítače musí být schopné rozlišit, jestli daný řetězec je to nebo jiné slovo.

Má to ale i nevýhody. Pokud jsou slova podobná, tak to tento slovníkový přístup nedokáže zohlednit a systém si zpětně musí dohledat, že třeba „český“ a „česká“ jsou si podobná slova a že by se tam měly sdílet parametry. Můžete se zeptat, proč by se měly sdílet parametry – protože většinou ty reprezentace slov ve strojovém učení používáme v nějaké aplikaci, která dělá „něco“. Často jde o něco supervizovaného. To znamená, že si postavím klasifikátor, který mi třeba řekne, jestli pronesená věta má pozitivní, neutrální či negativní sentiment. Tam máme data na trénování a ta nám řeknou, že například slova „dobrý“ a „skvělý“ jsou pozitivní příklad a klasifikátor nám pak pro testovací data řekne, že jde o pozitivní slova. Ale pokud budeme mít v testovacích datech třeba slovo „vynikající“, které klasifikátor během trénování neviděl, je to zase jiné číslo ve slovníku a s tím „dobrý“ a „skvělý“ nemá nic společného. Takový systém nebude schopný určit pro testovací příklady, jestli jsou pozitivní, nebo negativní, pokud nebyly viděny v sadě na trénování.

Pokud ovšem nebudeme mít klasifikátor postavený na slovníkové reprezentaci, ale na vektorové reprezentaci, tak slova, které mají podobný význam, budou mít podobnou vektorovou reprezentaci. Nepůjde pouze o jedno slovo do slovníku, které je diskrétní, ale půjde o spojitý vektor. To si lze představit jako šipku v n-rozměrném prostoru. Šipky budou mít podobný směr, pokud mají podobné využití v jazyce. Pokud na tomto klasifikátor postavíme, bude nám generalizovat celkem dobře, i když bude natrénovaný na málo příkladech. „Vynikající“ bude tedy podobné jako „dobrý“ a bude mít pozitivní sentiment. Vektorové reprezentace slov nám umožňují sestavit různé klasifikátory, které umí dobře generalizovat, i když mají omezený počet příkladů.

A pomocí této metody by mělo jít překládat, aniž je nutné znát jazyk?

To je zajímavé a začalo se to objevovat v posledních letech. Už v Googlu jsem ukazoval, že pokud máme pár příkladů, jak přeložit slova třeba mezi češtinou a angličtinou, tak můžeme automaticky dopočítat, jak přeložit zbytek slov, o kterém nám nikdo nic neřekne. Původně šlo u supervizované učení, které počítalo s tím, že víme, jak přeložit některá slova. V posledních době vychází články, že lze pracovat i bez jakýchkoliv trénovacích dat. Z lingvistického hlediska je to velice zajímavé.

Pes má čtyři nohy jak v češtině, tak v angličtině. Sice používáme stejná slova, ale vztahy mezi slovy jsou kulturně nezávislé – ne všechny, ale hodně z nich. Že ráno vyjde slunce a večer zapadne, to už definuje vztah mezi slovy a koncepty. Ve vysokorozměrném prostoru si lze představit, že jazyk vlastně leží na n-dimenzionálních křivkách a v různých jazycích je tvar hodně podobný, protože jsme všichni lidé a ve všech jazycích máme 1, 2, 3, 4, 5 a ne 1, 3, 2, 4, 5. Z tohoto hlediska by mělo být možné naučit nějakou transformaci, která zrotuje prostory tak, aby se překrývaly. A tím pádem nepotřebují data na trénování. To je princip toho, jak fungují překlady bez dat na trénování. Začnou s reprezentací jazyků, které jsou spočítané pomocí algoritmů jako word2vec.

Je tedy jazyk matematika?

Konkrétněji statistika. Pamatuji si, že na základní škole to bylo bráno tak, že matematika a jazyk jsou zcela různé věci. Učitelka mi tenkrát tvrdila, že když někdo umí dobře matematiku, tak nebude umět dobře jazyk. S tím jsem nesouhlasil, dařilo se mi v obou předmětech. Naopak jsem viděl, že jazyk má spousty zákonitostí a pravidel. Pak jsou zde samozřejmě výjimky z pravidel, proto jsem příznivec statistického přístupu, který nepotřebuje mít definována pravidla napevno a dokáže si je najít včetně výjimek sám.

Pak si také pamatuji, že můj mentor na vysoké škole, což byl lingvista, byl strašný odpůrce neuronových a statistických přístupů a snažil se mi vnutit směr, že vše musí být v jazyce postavené na pravidlech, která napíší lingvisti.

Matematika a jazyk z určitého pohledu mohou být hodně podobné věci a průnik je hodně zajímavý. Právě tohle nám teď vylepšuje věci jako vyhledávání a překladač na Googlu nebo to, jak Gmail dokáže filtrovat spam a tak dále. Je to založené na modelech jazyka, které jsou matematické.

K čemu vaši práci využívá Facebook, ve kterém působíte nyní?

Vyjadřovat se k produktům náleží jiným lidem, já jsem ve výzkumném týmu. Našim cílem není přímo dělat na produktech. Během kariéry jsem se snažil dělat na věcech, které neovlivní jeden produkt, ale více. V Googlu a Facebooku jsem se snažil a snažím dělat na technikách, které může využít co nejvíce lidí. Většinou jde o to posunout „state of the art“ ve strojovém učení dopředu. V Googlu jsem vydal word2vec, ve Facebooku fastText. To jsou podobné knihovny, které používají desítky tisíc lidí ve startupech, firmách a podobně. My jako autoři takových technik ani nemusíme vědět, kde všude se využívají. Můžou žít bez nás, lidé si stáhnou zdrojový kód a použijí, kde chtějí.

Jednou z hlavních věcí, na které týmy ve Facebooku dělají, je optimalizace toho, aby se uživatelům zobrazovaly věci, které se jim zobrazovat mají. Ani Facebook pořádně neví, co přesně se má optimalizovat, je to pořád takový pohybující se cíl. Nadefinovat metriku, co by všechny týmy pro strojové učení měly optimalizovat, je složité. Jde o to nastavovat balanc, který firmě umožní fungovat a do budoucna zobrazovat uživatelům, co by se jim mělo líbit a co je u služby udrží, a také tak, aby z toho něco měla firma.

Jak to funguje ve výzkumu firem typu Facebook? Máte velkou volnost, nebo je tam nějaké řízení a cíle, kterých se má dosáhnout?

Ještě v Googlu jsme měli nějaké klíčové výsledky, ale moc se na to nehrálo. Něco jsme si nadefinovali a co se udělalo, to se udělalo. Ve Facebooku si už žádné cíle nedefinujeme a Google Brain, kde jsem byl předtím, se také změnil a už na to nejspíše nehrají. Osobně si myslím, že je dobré, když lidé mají představu toho, co chtějí udělat. Zní to samozřejmě, ale samozřejmé to není. Já plán mám, a to je vyvinout inteligenci, kterou lidé budou moci učit přes komunikaci. Ale existuje velká skupina lidí, která skáče mezi projekty bez toho, aniž by v nich byla nějaká větší myšlenka. Těžko se v týmech nastavuje nějaká politika.

U nás ve FAIR týmu je více méně nastavená volnost, že si každý může dělat, co chce. Ale zároveň si myslím, že trochu chybí vedení. Kdyby lidé věděli, co od nich firma očekává, pomohlo by nám to směřovat výzkum lepším směrem. Dnes už máme asi 100 výzkumníků a když se podívám, co jsme za rok vydali, je to X inkrementálních článků na téma, jak zase trochu jinak dělat něco, co už jsme dělali dříve. Je to občas takové točení v kruzích. Já osobně bych byl radši, kdyby více lidí dělalo na výzkumu obecné umělé inteligence a byl vidět nějaký vzdálenější cíl. Myslím si, že 90 procent výzkumníků, co volnost mají, nakonec skončí u toho, co už známe.

Tomáš Mikolov
Autor: Jan Sedlák

Tomáš Mikolov

Například hodně lidí, co se pohybuje v oblasti supervizovaného učení, nevěří tomu, že to může vézt k nějaké obecné AI. Toto učení velice závisí na anotacích. Je to takové zrcadlo a inteligence v systému je jenom opakováním toho, co do systému vložili lidé. Typicky když třeba vidíte obrázek, kde jsou tři psi a skáčou přes švihadlo, a stroj dole v textu situaci na obrázku popíše, může to vypadat velkolepě. Když se ovšem podíváme na testovací data, ukáže se, že anotátoři viděli přesně tyto informace, zadali je a systém to jenom zopakoval. To byla bublina asi před třemi lety, kdy se hodně mluvilo o tom, jak jsou počítače úžasné v tom, jak umí dělat takové komplikované věci. Pak z toho ale vyšlo, že 80 procent anotací k obrázkům je čisté zopakování trénovacích dat a nebyla tam skoro žádná generalizace.

To uvádím jako jeden konkrétní příklad toho, když si lidé nezvolí nějaký delší plán a nepřemýšlí nad limity strojového učení, jak existuje dnes, a jen pokračují v tom, co dělali celou svoji kariéru. Z toho pak vychází hromady článků, které nikam nevedou. To jsem ale viděl i v Googlu, tam to byl známý problém. Na velký počet výzkumníků tam určitě převratný počet objevů nebyl.

Vždy jsem v Googlu vyprávěl, jak nějaké Brno v České republice bylo schopné používat deep learning X let před Googlem a jak je to vůbec možné. Nakonec když se podíváme na to, kdo vymyslel nové techniky a kdo dokázal dát dohromady systémy, které fungují opravdu dobře, Google na tom vůbec dobře nebyl. Systém, který používal, než se přešlo na neuronové sítě, byl vcelku… no, nebyl ideální. Pár lidí z Brna bylo schopných soutěžit s mnohem početnějšími týmy, co se týče kvality výsledného produktu. Pak jsou zde samozřejmě věci, že je třeba vyřešit to, když na službu chodí velké množství uživatelských dotazů a tak dále. Ale pokud jde o technologii samotnou, neuronové sítě se třemi a více skrytými vrstvami používali v Brně asi od roku 2005 a Google na to začal přecházet až v roce 2011.

Někdy je to až s podivem, jak velké týmy skvěle placených lidí dokáží znovu a znovu objevovat už známé věcí a nakonec je poráží nějaké minitýmy odjinud, protože si lépe nadefinují cíle a neženou se za optimalizací 0,1 procenta v následujícím kvartálu a zkouší něco jiného.

Díváte se podobnou optikou také na firmu GoodAI, které pomáháte se soutěží a konferencí o Human Level AI? Na jejich konto často slýchám věci typu, o co se vlastně snaží, vždyť Google, Facebook a Microsoft na to mají násobně více peněz, více lidí a podobně.

Podobných příkladů je více. To, že by se někdo měl vzdávat své věci jenom kvůli tomu, že se podobným věcem věnují velcí hráči, si rozhodně nemyslím. Tyto firmy se dají porazit a vždy to tak v minulosti bylo. Úspěšní často usnou na vavřínech a nic extra nedělají.

Když jsem byl student Ph.D., psal jsem dizertační práci na language modeling. Byl to skoro mrtvý obor. Všichni ve velkých firmách byli přesvědčení, že jsou zde jiné postupy, které jsou neporazitelné. Když jsem svoje výsledky kolem roku 2010 a 2011 ukazoval v IBM na jejich vlastních datech, které firma poskytla několika univerzitám, nevěřili mým výsledkům a mysleli si, že jsou špatně spočítané. Podle nich bylo prostě jasné, že rekurentní sítě fungovat nemohou a že to musí být špatně a tak dále. Pak IBM docela rychle ujel vlak. Do té doby byla IBM firma číslo jedna, kam studenti chtěli jít pracovat. Následně se to rychle otočilo, do IBM se studenti moc nehrnou, a naopak míří do Facebooku, Googlu a spol., kde navíc dostanou jídlo zadarmo. Stejná situace ale může potkat i tyto firmy. Může se stát to, že se všichni zaměří na detaily něčeho a pak jim unikne ten „big picture“.

Vy se snažíte v Česku přednášet a působit jako poradce. Jak zdejší scénu kolem umělé inteligence vnímáte?

TVCON 2018 Tip goNET

Zrovna jsem nad tím uvažoval, když jsem teď měl přednášku v Brně a během setkávání se s lidmi. Působí to na mě, že lidé na univerzitách, kteří by měli dělat základní výzkum, mají své aplikované startupy a dělají komerční produkty. Granty využijí k nějaké fázi financování takové aktivity. A pak tady máme GoodAI, což je zase soukromá firma, která dělá základní výzkum. Je to tady nějaké převrácené naruby a je to zvláštní (smích).

O práci Tomáše Mikolova si můžete větší představu udělat na přiložených přednáškách. K dispozici jsou také některé jeho texty: A Roadmap Towards Machine Intelligence, CommAI: Evaluating The First Steps Towards a Useful General AI nebo příspěvky na Facebook Research.

Našli jste v článku chybu?