znáš pravidla Go? Znáš složitost diskrétního řešení? Četl jsi něco o této partii?
Tyhle překvapivé tahy počítač udělal hned na začátku, až v pozdější fázi hry se ukázalo jak byly užitečné. Za celou hru počítač neudělal žádnou vážnou chybu a neukázal žádnou slabinu, tj. nejednalo se o náhodně zvolený postup z neznalosti, ale o naučenou zkušenost, kterou pravděpodobně neokoukal od lidských hráčů, protože to tak nehrají.
U šachů se cena tahu dá poměrně lehce spočítat pár tahů nazpět, u go se celá partie může převrátit klidně až na konci a až do posledního tahu nemusí být jasné, jestli položený kámen je výhodný nebo ne.
Uvádí se, že go má oproti šachům centilionkrát více kombinací, to je číslo s 200 nulama. V současné době nemáme ani dostatek kapacity na výpočet všech možných tahů v šachu (číslo o 60 nulách), ale díky většímu omezení a velkému množství nevýhodných tahů je možné naučit počítač hrát šachy efektivně.
ty nemáš vůbec tucha jak to funguje a plácáš tady doslova kraviny. Zagoogli si něco o Teorii her, kdybys měl aspoň vejšku, věděl bys základy a neplácal blbosti.
Jenom trolíš, nemáš ani tucha jak se hraje hra Go a snad ani šachy, natož abys věděl, jak fungují počítačové algoritmy na jejich řešení.
Takhle velká čísla se objevují na pár serverech, zejména asijských. V původním článku v Nature je ještě cosi o distribuované verzi, ale i tam jsou čísla menší. Já vycházel z tamní informace „The final version of AlphaGo used 40 search threads, 48 CPUs, and. 8 GPUs“. Ovšem pořád to není nějak extra moc křemíku, jak by se mohlo zdát. (Samozřejmě tu můžeme polemizovat o chlazení, spotřebě, kolik bylo potřeba paměti, o jaká šlo CPU a GPU atd. atd.)
Jde spíš o to, jaké má Google do budoucna obrovské možnosti, se svým obrovským množstvím serverů (a množstvím dat, získaných během exitence), pro výzkum a vývoj AI.
Asi pro vás bude překvapením, že podle článku v časopise Nature ( k vidění zde http://kam.mff.cuni.cz/~spring/2016/papers/go.pdf ) ta finální verze AlphaGo má jen 48 CPU a 8 GPU. Pokud by tedy k předešlé večeři, snídani a obědu předem, který jste dovolil, směly být nějaké opravdu výživné baterie, nebyl by s vaší podmínkou myslím moc velký problém.
No evoluční algoritmus, který se učí, může v odehraných partiích či simulacích odhalit skrytou závislost, aniž by to byl kdokoliv schopen popsat, či vyjádřit analyticky, a díky tomu může vyhrávat.
Třeba tak náhodně objevil, v jaké části časoprostoru se nacházíme, a jakým směrem se pohybujeme, ví tedy, jaké variace budou následovat, nebo alespoň, které nastanou s větší pravděpodobností, za předpokladu, že všechny možné stavy vesmíru existují současně :-)))
Ostatně, asijská kultura má v tom tradici, a hra GO to možná má v sobě zakódované, asiaté už před staletími došli k algoritmu i-ťing, který jako kompas určuje ten směr, rozlišuje mezi možným a skutečným :-)))
Hrac porazil stroj v okmaziku, kdy zahajil (4tou) partii, tj zacal s bilim kamenem. V go je to povazovano za vyhodu. V pate serii se hrac vedomne rozhodl opet pro cernou a prohral. Chtel porazit stroj i s timto hendikepem. Je velmi pravdepodobne, ze pokud by losovali o to, kdo zacne s bilym kamenem, skore by vypadalo jinak. Nezapomente, ze vysledek byl dosazen za pouziti x-milionu $ (HW, mzda vyvojaru, ostatni naklady). V tomto kontextu to az takova slava neni.
za mě je rozhodnuto, ta síla je obrovská. Nejen, že porazil jednoznačně nejlepšího hráče podruhé a naprosto jinou strategií. Dokonce AlphaGo dokázal přijít s ještě neznámou strategií a dělal tahy, které překvapily.
Tady přesně končí výhoda naučených už odehraných her a začíná doba, kdy počíteče vymýšlejí vlastní strategie, které hráče ještě nenapadly.
Sice jsem hru sledoval, ale bez komentářů bych nic nepochopil :).
Pokud ale počítač hrál jinak, než hrají lidé, je jeho výhra trochu menší sláva. Samozřejmě, pořád je obrovský úspěch to, že vyhrál, a také to, že dokázal „vymyslet“ novou strategii. Ale dá se předpokládat, že pokud by se tuhle novou strategii naučil člověk, Lee Se-dola by porazil, i pokud by byl o něco slabší. Je to taková výhoda levorukého šermíře.
V go se zacina cernymi kameny. Navic se pouzilo pravidlo komi - v tomto pripade 7.5 bodu jako kompenzace za nezacinani.
Prepocet na penize neni prilis zajimavy - jeden vyrobni robot se taky vrati az po mnoha mesicich prace - ale jede skoro porad, nestavkuje, nechodi na zachod apod.
Naklady na vyrobu dalsich kusu alphago uz pak jsou jen zlomkem ceny, ktera byla utracena za vyvoj.
Nehlede na to, ze to od zacatku nebylo mysleno jako vytvoreni profesionalniho hrace go, ktery ted bude sbirat tituly a price money.
Ale samozřejmě, že může ví o protihráči naprosto všechno jak za celý svůj život hrál každou partii, pouze se podívá do paměti jak před 10 lety v nejpodobnějším případě hrál a pak porovná svou strategii s tím jak tu partii dohrál. Pak tohle udělá ještě s 1000 dalšíma strategiema a partiema co protihráč hrál a vyjde mu % nejoptimálnější způsob hry.
To dělá pro každý tah.
Takže šance člověka ho přečůrat, je vlastně když se nad tím zamyslíš limitní nule. A to samozřejmě systém používá jistě i další triky o kterých my nevíme.
A nebo je možné že žádný nový tah nevymyslel a pouze zareagoval na tah protihráče. Většina těchto algoritmů pracuje na bázi prohledávání stávkového prostoru.Jinými slovy, když mu dáte dostatek paměti a procesorového výkonu, predpočíta si všechny možnosti jaké soupeř má (na několik tahů do předu) a k nim optimální reakci.
Tak ten počítač těží z toho, že má x tisíckrát větší rychlost a může si přehrát celé partie do konce a až pak si vybere jakou strategii vlastně zvolí. Nemusí prozkoumat všech 10na tisíc variatn stačí mu nějaký nástřel ze kterého vybere pro konkrétní tah nejúspěšnější řešení a další triky.
Člověk se musí spoléhat pouze na "optimální" zkušenost, mozek nemá tenhle luxus a tak dostatečně rychlý hw v hrách x konečným počtem řešení vždy vyhraje.