Starcraft II: Umělá inteligence Alphastar se nezadržitelně zlepšuje

Je tomu 6 měsíců, co Google představil svou nejpokročilejší umělou inteligenci Deepmind Alphastar, a od té doby jsme se o ní dozvěděli fascinující novinky. Vývojový team Deepmind se před pár týdny dohodl s Blizzardem a vypustil několik různých agentů umělé inteligence mezi běžné hráče 1v1 na evropském žebříčku Starcraftu II s cílem ověřit, jak daleko se v něm dostanou při stejných podmínkách, jako mají běžní hráči.

Alphastar nyní umí hrát za všechny tři rasy a má ještě omezenější počet akcí za minutu (APM) na cca 400, což je maximální hodnota mezi běžnými hráči, kteří se hraním SC2 neživí.

Jak dopadlo první kolo testování, víme díky youtuberům, kteří identifikovali profily umělé inteligence a nastreamovali několik desítek replayů. Alphastar se i po nových omezeních bez problémů probojovala mezi nejlepší mistry (master) s tím, že vyhrávala plus minus 90 % zápasů.

Pro mě osobně jsou poznatky z replayů zajímavé a zároveň lehce zneklidňující. Ukazují totiž, že i poměrně hloupá AI, která si vůbec neuvědomuje, co vlastně dělá, natožpak aby jakkoliv chápala sama sebe, dokáže překonat velkou většinu lidí i v tak složité a komplexní hře, jakou je Starcraft.

zdroj: tisková zpráva

Největší výhodou stroje je očividně to, že na rozdíl od člověka si ve zlomku vteřiny dokáže spočítat pravděpodobnost úspěchu své budoucí akce. My lidé, i když máme lepší povědomí o situaci než „hloupý“ stroj, nikdy v hlavě podobné číslo nevyčarujeme, pouze pocit, tušení. Ovšem AI vždy přesně ví, jestli má její armáda šanci vyhrát střet na 48 %, nebo jestli je to 51,5 %, a podle toho se zachová. Jak ubíhají minuty, přiklání se „štěstí“ čím dál tím víc na stranu stroje. To, co považujeme u progamerů za vrchol zkušenosti (skillu), je pro Alphastar zcela základní dovednost.

Další obrovská výhoda je vlastně zcela bezchybné „macro“ (ekonomická část). Zatímco pro většinu lidí je výroba těžařů, jejich správná alokace a ochrana spíše nutné a nudné zlo, při kterém sem tam udělají drobnou chybu a ztrácejí při něm koncentraci na jiné části bojiště, AI zde žádné chyby nedělá a nezdrží se na víc jak zlomek vteřiny. Jistě, zatím má problémy třeba s uspořádáním budov v základně, ale to se časem jistě vyřeší.

Třetí pilíř je načasování útoků, tzv. timingy. U lidských progamerů jde o jednu z nejobdivovanějších schopností, která vlastně stojí i za diváckou atraktivitou SC. Hráč, který byl opakovaně poražen v dílčí bitvě, a přišel dokonce i o expanzi (další základnu), má určité časové okno na to, použít všechny zdroje, co mu ještě zbývají, k jedinému útoku, kterým jinak ve všem lepšího soupeře zaskočí.

Jen nejlepší lidští hráči dokáží ignorovat stres a odhadnout přesný moment, kdy vyrazit a kde udeřit. Pro Alphastar jde však jen o další triviální kalkulaci. I skvělí lidští soupeři, kteří dokázali AI bez problémů zas a znovu porážet v menších bitvách, se po podobném drtivém úderu najednou zhroutili. Nejsou totiž vůbec zvyklí na to, že by soupeř přesně uhodl několik vteřin, kdy jsou nejslabší, a využil jich.

Umělá inteligence také přímo exceluje v provádění určitých zas a znovu používaných sekvencích typu „rush“ včetně micra (ovládání jednotlivých jednotek), které k tomu patří. Není divu, používá je skoro každý, a tak má AI nepřeberné množství příkladů. Na rozdíl od většiny lidí však podobné jednoduché taktiky provádí bezchybně, bez zaváhání.

Největší oporou Alphastar je ale to, že na každou akci lidského hráče aktivně reaguje. Prohrabe svou obří paměť, najde co nejpodobnější situaci a použije takovou strategii, co v ní nejlépe fungovala. Proto někdy vidíme nesmyslná rozhodnutí, při kterých AI nažene 30 zerglingů proti dokonale utěsněnému wallu (hradbě). Jistě, v jednom zápase z deseti to působí směšně a říkáme si: „Hloupá AI!“. Jenže ona díky statistice ví, že v dalších devíti případech protihráč třeba zazmatkuje, začne vyrábět neoptimální budovy, přidá zbytečnou obranu apod.

V několika vzácných hrách, kdy AI prohrála, jsem si všiml v konečné fázi partie jedné zajímavosti: Její chování až nápadně připomínalo lidskou paniku. Snažila se přesouvat své síly, ale bylo to takové nekoordinované, neefektivní. Protože víme, že nezná nic jako strach, mám pouze dvě vysvětlení. Buď za vše může limit APM, kdy se prohrávající strana musí věnovat asymetrickému počtu hrozeb, stejně jako člověk prostě nestíhá a chyby se hromadí, nebo i toto špatné chování přebírá neuronová síť z replayů a neuvědomuje si, že je „špatné“, protože nemá jiná vstupní data.

Zkušený progamer po zhlédnutí těchto videí podle mého snadno zformuluje taktiku, která se bude spoléhat např. na cílené klamání reaktivně hrajícího robota, bude schovávat budovy různě po mapě, co nejvíc střídat různé strategie, počítat ještě víc s protiútoky apod. Alphastar chybí ještě velký kus k tomu, aby to byla ona, kdo udává kurz hry, aktivně scoutovala a byla si vědomá hlubší strategie, co skutečně dokáže překvapit, nikoliv jen sekvence nejpravděpodobněji úspěšných kroků.

Znepokojivé je ovšem to, že pro porážku víc než 99,8 % lidí (master liga je pro horní 2 % hráčů) umělá inteligence nic takového nepotřebuje.

Herní světy čekají v horizontu pár let velké změny. Zatímco dnes je úspěch mnoha online titulů závislý na jejich popularitě (čím víc lidí hraje, tím lepší matchmaking a tím lepší zážitek ze hry), v budoucnu se servery prostě zaplní boty tvářícími se jako obyčejní hráči. Boti se navíc vždy přizpůsobí úrovni lidského protivníka a on nebude mít pocit, že je neschopný a že je hra „blbá“.

Domyšleno do důsledku, i bez dalšího pokroku, jen při perfektní aplikaci současných znalostí, hrozí mnoha profesím (řidiči, pracovníci fast foodů, pokladní, uklízeči...) ve skutečném světě zánik. Ostatně o tom jsme měli s Jirkou nedávno samostatný první a druhý díl Hardware Clubu o umělé inteligenci.

Jsem zvědavý, kam se situace bude ubírat, zda Google skutečně začne své pokročilé boty licencovat herním studiím a iterace Alphastar budou sloužit k zábavě a vzdělávání, nebo jestli nějakého šílence nenapadne systém použít pro skutečné strategické hry a vznikne sice bezmyšlenkovitá, ale efektivní obdoba filmového Skynetu.