Два года назад программа Google победила сильнейшего игрока в го. Новая версия учится играм без помощи людей — и она уже круче всех в го и шахматах
Подразделение Google по исследованию искусственного интеллекта DeepMind подробно рассказало об успехах AlphaZero — самообучающейся программы для игры в настольные игры. В отличие от предшественников, которые были специально настроены для игры в го, программа AlphaZero смогла в кратчайшие сроки без посторонней помощи научиться играть не только в го, но также в шахматы и сёги.
Разработчики DeepMind добавили самообучение в программу для игры в го еще в 2017 году, когда выпустили предыдущее поколение алгоритма AlphaGo Zero. Смысл этого обучения в том, что нейронная сеть программы не следит за поведением человека (первой AlphaGo «скормили» 30 миллионов ходов профессиональных игроков), а играет сама с собой. Тогда AlphaGo Zero, зная лишь правила игры, за три дня «наиграла» столько удачных ходов, что со счетом по партиям 100:0 победила AlphaGo.
В своей статье в Science разработчики отмечают, что универсальная AlphaZero еще сложнее (и еще «умнее») сразу по нескольким причинам:
- В го можно только выиграть или проиграть, а в шахматах и сёги добавляется возможность ничьей.
- В шахматах и сёги появляется асимметрия (например, пешка может ходить только вперед, а рокировка бывает длинной и короткой).
- Нейронную сеть для AlphaZero переделали для постоянного самообучения — она не ждет окончания каждой виртуальной партии для обновления параметров.
«AlphaZero на старте знает только правила шахмат, в нее не заложены никакие человеческие стратегии. Но уже через несколько часов она может провести столько игр сама с собой, сколько не было сыграно за всю историю шахмат живыми людьми», — пишет в своей колонке 13-й чемпион мира по шахматам Гарри Каспаров, отмечая, что стиль игры AlphaZero напоминает его собственный.
Еще в декабре 2017 года было объявлено, что новая AlphaZero смогла победить Elmo (алгоритм-чемпион мира по сёги) всего через два часа после начала обучения игре, а чемпионский шахматный алгоритм Stockfish — через четыре. На победу в го над собственным предшественником AlphaGo Lee ушло 30 часов обучения (обучающая партия в го занимает больше времени). AlphaGo Lee — версия, «учившаяся» у людей и победившая в 2016 году сильнейшего игрока по го Ли Седоля.
После полного цикла обучения (который для го занял 13 дней) AlphaZero на испытаниях показала 16% побед (против 0,6% поражения) в шахматах, 61% — в го и 91% — в сёги.
По мнению Мюррея Кэмпбелла, который участвовал в создании компьютера Deep Blue, победившего Каспарова, следующим логичным шагом для развития искусственных интеллектов должны стать многопользовательские игры вроде Dota 2. Пока команды «умных» ботов терпят там поражение.