Как искусственный интеллект от Facebook обыграл лучших мастеров покера

14 июля 2019

5399

Исследователи искусственного интеллекта из Facebook и Университета Карнеги-Меллона создали Pluribus, который может обыгрывать лучших игроков в техасский безлимитный холдем. Машина могла бы зарабатывать по $1000 в час

Фото: pixabay

Игрокам в покер, возможно, пора обналичивать фишки. Исследователи из Facebook и Университета Карнеги - Меллона создали искусственный интеллект (ИИ), который может обыграть пять лучших профессионалов в техасский безлимитный холдем с шестью игроками, самую популярную карточную игру.

Покер давно считается «великим вызовом» в сфере ИИ. Тот факт, что игра включает в себя скрытые данные — вы не видите карты оппонентов – означает, что для успеха нужен блеф и иные тактики, которые не применяются во многих других играх. Поэтому покер, в отличие от других игр, устойчив к техникам искусственного интеллекта. Исследователи довольно быстро смогли разработать искусственный интеллект, который в состоянии обыграть одного игрока в безлимитном техасском холдеме, но игры с несколькими игроками казались слишком сложными.

Сооснователь Apple Стив Возняк призвал людей удалиться из Facebook

Соучредитель Apple Стив Возняк советует всем удалиться из Facebook ради кон... →

Робот, который обыгрывает лучших

Искусственный интеллект Facebook для игры в покер под названием Pluribus разработали исследователь искусственного интеллекта из Facebook Ноам Браун и преподаватель Университета Карнеги - Меллона Туомас Сэндхолм. Он был описан в научной статье, опубликованной в четверг в журнале Science.

Pluribus освоил техасский холдем на несколько игроков, играя против своих ранних версий. Этот метод обучения через «игру с собой» подразумевает, что он не получал никаких данных от людей и не наблюдал за игрой других систем искусственного интеллекта.

«Искусственный интеллект начинает с нуля и играет случайно, но постепенно учится по мере того, как определяет, какие действия и какое распределение вероятностей этих действий приводят к лучшим результатам, чем более ранние версии его стратегии», – написал в своей статье Браун и Сэндхолм. Эта стратегия использовалась и раньше. Например, Google DeepMind применял её, чтобы освоить игру в го, а OpenAI побеждал так в Dota 2.

Исследователи искусственного интеллекта десятилетиями использовали игры для проверки своих ботов. За последние годы в этой сфере удалось добиться значительного прогресса благодаря развитию вычислительных мощностей, улучшенным наборам данных и более совершенным техникам искусственного интеллекта. ИТ-гиганты активно инвестируют в эту область, надеясь, что достижения в ней помогут добиться прорыва в других сферах, таких как здравоохранение, наука и энергетика.

«Эти инновации могут найти применение далеко за пределами покера, потому что взаимодействия двух игроков в играх с нулевой суммой (когда один игрок выигрывает, а другой проигрывает) распространены в играх, но редко встречаются в жизни, – написали исследователи в блоге. – Реалистичные сценарии – такие как участие в онлайн-аукционе или навигация на дороге – обычно включают множество субъектов».

S&P исключила Facebook из индекса социально ответственных компаний

S&P исключила Facebook из индекса компаний с самыми высокими показателями э... →

Pluribus обыграл ведущих профессионалов как в формате с пятью ИИ и одним человеком, так и в формате с одним ИИ и пятью профессиональными игроками. В числе профессионалов были Крис Фергюсон, чемпион World Series of Poker, и Даррен Элиас, американский профи и рекордсмен по числу наград в World Poker Tour.

Денежных ставок не было, но исследователи утверждают, что если бы каждая фишка стоила доллар, Pluribus выигрывал бы в среднем около $5 за раздачу и зарабатывал бы около $1000 в час, играя против пяти человек.

Pluribus – это улучшенная версия другого ИИ-бота, названного Libratus, который в 2017 году обыграл профессионалов в техасский холдем с двумя игроками.

В отличие от Libratus, Pluribus содержит новый алгоритм поиска онлайн, который может находить варианты на несколько шагов вперед, а также ускоренные алгоритмы игры с самим собой.

Сочетание этих двух факторов позволило обучить Pluribus, используя относительно небольшие мощности и объём памяти. Исследователи говорят, что потребовались облачные ресурсы стоимостью всего $150. «Такая эффективность резко контрастирует с другими недавними знаковыми ИИ-проектами, где для обучения требовались вычислительные мощности стоимостью в миллионы долларов», – написали они.

Что говорят профи

- Pluribus – сложный соперник, — сказал Фергюсон. — Его трудно подловить на раздаче, ему отлично удается делать тонкие ставки на ценность на ривере.

Элиас добавил, что главное преимущество Pluribus заключается в способности использовать смешанные стратегии, которые и пытаются применять люди.

- Для людей это вопрос техники – как делать это в абсолютно случайном порядке и последовательно, — отметил он. — Большинство людей на это просто не способны. Бот играет не просто против каких-то случайных мастеров. Он играет против лучших игроков мира.

Pluribus, может быть, и пугает профессиональных игроков в покер, которые зарабатывают на участии в онлайн-турнирах, но им не стоит беспокоиться, что в следующей игре они с ним столкнутся.

- Мы не будем раскрывать программный код. В покер играют с целью заработка, и мы считаем, что раскрытие кода может быть вредным, – сообщил Forbes представитель Facebook Эри Энтин.

Источник: Forbes Russia