Medium - Facebook’s Poker Bot Shows How A.I. Can Adapt to Liars

원문 - Dave Gershgorn in OneZero

Trend 파악을 Medium 기고문 요약 포스팅 - 페이스북의 포커봇은 AI가 거짓말쟁이들도 상대할 수 있다는 것을 보여줬다.

500x400

현실에 상당한 암시를 준 최근의 한 연구에서는 포커봇이 프로 6명을 상대로 무제한 텍사스 홀덤에서 승리했습니다.

때때로 포커는 블러핑의 연속입니다.

당신이 낮은 패를 쥐고 있어도 풀 하우스를 들고 있는 것처럼 믿게 만들 수 있고 그것은 큰 이득을 가져다 줍니다.

당신의 적을 읽고 - 여기서는 찡그리고 저기서는 싱글싱글 웃는 - 그리고 적절히 배팅해야 하죠

그것은 컴퓨터가 잘할 수 있는 분야가 아니라고 당신은 생각할 겁니다. 그러나 최근 과학계에서 발표한 연구에 따르면

AI가 거짓말에 반응하는 것을 배우는 것은 물론 가장 뛰어난 포커 플레이어보다 한수 위였다는 것입니다.

이것은 단순히 카지노를 넘어서는 엄청난 발전입니다.

Pluribus라고 불리는 포커봇은 12명의 프로 포커플레이어들을 12일간 진행된 6인 무제한 텍사스 홀덤에서 물리쳣습니다.

Pluribus는 페이스북에서 AI연구원으로 근무하고 있는 Noam Brown과 피츠버그의 카네기멜론 대학교의 Tuomas Sandholm 컴퓨터공학과 교수에 의해 탄생했습니다.

페이스북의 연구 관련 포스트의 발표에 따르면 실험에 쓰여진 칩이 달러였을 경우 Pluribus는 프로들을 상대로 1시간에 1,000$를 땄다고 합니다. (테이블에 아마추어가 있었다고 해도 이것은 예상보다 훨씬 상회하는 결과였습니다.)

Brown은 ‘12 ~ ‘19년 동안 포커 연구를 통해 석박사 취득했습니다.

그러나 포커 테이블을 섭렵하는 것이 그의 궁극적인 목표는 아님니다. 이 게임은 알고리즘이 복수의 믿을수 없는 적을 상대로 패를 숨기고 상대방이 카드를 던지게 하기 위한 블러핑을 파악할 수 있는지 하는 것이었습니다.

AI는 이미 인간보다 훨씬 빠르고 우수하게 연산을 할 수 있습니다. 그러나 포커는 얼마나 인간의 블러핑을 파악하고 상대방의 패를 읽을 수 있는지 AI에게 가르치는 유용한 게임이었습니다.

Brown은 이 발전이 AI를 실생활에 적용할 수 있는 필수적인 것이라고 생각한다고 밝혔습니다. 왜냐하면 현실에서는 다수의 대리인과

전략적인 상호관계가 있거나 정보가 숨겨져 있기 때문입니다.

Brown 박사는 이미 Libratus라는 포커봇을 만들어서 무제한 텍사스 홀덤에서 프로를 상대로 일대일 승부를 겨뤄 승리를 거둔 적이 있습니다.

새로운 Pluribus는 테이블에 있는 다른 플레이어들을 적용시키지 않았습니다. 이 AI는 사용자를 구분하여 그들이 어떻게 플레이하는지 이해하려고 하지 않습니다.

Pluribus는 상대방들이 좋은 패를 들고 있는지 블러핑을 하는지 구분하지 않습니다. 통계적으로 전략적인 상황이라고 계산될 때만 블러핑을 한다는 것입니다.

사람들은 블러핑이 다른사람의 눈과 행동을 보는 것이라는 인간적인 관념을 가지고 있습니다. 그리고 그들이 패를 던질지 블러핑을 하는지 그들의 마음을 읽으려고 합니다. 그것은 실제로 그렇지 않습니다.

블러핑은 수학적인 것입니다. 좋은 패와 나쁜 패에 대한 균형이며 당신은 상대방의 패를 예측할 수 없습니다.

바둑이나 체스처럼 AI가 정복한 많은 게임들은 무한히 복잡하지만 그것들은 공통적으로 게임의 상태와 플레이어의 정보가 모두에게

보입니다.

포커는 상대방이 무슨 패를 가지고 있는지 알 수 없기 때문에 다른 점이 있습니다. 비유하자면 상대방의 킹과 퀸이 체스보드

어디에나 위치할 수 있고 보이지 않는 다는 것입니다.

따라서 당신은 적이 알고 있는 것을 알지 못한다면 쉽게 다음행동이나 어떻게 올바른 결정을 내릴 지 쉽게 예측할 수 없습니다.

AI는 일반적으로 필요한 정보로만 성장할 수 있는게 아닙니다. 정보와 관련있는 특정한 상황이 필요합니다.

구글의 자율주행 차량도 구글이 철저하게 장소를 매핑해놨기 때문에 동작할 수 있는 것입니다.

페이스북의 포토 태깅 AI 같은 이미지 인식 소프트웨어도 수백만의 동물사진 들을 통해 AI가 학습하는 것입니다.

그러나 포커는 정보가 숨겨져 있고 통계낼 수 있는 상황이 매우 희소합니다. 5명의 다른 플레이어들은 시작하는 손패와 베팅하는 금액에 따라 다양한 조합이 가능합니다.

Brown 박사는 포커봇이 받아들이는 복잡도를 줄이기 위해서 비슷한 베팅금액은 묶어서 처리했습니다.

그러나 Pluribus가 학습한 방버븐 다른 게임 AI가 학습한 것과 비슷한 방식이었습니다.

AI스스로가 수백만번 게임을 하면서 천천히 긍정적인 결과가 나오도록 행동을 조정한 것입니다.

regret이라는 항목을 두고 그 항목의 점수를 통해 알고리즘이 후회를 덜하는 방식으로 학습을 했습니다.

Summary

  • 딥러닝을 통해 AI가 포커를 정복했다.
  • 블러핑과 같이 부정확한 정보도 AI가 학습을 통해 어느정도 상황을 극복하는 것을 확인할 수 있었다.
  • 도로주행 시의 돌발상황과 더불어 기업에서 일반 사용자의 부정확한 정보를 판단하는 등 다양하게 쓰일 발판이 되는 발전이다.
  • 게임을 통해 AI의 가능성을 확인한 만큼 일반적인 문제에 더욱 연구 중점을 둘 것이다.

© 2019. All rights reserved.

Powered by Hydejack v8.1.1