Medium - AI Learned to Use Tools After Nearly 500 Million Games of Hide and Seek

원문 - MIT Technology Review

Trend 파악을 Medium 기고문 요약 포스팅 - 5억번의 숨바꼭질 게임 후에 AI가 도구의 사용법을 알게되다; OpenAI의 에이전트는 복잡한 행동을 하도록 진화함으로써 인공지능 개발에 유망한 접근법을 보여줬다

Illustrations: OpenAI

태초에 생물학적 유기체들은 매우 간단했습니다. 그들은 단세포로서 거의 아무 능력이 없었습니다. 수백만년의 진화과정을 거치며 경쟁과 자연선택은 생명을 더욱 복잡한 형태로 이끌었고 오늘날 우리를 만들었습니다. 복잡한 인간의 지능또한 말이죠.

샌프란시스코에 있는 for-profit AI 연구소의 OpenAI 연구원들은 가설을 실험하고 있습니다: 만약 가상현실에서 경쟁을 흉내낸다면 인공지능을 더욱 정교하게 만들 수 있을 것인가?

이 실험은 해당 분야의 두 가지 아이디어로 만들어 졌습니다.: 멀티 에이전트 러닝; 경쟁이나 새로운 행동을 유발하는 조정에 여러개의 다수의 알고리즘을 배치하는 것과 강화 학습; 시도와 실패를 통해 주어진 목표를 성취하는 법을 학습하는 머신러닝 기법. (딥마인드는 강화 학습을 통해 알파고를 만들었으며 사람에게 바둑을 이김으로써 유명해졌습니다.)

오늘 OpenAI는 초기 결과를 발표하게 되었습니다. 수백만번의 숨바꼭질 게임을 통해 적대관계의 두 AI에이전트 그룹은 도구를 사용하거나 협동과 같은 숨바꼭질의 전략을 개발했습니다. 이 연구는 OpenAI의 주요한 개발 전략을 보여주는데 존재하는 AI기법의 스케일을 매우 크게 함으로써 숨어있는 특성을 알아내는 것입니다.

After roughly 25 million rounds of hide-and-seek, the hiders learned to build forts to win the game.

Six phases of strategy

게임을 만들기 위해 연구진들은 가상환경을 만들었습니다. 그 환경은 밀폐된 공간으로 블록과 비탈길, 이동/이동불가인 바리케이트 들이 있었습니다. 에이전트들은 스스로의 강화학습 알고리즘으로 컨트롤 되었습니다. 매 게임마다 에이전트 들은 두 팀으로 나뉘어졌습니다: 숨는 팀은 반복적으로 술래들을 피하면 보상을 받고 잡히면 패널티를 받았습니다. 숨바꼭질에서는 숨는 팀들이 먼저 잠깐의 시간이 주어집니다. 연구원들은 에이전트들에게 다른 어떤 명령도 내리지 않았습니다.

수백만번의 게임이 진행되고 에이전트들은 몇 개의 전략과 그것을 파훼하는 전략을 개발했습니다. 첫 단계에서는 숨는 팀과 술래 팀 모두 미숫한 전략을 사용했습니다. 사물을 이용하지 않고 그저 공간을 돌아다니는 것이었죠.

In phase three, the seekers learned to climb over the fort’s walls using a ramp.

그러나 2,500만번쯤 되었을 때 플레이가 좀 더 세련되어 졌습니다. 숨는 팀은 상자들과 바리케이트들을 움직이고 잠구는 방법을 알게되었고 술래들이 그들을 절대로 볼 수 없는 환경을 만들었습니다. 뿐마 아니라 그들은 전략을 더욱 개발시켜 서로 사물을 주고받으며 더욱 빠르게 해당 환경을 만들게 되었습니다.

7,500만번쯤 되었을 때 술래팀이 파훼법을 찾아내는 3단계에 들어갔습니다. 그들은 비탈길을 숨는 팀의 요새로 움직인다음 벽을 넘어 갔습니다. 천만번의 게임이 지나간 후 접어든 4단계에서는 숨는 팀이 요새를 구축하기 전에 비탈길을 잠구는 방법을 알아냈습니다.(양 팀모두 상대팀이 잠구어 놓은 사물을 해제할 수 없었습니다.)

처음에 OpenAI의 연구진들은 이것이 게임의 마지막 단계인 줄 알았습니다. 그러나 3억8천만번의 게임 후 두가지의 전략이 나타났습니다. 술래팀이 비탈길을 잠구어 놓고 요새로 숨는 전략을 깨기위해 잠궈지지 않은 상자위에 올라타서 서핑을 하여 숨는 팀의 요새 넘어로 접근할 수 있었습니다. 마지막 단계에서는 숨는 팀이 다시한번 요새를 짓기 전에 비탈길과 상자 등 모든 물체를 잠구어놓는 것으로 전략이 개발되었습니다.

Finally, after 380 million rounds of training, the seekers learned to “box surf” to climb over the fort’s walls.

Emergent intelligence

연구진들은 이러한 초기결과가 더욱 복잡한 AI를 진화시키는 새로운 방법을 보여준다고 생각합니다. 해당 연구의 저자 중 한명인 Bowen Baker씨는 다음과 같이 말했습니다.”우리는 술래팀과 숨는팀에게 박스 근처로 뛰어가라거나 사용하라는 것을 말해주지 않았습니다”, “그러나 멀티에이전트들이 경쟁을 통해 새로운 작업을 만들어내고 다른 팀은 그에 적응하게 되었습니다.”

이 연구는 OpenAI의 연구개발의 독특한 접근을 보여줍니다. 해당 연구소가 다른 새로운 기술에도 투자를 했지만 기본적으로 존재하는 연구를 매우 확장하는데 주력하고 있습니다. OpenAI의 주요 혁신방안은 엔지니어링과 연산자원의 확장이었습니다.

또한 Baker씨는 다음과 같이 말했습니다. “저는 여러분들이 만약 더욱 복잡한 환경에서 이런 종류의 경쟁을 유도한다면 어떤 결과가 나타날지 상상해보셨으면 좋겠습니다.”, “멀티에이전트들이 학습하는 행동은 결국엔 우리가 어떻게 풀지 몰랐던 문제를 해결할 수도 있습니다.”

Summary

  • OpenAI 연구진들의 새로운 연구 결과
  • 강화학습을 더욱 많이 하니까 새로운 결과가 나왔다.
  • 더욱 복잡한 환경을 만들어주고 엄청나게 많은 학습을 시킨다면 생명체가 진화한 것처럼 새로운 행동을 이끌어 내게 된다.

© 2019. All rights reserved.

Powered by Hydejack v8.1.1