알파고에 대한 리뷰.

Anglr 0 322 2016.03.11 16:17

알파고의 알고리즘에 대해 매우 환상을 갖고 계신 것 같아서 좀 부수고 가겠습니다.

알파고는 기존의 몬테 카를로 트리 탐색 알고리즘을 그대로 사용합니다. 몬테 카를로 트리 탐색이란 쉽게 얘기해서 패하지 않는 경우의 수를 계속 찾아나가는 알고리즘이라고 보면 됩니다. 바둑판 상태를 랜덤으로(알파고의 경우는 기존 3000만개의 기보를 사용했다고 합니다.) 불러온 다음, 미리 세팅한 '정책' 에 따라 수를 두어 나가면서 계속 해서 탐색을 하다가 만일 게임이 종료될 경우 이를 다시 복기하여 반영, 그 후 이를 반복하면서 정책을 수정해 나갑니다.

이 때 초반에 미리 세팅한 '정책' 이라 함은 바둑의 룰과 더불어, 인간에 의해 이미 연구가 되어있는 기본적인 사항들입니다. 빈삼각은 두지 말라거나 귀부터 먼저 두어 나가라거나 하는 것들요.

즉 '인간이 절대 이해할 수 없는 수' 를 둔다는 말이 여기서부터 한 번 빗나갑니다. 애초에 정책망 자체가 인간의 것을 사용합니다. 인간이 즐겨 사용하는 행마와 전략을 기본적으로 사용하기 때문에 인간이 이해 불가능한 수를 두는 게 아닙니다.

여튼 구글은 이 정책을 처음 만들 때 인간의 기보를 집어넣은 겁니다. 이를 정책망 초기화라고 하는데, 이후 몬테 카를로 트리 탐색을 통해 반복하면서 정책망을 구성하는 것까지는 같습니다. 다만 정책망의 형성에서 바로 여러분들을 인공지능에 대한 공포와 신격화로 몰고 간 마법의 단어인 딥 러닝을 사용합니다. 바둑판의 모든 자리에 대해서 대개 이 상황에서 다음에 어떤 자리를 선택하게 될지에 대한 확률 분포를 만들어낸 다음 각각에 대한 가치를 부여하고(이를 가치망이라고 합니다.) 그 가치를 기준으로 판단하여 바둑돌을 놓게 됩니다. 다시 말해 알파고는 물론 어느 정도의 수읽기를 하게끔 알고리즘을 만들긴 했겠지만(다음 수에 대한 경향성을 판단할 수 있기 때문입니다.) 미리 모든 부분을 설계하여 인간을 함정의 구렁텅이로 몰고 가는 게 아닙니다. 그저 지금 상황에서 가장 가치가 높은 수를 가져갈 뿐이죠.

그리고 이 과정을 '똑같은 자기 자신을 가상으로 복제' 하여 대결한 다음 승리하는 선택지를 계속해서 시뮬레이션합니다. 이를 강화학습이라고 합니다.

인간이 이해할 수 없는 수를 두면서 승리로 이끌어 간다면 굳이 인간의 기보가 필요없습니다. 알파고가 상변에 '중국식 포석' 을 펼친 것이 무엇 때문이라고 생각하십니까. 인간의 정책망을 바탕으로 강화학습하기 때문에 인간이 만들어낸 가장 효율 좋은 포석을 따라간 겁니다. 일전에 제가 '알파고가 인간이 절대 이해할 수 없는 수를 둘 수는 없다' 고 한 것도 여기서 기인합니다. 강화학습을 통해 가장 효율 좋은 길을 따라가는 알파고이기 때문에 '새로운 수' 가 나올 순 있어도 '인간의 정책망을 완전히 파괴해 버리는' 수는 나오지 못합니다. 정책망 역시 계속 수정을 거듭하긴 하지만 기본이 되는 행마나 포석 등은(기본적인 룰에 가까운 입지를 차지합니다.) 인간과 비슷하게 가져가게 됩니다.

더불어 이해하기 어려운 악수를 두고 나중에 그것이 악수가 아니라 호수로 작용하는 것도 알파고가 미리 설계한 게 아니라 그저 그 상황에서 가장 승리할 확률이 높은 수를 두기 때문에 기존에 둔 악수를 호수로 '수습' 하는 것이죠.

즉 여러분이 알파고에 대해 가지고 있는 '설계' 라는 '환상' 은 사실 '결과적으로는 호수' 가 된 것이지 '처음부터 호수로 두고 설계' 한 게 아니라는 겁니다. 1국에서 악수처럼 보였던 몇 개의 수가 나중에 중요한 작용을 했지만, 그 중 몇 수는 전혀 힘을 못 쓰고 얌전히 응징 당한 걸 보면 알 수 있습니다.

이세돌 9단이 계속 지는 이유는 '자신의 바둑' 을 두지 않아서라고 보고 있습니다. 물론 인공지능과 인간이라는 넘사벽의 계산 능력 차이도 있겠지만 그보다는 인공지능에 대해 너무 겁을 먹은 나머지 위축된 바둑을 두고 있어서 그렇습니다.

알파고를 잡는 건 기존의 인공지능처럼 예측 불가한 변칙수를 두어 흔드는 것도 아니고 그렇다고 두텁게 두면서 수비 위주의 바둑을 하는 것도 아니라, 인공지능이 데이터가 부족해서 또는 정책망을 잘못 설계해서 악수를 두었을 때 그걸 철저하게 응징하는 게 바로 승리 방법이라고 봅니다. 그리고 이는 선실리 후타개에 공격적인 바둑을 지향하는 이세돌 9단이 가장 잘할 수 있는 부분이겠지요.

만일 1국에서 알파고의 대실수를 이세돌 9단이 안일하게 받지 않고 철저하게 응징했다면 판세가 많이 달라졌을 겁니다. '기계는 실수를 하지 않는다' 지만, 알파고가 판후이와 속기로 붙었을 때 알파고도 분명 실수를 했습니다. 연산 시간이 부족해서 데이터를 충분히 끌어모으지 못한 거죠. 반대로 얘기하면 알파고 역시 결국 데이터에 의존해서 승수를 뽑아내는 기계일 뿐 신이 아니라는 얘깁니다.

Comments

로그인한 회원만 댓글 등록이 가능합니다.

이전 다음 삭제 수정 목록