알파고가 일부러 져주었다를 논리적으로 설명하는게 더 불가능.

구PD 0 89 2016.03.14 02:47

알파고의 학습방법이 공개되었네요. '알파고 vs 알파고' 라고..

일부러 져주게 프로그래밍을 할 수는 없습니다. 알파고는 프로그램으로 학습을 하는게 아니라 경험으로 학습을 하기 때문이죠.

그 경험이란 수많은 반복을 통해서 데이터에 축적이 되는 것이고요. 그 수많은 데이터들을 하루만에 그 수만을 찾아서 출력확률을 낮추는 일은, 사막에서 모래알을 찾는 경우와 같을 겁니다. 더욱이 알파고의 프로그래머들은 바둑의 기본룰만 알고 있지 바둑을 잘 두지 못하는 사람들 입니다. 그러니 조금 약하게 봐주게 프로그래밍을 할 수 없다는 것이죠. 약하게 좀 바꾸려다가 메인로직이 깨지는 일이 발생을 합니다.

학습을 위해 알파고 VS 알파고의 대결을 수없이 반복했다면, 알파고는 최선의 수 만으로 경기를 진행하게 되도록 점점 학습이 되어 갑니다. 경우에 따라서 차선의 수를 두어라는 학습이 되어 있지도 않습니다. 그렇게 할 수도 없을 것이고.

신의 한수라 여겨지는 78수를 알파고는 위협적이지 않은 수라고 판단을 내린것 뿐입니다. 알파고는 중앙으로 침투한다면 정상경로로 침투하는것을 경계하고 있었는데, 그걸 우회 하니까 가장 위협적인 상황으로 간주하지 않은 것뿐이죠. 가장 정확한 표현으로는 이세돌 9단의 중앙을 침투하기 위한 78번째 수를 알파고는 다른 경우의 수로 결론을 내고 앞으로 전개될 이세돌 9단의 주 공격방향에 대해서 무장해제를 한 것 것이죠.

즉, 알파고가 봐준게 아니라, 저런 우회한 패턴의 공격은 처음 받아본 것이죠. 물론, 내일도 통할 가능성이 매우 높습니다.

왜? 알파고는 지면서도 학습을 한 것이지만, 한판을 졌다고 바로 자기 자신을 수정하는게 아니라 조금 더 같은 패턴으로 져야지 알파고의 데이터에 반드시 처리해야 할 위협으로 인지를 하게 됩니다. 경험의 축적이겠죠. 지금까지 엄청난 데이터가 쌓였는데 한두번의 경험의 추가는 전체 DB 대비하면 정말 보잘것 없는 경험이니까, 저런 경우를 보다 많이 쌓아야 알파고가 제대로 대응을 하기 시작할 겁니다.

이세돌은 그것을 버그라고 표현을 하는데요, 명백하게 표현하면 버그가 아닙니다. 버그라면 알파고의 오류인데요. 인공지능의 경험부족을 오류라고 판단하지는 않거든요. 오류라면 반드시 디버깅을 해서 없애야 겠지만, 저건 그냥 그런 경우를 반복해서 넣어주면 해결되는 문제니까요.

단지 알파고는 그러한 우회하는 경우를 아직 경험하지 못했다가 맞습니다. 성동격서 전략에 인공지능은 대응을 못하는 것이죠. 제 3국인 팻감 싸움도 성동격서 전략중 하나라서 알파고가 약할 것으로 분석이 되었지만, 실제 패싸움의 경험이 있어서 패사움식의 성동격서는 안통했던것 뿐입니다.

알파고가 유일하게 봐줄 수 있게 자비를 배푼다면. 1,200대로 구성된 서버군에서 몇대를 줄여주는 방식으로 연산능력을 떨어트리는 방법밖에 없는데, 그렇다면 게임중 내내 알파고가 우세하게 경기를 진행한 부분은 설명이 되지 않죠.

애당초 이번 이벤트의 목적은 알파고 완성도를 프로그래머들이 스스로 체크를 하는 것이라고 보여집니다. 즉, 언제나 베스트로 몰아붙여야 그 한계를 알 수 있는데, 그런 '스트레스테스트'를 통해서만이 알파고의 완성도를 높여줄 수 있기 때문입니다.

저 경우에 저것을 보완하기 위해 프로그래머들이 할 수 있는것도 사실 별로 없습니다. 저런 경우를 많이 발생만 시켜주면 알파고가 스스로 대처를 할테니까요. 그게 바로 인공지능 입니다.

서로 극한 한계속에서 이세돌 9단이 묘수를 찾아낸 것이죠. 이세돌이 찾아낸 이 약점은 바둑 한판을 이길 수 있는 묘수가 아니고, 인공지능이라면 절대로 알아차릴 수 없는 근본적인 약점을 발견해낸 것입니다. 이제부터는 인공지능의 근본적인 약점을 알았으니, 이세돌 9단은 자신의 실수만 없다면 비슷한 상황을 연출하며 가지고 놀정도까지로 알파고를 농락할 수도 있을겁니다.

항상 최선의 수만 찾는 알파고, 최선의 경우만 연산해내는 알파고에게 차선의 수로 대응했을때 알파고는 상대가 그게 최선의 수라고 생각했는데, 그것이 최선이라면 자신은 위협적이 않다라고 판단하지 않고 다른곳을 공격하기 위해 알파고의 타겟이 옮겨진다는 것이죠. 인공지능은 상대를 속이지 않습니다. 그러나 인간은 인공지능을 속일 수 있죠. 성동격서에 인공지능이 대응하지 못한 것이죠.

딥마인드의 프로그래머들이 발견한 알파고의 문제점이란 바로 이런 문제점 입니다.

즉, 상대의 성동격서가 진패인지 허패인지 판단을 할 수 없어서 인간의 진짜 노림수가 무엇인지 알아내지 못한다는 것이죠.

(그때 그때 바뀌는 갈대와 같은 인간의 마음을 어떻게 프로그램으로 설명하거나 이해를 할 수 있겠나요..)

그래서 상대의 트릭이 난무한 스타크래프트를 차기 프로젝트로 상정한 것입니다. 상대의 진패가 아닌 허패까지 들여다보는 인공지능은 지금까지의 알파고와는 다른 몇차원이 높은 인공지능이 될 것입니다. 그러나 그 부분을 보완하기란 논리적으로 불가능에 가깝지 않나 생각 합니다 그래서 이제부터 더 어려운 작업이 되겠죠. 본격적인 완성도가 높은 인공지능의 개발은 지금부터라고 말씀드리고 싶네요. 어려움은 지금부터 시작이 되겠죠.

알파고가 일부러 져주었다를 논리적으로 설명하는게 더 불가능하다는 것을 말씀드리고 싶네요.

알파고가 일부러 져주었다를 논리적으로 설명하는게 더 불가능.

알파고가 일부러 져주었다를 논리적으로 설명하는게 더 불가능.

Comments