- 다양한 주제에 대해 자유롭게 글을 작성하는 게시판입니다.
Date | 16/03/13 19:02:31수정됨 |
Name | Azurespace |
Subject | 알파고의 약점이란 |
작성자가 본문을 삭제한 글입니다. 8
이 게시판에 등록된 Azurespace님의 최근 게시물
|
제가 바둑을 몰라서 이번에 정확하게 어떻게 먹였는지는 모르겠는데, 동일한 학습방식을 쓴 다른 프로그램이나 체스의 경우에는 결과를 피드백하는 수단을 매우 단순화하고 그냥 실전 돌입에 가깝게 시켰을 겁니다. 발생하는 데이터를 코딩하는 방식에 오히려 더 힘을 쏟았을 거고... 체스로 치면 뭐 오프닝을 가르친다거나 엔드게임의 기본수를 가르친다거나 이런 거 없이, 몇 가지 원칙(기물은 같은 칸에 두 개 있을 수 없다, 늦게 들어온 게 먼저 있던 걸 치운다, 같은 색의 기물은 서로를 공략하지 않는다, 킹이 잡힐 수 밖에 없는 상황에 들어가면 ... 더 보기
제가 바둑을 몰라서 이번에 정확하게 어떻게 먹였는지는 모르겠는데, 동일한 학습방식을 쓴 다른 프로그램이나 체스의 경우에는 결과를 피드백하는 수단을 매우 단순화하고 그냥 실전 돌입에 가깝게 시켰을 겁니다. 발생하는 데이터를 코딩하는 방식에 오히려 더 힘을 쏟았을 거고... 체스로 치면 뭐 오프닝을 가르친다거나 엔드게임의 기본수를 가르친다거나 이런 거 없이, 몇 가지 원칙(기물은 같은 칸에 두 개 있을 수 없다, 늦게 들어온 게 먼저 있던 걸 치운다, 같은 색의 기물은 서로를 공략하지 않는다, 킹이 잡힐 수 밖에 없는 상황에 들어가면 끝난다)만, 아주 낮은 수준에서 가르치고 시작하는 거죠. 저 원칙도 몇 개는 생략가능합니다. 예컨대 스테일메이트랑 체크메이트를 그냥 결과값으로 다르게 주고 알아서 \'이렇게 해야 이기는 거구나\'를 익히게 할 수도 있고(체스마스터 신 버젼이 이런 식으로 돌렸던 걸로)... 인간끼리는 대충 어떻게 설명될 것도 같은데 기계에 인풋이 안 될 것 같은 or 오류가 발생할 수 있는 패턴은 아예 처음부터 가르치지 않고 학습시키고 있을거에요.
78수 이후로는 실수라기보다 이해가 되는 행태입니다.
일단 강화학습은 문제에 대해 보상(reward)이 정의가 되면. 이 보상을 최대로 만들 수 있는 방향으로 스스로의 행동 정책을 바꿔나갑니다. 그런데 알파고 논문을 보면 이기면 보상이 +1, 지면 보상이 -1(벌칙)으로 정의하고 있습니다.
즉 한 점 차로 이기나 수십수 차이로 이기나 동일한 것처럼, 한 점 차로 지나 수십수 차이로 지나 똑같다고 생각하는 것이죠.
그래서 여기다 두나 지고 저기다 두나 똑같이 지니까 말도 안 되는 수를 막 던지는 겁니다.
... 더 보기
일단 강화학습은 문제에 대해 보상(reward)이 정의가 되면. 이 보상을 최대로 만들 수 있는 방향으로 스스로의 행동 정책을 바꿔나갑니다. 그런데 알파고 논문을 보면 이기면 보상이 +1, 지면 보상이 -1(벌칙)으로 정의하고 있습니다.
즉 한 점 차로 이기나 수십수 차이로 이기나 동일한 것처럼, 한 점 차로 지나 수십수 차이로 지나 똑같다고 생각하는 것이죠.
그래서 여기다 두나 지고 저기다 두나 똑같이 지니까 말도 안 되는 수를 막 던지는 겁니다.
... 더 보기
78수 이후로는 실수라기보다 이해가 되는 행태입니다.
일단 강화학습은 문제에 대해 보상(reward)이 정의가 되면. 이 보상을 최대로 만들 수 있는 방향으로 스스로의 행동 정책을 바꿔나갑니다. 그런데 알파고 논문을 보면 이기면 보상이 +1, 지면 보상이 -1(벌칙)으로 정의하고 있습니다.
즉 한 점 차로 이기나 수십수 차이로 이기나 동일한 것처럼, 한 점 차로 지나 수십수 차이로 지나 똑같다고 생각하는 것이죠.
그래서 여기다 두나 지고 저기다 두나 똑같이 지니까 말도 안 되는 수를 막 던지는 겁니다.
제가 딥마인드 직원이었다면 보상을 게임 종료 후의 집수 차이로 했을 텐데, 그렇게 안 한 이유가 따로 있는지는 모르겠습니다만... 그렇게 변경해서 다시 학습시키면 이기고 있을 때나 지고 있을 때나 최선을 다해 격차를 벌리거나 좁히려고 노력할 것을 기대할 수 있습니다.
일단 강화학습은 문제에 대해 보상(reward)이 정의가 되면. 이 보상을 최대로 만들 수 있는 방향으로 스스로의 행동 정책을 바꿔나갑니다. 그런데 알파고 논문을 보면 이기면 보상이 +1, 지면 보상이 -1(벌칙)으로 정의하고 있습니다.
즉 한 점 차로 이기나 수십수 차이로 이기나 동일한 것처럼, 한 점 차로 지나 수십수 차이로 지나 똑같다고 생각하는 것이죠.
그래서 여기다 두나 지고 저기다 두나 똑같이 지니까 말도 안 되는 수를 막 던지는 겁니다.
제가 딥마인드 직원이었다면 보상을 게임 종료 후의 집수 차이로 했을 텐데, 그렇게 안 한 이유가 따로 있는지는 모르겠습니다만... 그렇게 변경해서 다시 학습시키면 이기고 있을 때나 지고 있을 때나 최선을 다해 격차를 벌리거나 좁히려고 노력할 것을 기대할 수 있습니다.
그동안 알파고가 바둑을 두는 것을 관찰해 보니 구글이 알파고에 적용한 인공지능 방법론은 다음과 같은 두 가지 약점을 보이게 되는 것 같습니다.
일반화의 오류, 그리고 이 오류로 인해 나타나는 일반적이지 않은 특이한 상황에 대한 대응 능력 부족.
아마도 현재의 딥러닝 + 자가학습을 통한 추상화는 일반화에 특화되어 있는 것으로 보이지만 이 일반화라는 것에만 특화되다 보니 인간으로 치면 \'지나친 편견을 가진 사람\'과 비슷하게 되는 것 같습니다(평균값 집착증이라고 표현할 수도 있을 것 같고요).
물론 이게 대체로 큰 장점으... 더 보기
일반화의 오류, 그리고 이 오류로 인해 나타나는 일반적이지 않은 특이한 상황에 대한 대응 능력 부족.
아마도 현재의 딥러닝 + 자가학습을 통한 추상화는 일반화에 특화되어 있는 것으로 보이지만 이 일반화라는 것에만 특화되다 보니 인간으로 치면 \'지나친 편견을 가진 사람\'과 비슷하게 되는 것 같습니다(평균값 집착증이라고 표현할 수도 있을 것 같고요).
물론 이게 대체로 큰 장점으... 더 보기
그동안 알파고가 바둑을 두는 것을 관찰해 보니 구글이 알파고에 적용한 인공지능 방법론은 다음과 같은 두 가지 약점을 보이게 되는 것 같습니다.
일반화의 오류, 그리고 이 오류로 인해 나타나는 일반적이지 않은 특이한 상황에 대한 대응 능력 부족.
아마도 현재의 딥러닝 + 자가학습을 통한 추상화는 일반화에 특화되어 있는 것으로 보이지만 이 일반화라는 것에만 특화되다 보니 인간으로 치면 \'지나친 편견을 가진 사람\'과 비슷하게 되는 것 같습니다(평균값 집착증이라고 표현할 수도 있을 것 같고요).
물론 이게 대체로 큰 장점으로 작용하긴 하지만 편견(지나친 일반화)으로 인해 무시하게 되는 정보들이 발생(그리고 이들 중에는 바둑으로 치면 \'신의 한수\'같은 중요한 정보도 포함될 수 있습니다)하고 이로 인해 돌발상황(일반적이지 않은 상황, 평균값에서 벗어난 상황, 지나친 일반화를 통해 무시하게 된 정보들, 버렸던 정보들 중에 신의 한수 같은 중요한 정보가 포함된 상황)이 발생하면 그에 대한 대처를 하는 학습을 하지 않은 탓에 알둥지둥^^하게 될 수 있다는 생각이 들더군요.
그래서 어떻게 보면 안전을 책임져야 하는 상황에서 작동하는 인공지능(이를테면 무인 운전 인공지능)에 알파고에 적용된 알고리즘을 적용하게 되면 돌발상황에 대한 대처가 약하기 때문에 그대로 사고로 이어질 수도 있다는 생각입니다.
그래서 구글이 무인 운전 인공지능을 테스트하다가 인공지능의 실수로 사고가 난 것이 아닌가 하는 생각이 들고요.
따라서 현재의 인공지능을 보완할 수 있는 방법에 대한 연구가 필수적일 것 같습니다(제 생각에는 만일 이게 만만치 않은 일이라면 이 분야에 특화된 기술을 가진 기업을 만들면 대박날 것 같다는 생각도 언뜻 들기도 하네요).
그리고 이것은 일종의 버그로도 볼 수 있기 때문에 이에 대한 해법을 찾지 않은 채로 인공지능을 안전과 관련된 분야나 돌발 상황 거의 발생하지 않는데 한번 발생하면 심한 손해나 손상을 입을 수 있는 분야에 적용한다면 언젠가는 필연적으로 안전 등에 큰 문제를 일으킬 수밖에 없다고 봅니다.
따라서 현재의 알파고에 적용된 인공지능 기술은 \'통제가 잘 되는 상황\'에만 국한해서 적용할 수 있는 아직은 일반화될 수 없는 기술이라고 볼 수 있다는 생각입니다.
만일 이러한 단점(일반화에만 집착해서 편견을 가질 수밖에 없는 인공지능)을 보완하게 된다면 \'통제가 잘 되지 않는 상황\'에서도 적용되는 일반화된 기술로 적용할 수 있어 신세계가 열릴 것 같고요.
여담으로... 이런 기술로 발전된다면 바둑의 신이 되는 것도 가능할 것 같다는 생각입니다.
그리고 이렇게 하려면 제가 지금은 일반화하면서 버리는 것 같다고 생각하고 있는 데이터를 활용하는 게 키가 될 수도 있겠다는 생각도 함께 드네요.
그런데 이게 그렇게 어려울 것 같지는 않고... 아니... 어려울까요? ^^;
일반화의 오류, 그리고 이 오류로 인해 나타나는 일반적이지 않은 특이한 상황에 대한 대응 능력 부족.
아마도 현재의 딥러닝 + 자가학습을 통한 추상화는 일반화에 특화되어 있는 것으로 보이지만 이 일반화라는 것에만 특화되다 보니 인간으로 치면 \'지나친 편견을 가진 사람\'과 비슷하게 되는 것 같습니다(평균값 집착증이라고 표현할 수도 있을 것 같고요).
물론 이게 대체로 큰 장점으로 작용하긴 하지만 편견(지나친 일반화)으로 인해 무시하게 되는 정보들이 발생(그리고 이들 중에는 바둑으로 치면 \'신의 한수\'같은 중요한 정보도 포함될 수 있습니다)하고 이로 인해 돌발상황(일반적이지 않은 상황, 평균값에서 벗어난 상황, 지나친 일반화를 통해 무시하게 된 정보들, 버렸던 정보들 중에 신의 한수 같은 중요한 정보가 포함된 상황)이 발생하면 그에 대한 대처를 하는 학습을 하지 않은 탓에 알둥지둥^^하게 될 수 있다는 생각이 들더군요.
그래서 어떻게 보면 안전을 책임져야 하는 상황에서 작동하는 인공지능(이를테면 무인 운전 인공지능)에 알파고에 적용된 알고리즘을 적용하게 되면 돌발상황에 대한 대처가 약하기 때문에 그대로 사고로 이어질 수도 있다는 생각입니다.
그래서 구글이 무인 운전 인공지능을 테스트하다가 인공지능의 실수로 사고가 난 것이 아닌가 하는 생각이 들고요.
따라서 현재의 인공지능을 보완할 수 있는 방법에 대한 연구가 필수적일 것 같습니다(제 생각에는 만일 이게 만만치 않은 일이라면 이 분야에 특화된 기술을 가진 기업을 만들면 대박날 것 같다는 생각도 언뜻 들기도 하네요).
그리고 이것은 일종의 버그로도 볼 수 있기 때문에 이에 대한 해법을 찾지 않은 채로 인공지능을 안전과 관련된 분야나 돌발 상황 거의 발생하지 않는데 한번 발생하면 심한 손해나 손상을 입을 수 있는 분야에 적용한다면 언젠가는 필연적으로 안전 등에 큰 문제를 일으킬 수밖에 없다고 봅니다.
따라서 현재의 알파고에 적용된 인공지능 기술은 \'통제가 잘 되는 상황\'에만 국한해서 적용할 수 있는 아직은 일반화될 수 없는 기술이라고 볼 수 있다는 생각입니다.
만일 이러한 단점(일반화에만 집착해서 편견을 가질 수밖에 없는 인공지능)을 보완하게 된다면 \'통제가 잘 되지 않는 상황\'에서도 적용되는 일반화된 기술로 적용할 수 있어 신세계가 열릴 것 같고요.
여담으로... 이런 기술로 발전된다면 바둑의 신이 되는 것도 가능할 것 같다는 생각입니다.
그리고 이렇게 하려면 제가 지금은 일반화하면서 버리는 것 같다고 생각하고 있는 데이터를 활용하는 게 키가 될 수도 있겠다는 생각도 함께 드네요.
그런데 이게 그렇게 어려울 것 같지는 않고... 아니... 어려울까요? ^^;
1점차와 3점차 둘다 변수없이 이기는 수라면 머신러닝 관점에서 똑같은 최적값입니다.
실제로는 그런 경우도 잘 없거니와 최선을 다하지 않는 것 같이 보여도 그 이전과 같은 알고리즘으로 동작하고 있는거죠.. 승률 최대화...
아시다시피 최적화 문제에 항을 하나 더 추가하면 두 항이 정확히 같은 모양을 갖지 않는 이상 기존식의 최적값에는 손실이 생기게 됩니다.
즉 아주 작더라도 얼마간의 승률을 희생해서야 집차를 벌릴 수 있다는 거지요.
말씀하신 내용이 적절한 근거로서 들어지기 위해서는 1점, 3점차 상황에서 변수없이 동... 더 보기
실제로는 그런 경우도 잘 없거니와 최선을 다하지 않는 것 같이 보여도 그 이전과 같은 알고리즘으로 동작하고 있는거죠.. 승률 최대화...
아시다시피 최적화 문제에 항을 하나 더 추가하면 두 항이 정확히 같은 모양을 갖지 않는 이상 기존식의 최적값에는 손실이 생기게 됩니다.
즉 아주 작더라도 얼마간의 승률을 희생해서야 집차를 벌릴 수 있다는 거지요.
말씀하신 내용이 적절한 근거로서 들어지기 위해서는 1점, 3점차 상황에서 변수없이 동... 더 보기
1점차와 3점차 둘다 변수없이 이기는 수라면 머신러닝 관점에서 똑같은 최적값입니다.
실제로는 그런 경우도 잘 없거니와 최선을 다하지 않는 것 같이 보여도 그 이전과 같은 알고리즘으로 동작하고 있는거죠.. 승률 최대화...
아시다시피 최적화 문제에 항을 하나 더 추가하면 두 항이 정확히 같은 모양을 갖지 않는 이상 기존식의 최적값에는 손실이 생기게 됩니다.
즉 아주 작더라도 얼마간의 승률을 희생해서야 집차를 벌릴 수 있다는 거지요.
말씀하신 내용이 적절한 근거로서 들어지기 위해서는 1점, 3점차 상황에서 변수없이 동일하게 이기는 수인 경우가 아니라 두 상황이 알파고 대국 알고리즘의 유한한 탐색공간 상에서는 동일한 혹은 거의 같은 값을 가지나 실제로는 3점차 상황이 유의미하게 유리한 상황일 수 있다는 (실제로 옳을 가능성이 높은) 가정이 있어야 합니다. 그리고 이 경우에, 이전 글에서 말씀하셨다시피 지고있는 상황에서도 최대한 따라붙는 알파고의 행동이 의미가 있을 수 있습니다. 탐색하는 유한한 수 공간 내에서 어떻게 해서든 역전을 만들어 내려고 무리한 수를 찾기보단 차라리 따라붙는 행동이 더 나은 결과를 가져오는 경우가 있을텐데 그러한 전략적 포지션 변화가 말씀하신 것처럼 이루어진다면 일종의 메타 알고리즘으로서 가치가 있을 것으로 생각합니다.
실제로는 그런 경우도 잘 없거니와 최선을 다하지 않는 것 같이 보여도 그 이전과 같은 알고리즘으로 동작하고 있는거죠.. 승률 최대화...
아시다시피 최적화 문제에 항을 하나 더 추가하면 두 항이 정확히 같은 모양을 갖지 않는 이상 기존식의 최적값에는 손실이 생기게 됩니다.
즉 아주 작더라도 얼마간의 승률을 희생해서야 집차를 벌릴 수 있다는 거지요.
말씀하신 내용이 적절한 근거로서 들어지기 위해서는 1점, 3점차 상황에서 변수없이 동일하게 이기는 수인 경우가 아니라 두 상황이 알파고 대국 알고리즘의 유한한 탐색공간 상에서는 동일한 혹은 거의 같은 값을 가지나 실제로는 3점차 상황이 유의미하게 유리한 상황일 수 있다는 (실제로 옳을 가능성이 높은) 가정이 있어야 합니다. 그리고 이 경우에, 이전 글에서 말씀하셨다시피 지고있는 상황에서도 최대한 따라붙는 알파고의 행동이 의미가 있을 수 있습니다. 탐색하는 유한한 수 공간 내에서 어떻게 해서든 역전을 만들어 내려고 무리한 수를 찾기보단 차라리 따라붙는 행동이 더 나은 결과를 가져오는 경우가 있을텐데 그러한 전략적 포지션 변화가 말씀하신 것처럼 이루어진다면 일종의 메타 알고리즘으로서 가치가 있을 것으로 생각합니다.
목록 |
|