- 다양한 주제에 대해 자유롭게 글을 작성하는 게시판입니다.
Date | 16/03/11 22:24:58수정됨 |
Name | Azurespace |
Subject | 알파고가 이겼군요. |
작성자가 본문을 삭제한 글입니다. 10
이 게시판에 등록된 Azurespace님의 최근 게시물
|
후속 프로젝트로 스타크래프트 이야기가 나오던데 어떻게 생각하시나요?
물론 로봇손 만들어서 그걸로 키보드 누르고 마우스움직이게하려면 물리적인 어려움이 극복하기 위해 시간이 많이 필요할거 같은데...
저는 게임 내적인 상황만 놓고 보자면 인간의 스타크래프트와는 완전히 다른 양상이 되지 않을까 싶네요. 게임 시작부터 끝까지 정찰을 쉬지 않고 다닌다던가 기동력이 뛰어난 유닛들 위주로 활용한다던가 하지 않을까요.
알파고의 대국 소감과 비슷하게, 무탈나오면 이기기 힘드니 그 전에 이득을 많이 봐야 승산이 있다라는 이야기가 나오지 않을까 싶기도 합니다.
물론 로봇손 만들어서 그걸로 키보드 누르고 마우스움직이게하려면 물리적인 어려움이 극복하기 위해 시간이 많이 필요할거 같은데...
저는 게임 내적인 상황만 놓고 보자면 인간의 스타크래프트와는 완전히 다른 양상이 되지 않을까 싶네요. 게임 시작부터 끝까지 정찰을 쉬지 않고 다닌다던가 기동력이 뛰어난 유닛들 위주로 활용한다던가 하지 않을까요.
알파고의 대국 소감과 비슷하게, 무탈나오면 이기기 힘드니 그 전에 이득을 많이 봐야 승산이 있다라는 이야기가 나오지 않을까 싶기도 합니다.
일단 로봇팔의 수준이 인간 팔 정도라고 가정하면.... 인간 수준의 제어가 가능한 로봇팔이 지금까진 없었지만, 알파고에 사용된 DQN을 로봇팔의 컨트롤러로 사용하면 분명 가능할 겁니다. 딥마인드에선 이미 연구해서 성과가 있을 거라고 돈 걸어도 좋습니다. 원래 Q러닝 자체가 로봇 컨트롤러에서 많이 쓰던 건데 그게 딥러닝과 결합되면서 알파고와 같이 스스로 학습하면서 성능까지 경이적인 인공지능을 만들 수 있게 된 겁니다. 이걸 원래 목적인 로봇 제어로 되돌릴 경우 기존의 컨트롤러들에 비해 훨씬 뛰어난 성능을 보일 것은 뭐 자명하지 않을까... 더 보기
일단 로봇팔의 수준이 인간 팔 정도라고 가정하면.... 인간 수준의 제어가 가능한 로봇팔이 지금까진 없었지만, 알파고에 사용된 DQN을 로봇팔의 컨트롤러로 사용하면 분명 가능할 겁니다. 딥마인드에선 이미 연구해서 성과가 있을 거라고 돈 걸어도 좋습니다. 원래 Q러닝 자체가 로봇 컨트롤러에서 많이 쓰던 건데 그게 딥러닝과 결합되면서 알파고와 같이 스스로 학습하면서 성능까지 경이적인 인공지능을 만들 수 있게 된 겁니다. 이걸 원래 목적인 로봇 제어로 되돌릴 경우 기존의 컨트롤러들에 비해 훨씬 뛰어난 성능을 보일 것은 뭐 자명하지 않을까요.
아무튼 팔 스펙이 비슷하니 인터넷에 돌아다니는 것 같은 압도적인 마이크로로 지지는 않을 거라고 가정해 봅시다
(모르긴 하죠. 교전시에는 부대지정을 죄다 유닛에 뒀다가 생산할땐 다시 건물로 옮겨놓거나 하며 최적의 플레이를 할지도)
거기에 화면 전환의 최소 주기를 인간의 반응속도 한계인 0.1초 정도로 고정한다면 토비님 말씀처럼 아주 이질적인 플레이를 하진 않을 것으로 생각합니다. 그래도 김택용보다 멀테가 나을 것 같긴 하군요.
그러나 스타를 플레이하는 것이 바둑보다 더 어려운 문제입니다. 그 이유를 설명하자면
첫째로 로봇팔을 써서 키보드와 마우스로 플레이한다면, 게임 내 정보도 카메라를 통해 인식하겠지요. 상황을 인식하는 한 단계가 추가됩니다.
둘째로 스타는 일단 전략의 수가 바둑보다는 적기는 한데, 문제는 현재 눈에 보이는 상태와 과거 정보를 바탕으로 보이지 않는 것을 추측해야 합니다. 그 점이 바둑과 다른 점이지요. 동시에 여러 곳에서 동시에 이벤트가 발생할 경우 전장의 우선순위에 따라서 한 지점에 집중해서 컨트롤할 것인지, 반복해서 돌아가며 조금씩 컨트롤할 것인지 등도 판단해야 합니다.
이는 이전 상황을 고려할 필요 없이 그때 최선의 수가 무엇인지만을 턴마다 다시 계산하면 되는 바둑과 달리 신경망 네트워크 자체에 메모리 역할을 하는 재귀구조가 포함되어 있어야 함을 의미합니다. 이는 네트워크 자체의 계산량 증가를 의미합니다. 재귀신경망은 단방향 신경망보다 시간에 따른 의존관계가 있는 데이터를 잘 처리하지만 처리시간이 길어집니다.
시간 의존성이 있는 데이터를 펼쳐서(flatten) 그냥 큰 단방향 네트웨크에 넣을 수도 있긴 한데 경험상으로도 알려진 바로도 재귀신경망보다 성능이 떨어집니다.
셋째로 이렇게 신경망을 연산하는데 드는 시간이 늘어나 버리면 알파고의 두 번째 단계인 몬테카를로 서치를 적용하기 어려워집니다.
사실 알파고의 몬테카를로 법은 막 던져보는게 아니라, 신경망이 어느 위치에 두는게 좋을 것이다 하고 계산한 확률에 비례하게 돌림판을 만들어서 돌려보고 당첨된 수를 선택해보는 것입니다.
확실히 쓸모없는 위치는 버리고 한 수 한 수를 미리 둬보면서 판단한다는 점에서 프로기사의 것과 비슷한 사고과정이 완성되는 것인데
그 쓸모없는 수를 판단해야 하는 직감이 느려지게 되는 셈이라 MCTS의 성능이 떨어지고 많은 수를 두기 어려워집니다.
그리고 그때그때 최선 또는 그에 가까운 수가 있는 바둑에 비해(즉 상대의 대처를 예측할 수 있는), 상대의 대처에 따라서, 교전에 따라서, 정찰 유무에 따라서 변수가 크게 달라지는지라 인간과 컴퓨터의 차이가 그렇게 극단적으로는 벌어지지 않을지도 모릅니다. 바로 전장의 안개 개념이 있다는 점이 보드게임과 실시간 전략 게임의 결정적인 차이입니다. 아무리 컨이 좋아도 드라군이, 점추가 입구를 잡고 있는데 지상유닛으로 정찰을 나갈 수는 없지 않겠습니까?
아무리 컴퓨터라도 정찰에 다 실패하고, 건물 취소 페이크를 당하고 이러면 잘못된 선택을 할지도 모르죠. 물론 특성상 뭐가 오든 최대한 막아볼 수 있는 선택지를 선호할테니 컨트롤에 막힐 가능성도 있겠지만...
개인적으론 스2가 스1보다 변수가 커서 정복하기 더 어려울 것으로 보고요. 일반적인 상황에서의 정답이 특정한 저격빌드에 하드카운터로 박살나는 선택지일 가능성이 언제나 있는 게임이니까요. (요컨대 인공지능이 아무리 발달한다 한들, 치팅 없이 공정하게 붙으면 가위바위보에서 인간 상대로 승률이 높을까요? 게임 자체가 실력이 높은 사람이 100%이길 수 있는 게임이 아닐 경우 인공지능도 별 수 없는 거죠)
체스처럼 절대로 이기지 못하는 인공지능이 나오기는 힘들 것으로 생각하고요. 뭐 그치만 인간보다 나은 퍼포먼스는 낼 수 있을 겁니다. 10이영호 상대로 트리플 80 찍는 정도는 기대해도 되지 않을까요
다만... 위에 말한건 대체로 계산비용 관점에서 더 어렵다는 거지 불가능하다는 말이 아닙니다. 구글이 더 많은 컴퓨터 노드를 무제한적으로 추가하거나 또 다른 알고리즘을 접목하면 달라질 수 있어요. 아무래도 딥마인드 연구진들은 세계적 석학이니 제가 예측하는 것보다 두세걸음은 더 나가 있다고 보아야 하겠지요. 그래도 체스나 바둑같은 턴제 오픈맵 게임보다 어려운 것은 분명합니다.(사실 쉬우면 딥마인드에서 언급할 이유가 없죠. 어려운거 흠잡을데 없이 해내고는 다음에는 좀 더 쉬운거로 해볼게요! 할 이유가 전혀 없...)
아무튼 팔 스펙이 비슷하니 인터넷에 돌아다니는 것 같은 압도적인 마이크로로 지지는 않을 거라고 가정해 봅시다
(모르긴 하죠. 교전시에는 부대지정을 죄다 유닛에 뒀다가 생산할땐 다시 건물로 옮겨놓거나 하며 최적의 플레이를 할지도)
거기에 화면 전환의 최소 주기를 인간의 반응속도 한계인 0.1초 정도로 고정한다면 토비님 말씀처럼 아주 이질적인 플레이를 하진 않을 것으로 생각합니다. 그래도 김택용보다 멀테가 나을 것 같긴 하군요.
그러나 스타를 플레이하는 것이 바둑보다 더 어려운 문제입니다. 그 이유를 설명하자면
첫째로 로봇팔을 써서 키보드와 마우스로 플레이한다면, 게임 내 정보도 카메라를 통해 인식하겠지요. 상황을 인식하는 한 단계가 추가됩니다.
둘째로 스타는 일단 전략의 수가 바둑보다는 적기는 한데, 문제는 현재 눈에 보이는 상태와 과거 정보를 바탕으로 보이지 않는 것을 추측해야 합니다. 그 점이 바둑과 다른 점이지요. 동시에 여러 곳에서 동시에 이벤트가 발생할 경우 전장의 우선순위에 따라서 한 지점에 집중해서 컨트롤할 것인지, 반복해서 돌아가며 조금씩 컨트롤할 것인지 등도 판단해야 합니다.
이는 이전 상황을 고려할 필요 없이 그때 최선의 수가 무엇인지만을 턴마다 다시 계산하면 되는 바둑과 달리 신경망 네트워크 자체에 메모리 역할을 하는 재귀구조가 포함되어 있어야 함을 의미합니다. 이는 네트워크 자체의 계산량 증가를 의미합니다. 재귀신경망은 단방향 신경망보다 시간에 따른 의존관계가 있는 데이터를 잘 처리하지만 처리시간이 길어집니다.
시간 의존성이 있는 데이터를 펼쳐서(flatten) 그냥 큰 단방향 네트웨크에 넣을 수도 있긴 한데 경험상으로도 알려진 바로도 재귀신경망보다 성능이 떨어집니다.
셋째로 이렇게 신경망을 연산하는데 드는 시간이 늘어나 버리면 알파고의 두 번째 단계인 몬테카를로 서치를 적용하기 어려워집니다.
사실 알파고의 몬테카를로 법은 막 던져보는게 아니라, 신경망이 어느 위치에 두는게 좋을 것이다 하고 계산한 확률에 비례하게 돌림판을 만들어서 돌려보고 당첨된 수를 선택해보는 것입니다.
확실히 쓸모없는 위치는 버리고 한 수 한 수를 미리 둬보면서 판단한다는 점에서 프로기사의 것과 비슷한 사고과정이 완성되는 것인데
그 쓸모없는 수를 판단해야 하는 직감이 느려지게 되는 셈이라 MCTS의 성능이 떨어지고 많은 수를 두기 어려워집니다.
그리고 그때그때 최선 또는 그에 가까운 수가 있는 바둑에 비해(즉 상대의 대처를 예측할 수 있는), 상대의 대처에 따라서, 교전에 따라서, 정찰 유무에 따라서 변수가 크게 달라지는지라 인간과 컴퓨터의 차이가 그렇게 극단적으로는 벌어지지 않을지도 모릅니다. 바로 전장의 안개 개념이 있다는 점이 보드게임과 실시간 전략 게임의 결정적인 차이입니다. 아무리 컨이 좋아도 드라군이, 점추가 입구를 잡고 있는데 지상유닛으로 정찰을 나갈 수는 없지 않겠습니까?
아무리 컴퓨터라도 정찰에 다 실패하고, 건물 취소 페이크를 당하고 이러면 잘못된 선택을 할지도 모르죠. 물론 특성상 뭐가 오든 최대한 막아볼 수 있는 선택지를 선호할테니 컨트롤에 막힐 가능성도 있겠지만...
개인적으론 스2가 스1보다 변수가 커서 정복하기 더 어려울 것으로 보고요. 일반적인 상황에서의 정답이 특정한 저격빌드에 하드카운터로 박살나는 선택지일 가능성이 언제나 있는 게임이니까요. (요컨대 인공지능이 아무리 발달한다 한들, 치팅 없이 공정하게 붙으면 가위바위보에서 인간 상대로 승률이 높을까요? 게임 자체가 실력이 높은 사람이 100%이길 수 있는 게임이 아닐 경우 인공지능도 별 수 없는 거죠)
체스처럼 절대로 이기지 못하는 인공지능이 나오기는 힘들 것으로 생각하고요. 뭐 그치만 인간보다 나은 퍼포먼스는 낼 수 있을 겁니다. 10이영호 상대로 트리플 80 찍는 정도는 기대해도 되지 않을까요
다만... 위에 말한건 대체로 계산비용 관점에서 더 어렵다는 거지 불가능하다는 말이 아닙니다. 구글이 더 많은 컴퓨터 노드를 무제한적으로 추가하거나 또 다른 알고리즘을 접목하면 달라질 수 있어요. 아무래도 딥마인드 연구진들은 세계적 석학이니 제가 예측하는 것보다 두세걸음은 더 나가 있다고 보아야 하겠지요. 그래도 체스나 바둑같은 턴제 오픈맵 게임보다 어려운 것은 분명합니다.(사실 쉬우면 딥마인드에서 언급할 이유가 없죠. 어려운거 흠잡을데 없이 해내고는 다음에는 좀 더 쉬운거로 해볼게요! 할 이유가 전혀 없...)
http://i.imgur.com/UrgNtlj.jpg
방금 이런 이미지가 올라온 걸 보고 AI가 사진 속 이미지 중 어떤 것이 치와와이고 어떤 것이 머핀인지 구분할 수 있을까 궁금해서 이미지 인식페이지에 업로드해봤더니 치와와라고만 답을 했어요. https://www.imageidentify.com/result/0ha5c63x3wphe
AI가 아직까지는 구분을 못하는가봐요. 바둑은 잘 두던데 갑자기 싱거워진 ㅋ.
저거 구분하면 정말 섬득할 것 같아요.
방금 이런 이미지가 올라온 걸 보고 AI가 사진 속 이미지 중 어떤 것이 치와와이고 어떤 것이 머핀인지 구분할 수 있을까 궁금해서 이미지 인식페이지에 업로드해봤더니 치와와라고만 답을 했어요. https://www.imageidentify.com/result/0ha5c63x3wphe
AI가 아직까지는 구분을 못하는가봐요. 바둑은 잘 두던데 갑자기 싱거워진 ㅋ.
저거 구분하면 정말 섬득할 것 같아요.
인간이 생각하는 좋은 수 나쁜수라는 게 결국 내가 이렇게 둬보니 나중에 좋았더라라는 경험에서 나오는 것이고, 이런 경험은 스승으로부터 제자로 계속 대물림되는데요... 변화에 부정적이고 한번 나쁜 수로 정해지면 그걸 계속 피하므로 새로운 수를 내기 어렵지요.
알파고 같은 경우 수십만 수백만 판을 직접 둬보면서 자신만의 경험을 쌓아왔기에 인간이 생각하는 수감각과 전혀 다를 수밖에 없습니다.
저 개인적으로는 원래부터 바둑은 바둑일 뿐 좋은 수도 나쁜 수도 존재하지 않았던 것은 아닐까 생각합니다. 인간은 계산에 자신이 없기에 전... 더 보기
알파고 같은 경우 수십만 수백만 판을 직접 둬보면서 자신만의 경험을 쌓아왔기에 인간이 생각하는 수감각과 전혀 다를 수밖에 없습니다.
저 개인적으로는 원래부터 바둑은 바둑일 뿐 좋은 수도 나쁜 수도 존재하지 않았던 것은 아닐까 생각합니다. 인간은 계산에 자신이 없기에 전... 더 보기
인간이 생각하는 좋은 수 나쁜수라는 게 결국 내가 이렇게 둬보니 나중에 좋았더라라는 경험에서 나오는 것이고, 이런 경험은 스승으로부터 제자로 계속 대물림되는데요... 변화에 부정적이고 한번 나쁜 수로 정해지면 그걸 계속 피하므로 새로운 수를 내기 어렵지요.
알파고 같은 경우 수십만 수백만 판을 직접 둬보면서 자신만의 경험을 쌓아왔기에 인간이 생각하는 수감각과 전혀 다를 수밖에 없습니다.
저 개인적으로는 원래부터 바둑은 바둑일 뿐 좋은 수도 나쁜 수도 존재하지 않았던 것은 아닐까 생각합니다. 인간은 계산에 자신이 없기에 전에 두었던 곳에 수를 이어서 두려는 경향이 있지만, 알파고는 상대의 응수가 자신의 의도대로 흘러가지 않는 경우 그냥 손을 빼서 다른 곳에서 대신 이득을 취하는 것 뿐이죠. 알파고의 수를 두고 인간의 기준으로 실수라 평하는 것이야말로 실수입니다.
알파고 같은 경우 수십만 수백만 판을 직접 둬보면서 자신만의 경험을 쌓아왔기에 인간이 생각하는 수감각과 전혀 다를 수밖에 없습니다.
저 개인적으로는 원래부터 바둑은 바둑일 뿐 좋은 수도 나쁜 수도 존재하지 않았던 것은 아닐까 생각합니다. 인간은 계산에 자신이 없기에 전에 두었던 곳에 수를 이어서 두려는 경향이 있지만, 알파고는 상대의 응수가 자신의 의도대로 흘러가지 않는 경우 그냥 손을 빼서 다른 곳에서 대신 이득을 취하는 것 뿐이죠. 알파고의 수를 두고 인간의 기준으로 실수라 평하는 것이야말로 실수입니다.
jsclub, 하니남편 님// 바로 그 소립니다. 알파고의 기력 자체가 이세돌보다 높다란 거죠. 패싸움으로 가든 뭘로 가든 이기기는 어려울 겁니다.
알파고도 어려운 수에서는 오래 고민합니다. 패가 많으면 둬볼만한 위치가 많아지니 이것과 저것 사이에서 뭐가 좋은지 판단하기 쉽지 않으니까요.
초읽기 1분 동안 고민하다가 그중에서 낫다고 생각되는 수를 놓게 되는데 문제는 이세돌도 같은 시간 동안 생각해야 한다는 것이고, 그 동안 머릿속으로 둬볼 수 있는 수는 당연히 알파고가 더 많습니다.
시피유의 연산 속도에도 물리적인 한계는 있는데, 그래봐야 인간 뇌보단 빠릅니다. 그리고 그것이 가장 큰 문젭니다...
알파고도 어려운 수에서는 오래 고민합니다. 패가 많으면 둬볼만한 위치가 많아지니 이것과 저것 사이에서 뭐가 좋은지 판단하기 쉽지 않으니까요.
초읽기 1분 동안 고민하다가 그중에서 낫다고 생각되는 수를 놓게 되는데 문제는 이세돌도 같은 시간 동안 생각해야 한다는 것이고, 그 동안 머릿속으로 둬볼 수 있는 수는 당연히 알파고가 더 많습니다.
시피유의 연산 속도에도 물리적인 한계는 있는데, 그래봐야 인간 뇌보단 빠릅니다. 그리고 그것이 가장 큰 문젭니다...
알파고 기준의 어려운 수라는 것은 결국 탐색 가지들 중에서 비슷비슷한 승리확률을 가지는 수가 여럿 나와서 절대수를 확정짓기 어려울 때지요.
90%/70/70이면 그냥 90프로 수를 두고 탐색을 그만두면 되는데, 60/61/62 중에선 뭐가 정말 좋은건지 몰라서 계속 둬보는 거죠. 그런데도 뭐가 최선인지 밝혀지지 않으니 오래 생각하는 거에요.
근데 이건 달리 말하면 그 중 뭘 선택해도 이후 수순에 따라서 승리확률이 비슷하단 소리라, 알파고는 1분 초읽기 시간 동안에 계산한 아무 한 수를 일단 선택해도 그 때문에 판을 그르치진 ... 더 보기
90%/70/70이면 그냥 90프로 수를 두고 탐색을 그만두면 되는데, 60/61/62 중에선 뭐가 정말 좋은건지 몰라서 계속 둬보는 거죠. 그런데도 뭐가 최선인지 밝혀지지 않으니 오래 생각하는 거에요.
근데 이건 달리 말하면 그 중 뭘 선택해도 이후 수순에 따라서 승리확률이 비슷하단 소리라, 알파고는 1분 초읽기 시간 동안에 계산한 아무 한 수를 일단 선택해도 그 때문에 판을 그르치진 ... 더 보기
알파고 기준의 어려운 수라는 것은 결국 탐색 가지들 중에서 비슷비슷한 승리확률을 가지는 수가 여럿 나와서 절대수를 확정짓기 어려울 때지요.
90%/70/70이면 그냥 90프로 수를 두고 탐색을 그만두면 되는데, 60/61/62 중에선 뭐가 정말 좋은건지 몰라서 계속 둬보는 거죠. 그런데도 뭐가 최선인지 밝혀지지 않으니 오래 생각하는 거에요.
근데 이건 달리 말하면 그 중 뭘 선택해도 이후 수순에 따라서 승리확률이 비슷하단 소리라, 알파고는 1분 초읽기 시간 동안에 계산한 아무 한 수를 일단 선택해도 그 때문에 판을 그르치진 않습니다.
따라서 패를 이용한 연산시간 증가는 알파고의 약점이 아닙니다. 알파고 알고리즘을 잘 모르는 프로기사들이 착각하고 있는 거에요.
90%/70/70이면 그냥 90프로 수를 두고 탐색을 그만두면 되는데, 60/61/62 중에선 뭐가 정말 좋은건지 몰라서 계속 둬보는 거죠. 그런데도 뭐가 최선인지 밝혀지지 않으니 오래 생각하는 거에요.
근데 이건 달리 말하면 그 중 뭘 선택해도 이후 수순에 따라서 승리확률이 비슷하단 소리라, 알파고는 1분 초읽기 시간 동안에 계산한 아무 한 수를 일단 선택해도 그 때문에 판을 그르치진 않습니다.
따라서 패를 이용한 연산시간 증가는 알파고의 약점이 아닙니다. 알파고 알고리즘을 잘 모르는 프로기사들이 착각하고 있는 거에요.
목록 |
|