- 회원들이 추천해주신 좋은 글들을 따로 모아놓는 공간입니다.
- 추천글은 매주 자문단의 투표로 선정됩니다.
Date 22/03/13 15:24:24
Name   소요
Subject   홍차넷의 정치적 분열은 어떻게 변해 왔는가? - 뉴스게시판 정치글 '좋아요' 네트워크를 바탕으로
1. 들어가며

국가 정치를 둘러싼 갈등은 대부분의 온라인 커뮤니티에 항존합니다. 시민들은 권력을 위임받은 자들의 행위와 대립을 평가합니다. 어떤 이들은 그 평가를 다른 사람들과 적극적으로 공유하고, 그 과정에서 서로 공감하거나 다툽니다. 정치를 적극적으로 이야기하고 싶어하는 사람들에게 온라인 커뮤니티는 좋은 공간입니다. 한 개인의 메세지 전달 범위는 증폭되고, 일상적 사회/이해관계의 제약에서 벗어난 의견 표출도 가능합니다. 하지만 다른 의견을 가진 사람들과, 비대면적 상황에서 의사를 나누다보니 갈등은 더 격화되고는 합니다.

홍차넷 또한 예외가 아닙니다. 뉴스게시판과 티타임을 중심으로 국가 정치를 향한 서로 다른 평가들이 부딪칩니다. 작은 규모가 만들어 낸 준대면적 맥락이 많은 갈등의 수위를 낮추지만, 정치적 갈등은 이를 뚫어내고 고개를 들고는 합니다. 아마 국가 정치에 대한 평가가 현실 인식, 가치 체계, 도덕 인식과 깊게 맞닿아 있기 때문이지 않나 싶습니다.

온라인 커뮤니티에 대한 메타적인 평가는 나무위키 등을 바탕으로 유통됩니다. 평가에는 각 커뮤니티의 정치적 성향을 기술하는 정보가 자주 포함됩니다. 흔히 현재 정권에 대한 찬반으로 환원되는 수준이지만요. 그래도 이러한 환원은 침묵의 나선이나, 필터 버블이 야기하는 동질화 경향을 고려하면 유용한 접근이다 싶습니다.

각 회원 분들도 홍차넷이 정치적으로 어떤 공간인가?에 대한 메타적인 평가를 각기 지니고 계실 겁니다. 이런 평가는 다른 회원들과의 정치적 상호작용, 운영진의 개입 방향에 대한 해석, 활동하는 다른 커뮤니티와의 비교를 바탕으로 쌓아올려질 것입니다. 인간 인식이 지닌 종합능력은 강력하기에 많은 경우 직관은 유용합니다. 하지만 일상적으로 우리가 접할 수 있는 정보가 국한되기에, 종합은 체계적으로 왜곡되고는 합니다.

이하에서는 홍차넷 뉴스게시판을 중심으로 회원들의 사회연결망을 분석한 결과를 공유하고자 합니다. 뉴스를 통해 던져진 정치적 이슈는 즉각적인 정치적 의견을 이끌어냅니다. 댓글을 통해 드러낸 서로 다른 정치적 의견들에 회원들은 '좋아요'를 눌러 호응합니다. 때문에 '누가, 누구에게 좋아요를 눌렀는가?'는 정치적 입장 차이를 보여줄 수 있는 지표로 삼을 수 있다 보았습니다.

분석 결과를 공유하는 이유는, 1) 홍차넷의 정치적 의견 대립 양상에 대해 각기 지니고 있는 인식을 다른 각도로 살필 기회를 나누기 위해, 2) 분석 방법의 제약으로 생기는 해석의 빈약함을 보완할 의견을 구하기 위해, 3) 대립의 수준을 가늠하고 가능하다면 이를 낮출 방법을 구하기 위해서입니다.

방법은 뼈대와 유의사항만 소개하고 본론으로 바로 넘어가겠습니다.

2. 방법


조사 범위는 2020년 1월부터 2022년 3월 9일까지입니다. 뉴스게시판에 정치 탭으로 올라온 글을 검색한 후, 댓글들에 '누가 누구에게 좋아요'를 눌렀는가를 조사했습니다. 동적 크롤링이 필요해 파이썬에서 셀레니움을 활용했습니다. 수집 과정에서 네트워크 문제로 누락된 데이터와 행위자를 파악할 수 없는 데이터(주로 탈퇴한 경우)가 일부 있지만, 랜덤하게 발생한 데이터로 간주하고 삭제 했습니다. 정제 이후 상호작용 데이터 개수는 35957개입니다. 파악된 회원은 788명입니다.

상호 간 댓글을 다는 양상이 아니라, 좋아요를 중심으로 정치적 집단 형성을 파악한 까닭은 1) 댓글을 누가 누구에게 달았느냐는 텍스트/담론 분석까지 가지 않는 이상 의견에 대한 호응인지 반대인지를 파악할 수 없어서, 2) 좋아요는 클릭 한 번만 하면 되기 때문에 정치적 공감을 표현하기에 비용이 적게 들어 더 다양한 회원들의 의견을 수집할 수 있기 때문입니다.


오해를 막기 위해 상호작용 데이터에 대한 설명을 추가하자면, 좋아요 수의 단순합과는 다릅니다. 누가 누구에게 좋아요를 눌렀다는 정보 그 자체가 하나의 단위가 됩니다. 예를 들자면,

소요 - 토비
토비 - Kaestro
소요 - 토비

같은 형태의 원데이터가 있다면 <소요-토비>가 하나의 상호작용 형태로 2의 규모를 지니고, <토비-Kaestro>가 다른 하나의 상호작용 단위로 규모는 1이 되는 식입니다.

분석은 R에서 지원하는 igraph를 이용했습니다. 1) 개개인의 중심성 지표를 살피고, 2) 중심성 상위 유저들에게 쪽지로 의견을 구해 정치적 지형 변화를 가늠할 수 있을 시기적 분할점을 잡고, 3) 네트워크 내 동류성과 결집성의 변화를 구하고, 4) 다양한 방식으로 클러스터링을 한 후 그 결과를 비교했습니다.

여기서 클러스터링 알고리즘은 세 가지를 비교했습니다. 간략하게 설명하자면, 첫째는 Leading eigenvector로 네트워크 모듈성을 최적화하는 접근입니다. 전체 데이터가 하나의 클러스터라는 가정에서 시작한 후 클러스터를 나누는 것이 모듈성을 증가시키지 않는 지점에서 탐색을 멈춥니다. 모듈성은 그래프 내에서 커뮤니티를 잡아내는 지표인데 0.3 이상일 때 유의하다고 보는 것이 일반적입니다. 둘째는 Walktrap으로 Leading eigenvector와는 반대로 모든 노드(여기서는 회원)이 하나의 커뮤니티를 가진다고 가정한 후 인접한 커뮤니티를 서로 병합한 후, 다시금 업데이트 된 정보를 바탕으로 더 큰 커뮤니티를 찾아나섭니다. 셋째는 Louvain의 방법입니다. Multilevel이라고도 불리는데, 모듈성을 이용한다는 점에서는 Leading eigenvector와 같지만 가중치를 지닌 네트워크를 위해 고안되었습니다. Walktrap과 마찬가지로 모든 노드(여기서는 회원)가 하나의 커뮤니티를 가진다는 점에서 시작하지만 모듈성을 최대화 하는 방향으로 나갑니다. 

Walktrap과 Louvain은 접근 방향은 갖지만, Louvain의 경우 모듈성을 최대화 하는 걸 목표로 하기 때문에 현재 데이터에 클러스터 구조를 최대한 맞추는 국소 최적 을 택합니다. 지금 데이터를 설명하는 데는 유용할 수 있지만, 향후 양상을 예측하기는 어려울 수 있습니다.

3. 분석 결과

1] 정치적 의견은 특정인이 주도하는가? 여러 사람들이 분산해서 주도하는가?

모두가 짐작하시지 않을까 싶지만, 홍차넷에서 정치적 의견을 주도하는 사람은 소수입니다. 정확하게 말하자면 여러 사람에게 다양하게 그리고 많은 빈도로 좋아요를 받는 사람은 얼마 없습니다. 그래프 1은 각 회원들이 각자 몇 명의 회원들과 연결되어 있는지를 가지고 내림차순으로 나열한 자료입니다. 상위 유저 몇명이 대부분을 차지하고 있지요. 아웃라이어라 할 수 있을 1번 유저를 제외한다 하더라도요.

<그래프 1> 연결중심성 분포



현실에서 발견되는 네트워크는 대부분 위와 같은 멱함수 형태의 연결분포를 보입니다. 척도 없는 네트워크(scale-free network)라는 용어로 기술합니다. 소수가 네트워크 연결의 대부분을 차지하는 형태이지요. 아직까지 우리는 네트워크의 강도를 고려하지 않았다는 걸 기억해주세요. 연결의 강도까지 고려하면 분포가 쏠린 정도는 더 커집니다. 연결강도 데이터를 로그 스케일로 변환해서 그래프 2를 그려봅시다. 개별 값에 대한 직관적 이해는 다소 약해지지만, 데이터 분포가 쏠려있다는 점은 다시금 확인할 수 있을 것입니다.

<그래프 2> 연결강도 분포(로그 변환)





2] 네트워크의 구조는 어떠한가?

우리의 관심사는 회원 개인이 네트워크에서 차지하는 위치가 아니라, 네트워크 전체의 성격입니다. 네트워크의 성격은 여러 각도로 측정할 수 있으며 대부분 네트워크가 어떤 형태로 묶여있는지를 살핍니다.

첫째, 이론적으로 가능한 최대 연결과 현재 연결을 비율을 보면 (밀도density) .046이 나옵니다. 788명이 서로 간에 가질 수 있는 최대의 연결망 중 4.6%만 존재했다는 뜻입니다. 언뜻 보기에 수치가 작아보이지만, 현실 세계에서 발견되는 대부분은 척도 없는 네트워크이기 때문에 자연스러운 수치라 할 수 있지요.

둘째, 정치적 의견을 주도하는 사람들끼리 뭉쳐있는지 아닌지 정도를 살피면 (중심 동류성degree assortativity) -.204가 나옵니다. 이 값은 -1와 +1 사이를 취합니다. +1에 가까우면 정치적 의견을 주도하는 사람(hub)들끼리 서로 좋아요를 많이 누른 거고, -1에 가까우면 그렇지 않았다고 이해하시면 됩니다. 그래프 3을 참고하시면 차이를 직관적으로 받아들이실 수 있습니다. 홍차넷의 지난 2년을 종합하면 정치적으로 비동류적 성질을 보이지만, 그 비동류성이 강하지는 않습니다.

<그래프 3> 동류성 네트워크 vs 비동류성 네트워크



출처: Hao, D., & Li, C. (2011). The dichotomy in degree correlation of biological networks. PloS one, 6(12), e28322.

셋째, 사람들끼리 얼마나 똘똘 뭉쳐있는가를 살펴보면 (결집계수Clustering Coefficient) +.318이 나옵니다. A - B, B - C일때 A - C까지 된다면 셋이 똘똘 뭉쳐있는 것으로 보는 지표입니다. 0에서 1사이 값을 가지는데, 홍차넷의 경우 1/3 정도 선에 위치하네요.

넷째, 중앙화 된 정도를 살펴보면 +.518이 나옵니다. 네트워크는 상호작용은 상당히 중앙으로 치우쳐져 있다고 예측할 수 있겠습니다.
* 하지만 네트워크 방향성을 고려하면 +.257로 떨어집니다. 방향성을 가진 네트워크까지 얘기하면 이야기가 복잡해지기 때문에 언급만 합니다.

그럼 상기한 지표를 생각하면서 실제 네트워크 모양을 살펴봅시다. 그래프 4는 클러스터링 알고리즘을 활용한 결과까지 포함합니다. 의도적으로 이분화 된 클러스터링 결과를 선택했기 때문에, 그래프에 나오는 두 집단 구분을 절대적인 것으로 받아들이시면 안 됩니다. 클러스터 관련해서는 아래에서 더 자세히 기술할 것입니다.

<그래프 4> 홍차넷 전체 네트워크 - leading eigenvector clustering



밀도는 낮고(+.046), 비동류적이나 그 수치가 높지 않고(-.204), 결집된 정도는 상당하며 (+.318), 중앙화 된 정도는 꽤 높은(+.518) 그래프입니다. 그래프 4에서는 그래프 중앙 부분이 자세히 나오지 않아, 중앙화 된 네트워크의 특징만이 뚜렷하게 보입니다. 하지만 중앙 부근을 확대하고 사람들(노드) 간 거리를 벌린 그래프 5까지 함께 보시면, 비동류성, 결집성, 밀도 등에 관한 정보까지 연결하여 읽을 수 있습니다.

<그래프 5> 홍차넷 전체 네트워크 (확대) - leading eigenvector clustering




3] 네트워크는 시기별로 어떻게 분할할 수 있을까?


우리에게 주어진 건 홍차넷의 그래프와 그 정보 뿐입니다. 다른 커뮤니티와 비교할 때 얼마나 큰지 작은지, 중앙화 되었는지 분산되었는지는 알 수 없지요. 하지만 2년 간의 자료를 시기 별로 나누어서 네트워크 변화를 살피면 우리 스스로를 이해할 수 있는 정보를 얻을 수 있습니다.

아쉽게도 제가 데이터를 분석해서 귀납적으로 시기별 분절점을 뽑아낼 능력은 아직 안 됩니다. 때문에 네트워크 내 중심성(강도가 아닌) 상위인 회원 10분께 쪽지를 구해 의견을 받았습니다. 홍차넷 뉴스게시판 정치 탭에서 다양한 회원들과 상호작용을 하는 분들이기에, 내부 변화에 대한 직관을 지니고 계시리라 기대했고요. 질문에는 홍차넷 뉴스게시판 내부의 상호작용의 변화와 정치적 이벤트 모두를 고려해 달라고 부탁했습니다. 지나치게 시기가 세분화 되는 걸 막기 위해 4개 전후로 시기 구분을 부탁했습니다.

총 10분에게 물어 7분이 답장해주셨고, 주신 의견에서 겹치는 시기를 우선하여 시기를 나누었습니다.

기간 1은 [20년도 1월 ~ 4월 15일 총선 사이]입니다. 코로나19 발발이 포함되어 있고, 윤석열-정권 대립이 지속되던 시기입니다.
기간 2는 [20년도 총선 ~ 7월 16일 박원순 자살]입니다. 5월 윤미향 사건이 포함되어 있습니다.
기간 3은 [20년도 박원순 ~  21년 4월 7일 재보궐 선거]입니다.
기간 4는 [21년 재보궐 선거 ~ 9월 14일 대장동]입니다. 6월 이준석 국민의 힘 당대표 당선이 포함되어 있습니다.
기간 5는 [21년 9월 14일 대장동 ~ 11월 국민의 힘 경선]까지입니다. 10월 더불어민주당 경선이 포함되어 있고, 오미크론 발발, 위드크로나 논의를 반영합니다.
기간 6은 [21년 국민의 힘 경선 ~ 22년 3월 9일 대선 종료]까지입니다.

기간 1: 18035, 19810
기간 2: 19810, 21024
기간 3: 21024, 23873
기간 4: 23873, 25746
기간 5: 25746, 26445
기간 6: 26445, 28546

로 각기 게시글 2000개 (기간 5만 1100개) 정도로 구분이 되어 있어, 뉴스 게시판의 자체적인 시간 축까지 담아낼 수 있다고 보았습니다. 다만 기간 5의 경우 그 성격이 다른 기간보다 불분명한 점이 있습니다. 대안적으로 2021년 1월의 윤/안 여론조사 크로스를 제안해주신 분도 있지만, 선거를 둘러싼 타임라인을 제시한 분들이 더 많았습니다.

시기 구분에 관해 상술하는 까닭은 이 구분 자체가 상호작용 양상 계산에 영향을 미치기 때문입니다. 분석 범위를 다르게 잡으면 상호작용 네트워크 형태는 달라집니다. 갈등이 심각한 시기의 네트워크와, 갈등이 심각하지 않은 시기의 네트워크는 다를 수 밖에 없습니다. 

이 글에서는 갈등을 불러일으키는 정치적 이벤트에 초점을 맞췄습니다. 외부에서 일어나는 사건들은 사람들의 정치적 견해에 영향을 미칩니다. 하지만 뉴스게시판에서 일어나는 정치적 갈등은 단순 의견 대립이라기보다는 도덕적 상위지대를 점하고자 하는 커뮤니케이션 혹은 독백을 포함합니다. 반대하는 세력의 치부는 "비교적 적은 노력을 들여서 도적적/권력적 우위를 점할 수 있어서 여론을 주도하기 용이한 사안"(회원 B, 쪽지 내용 발췌)이 됩니다. 

다른 한 가지 주의사항은 후반기로 넘어올 수록 데이터가 더 정확하다는 점입니다. 홍차넷에서 탈퇴한 인원들의 '좋아요'는 데이터 없음으로 처리되고 좋아요를 보낸 주체가 누구인지 남지 않습니다. 이를 역으로 추론할 방법은 없기에 데이터 정제 과정에서 모두 결측치로 치부하고 삭제했습니다. 과거에 뉴스게시판에 참여했던 회원 분들의 상호작용 양상은 일부분 왜곡되어 있을 수밖에 없습니다. 이 점을 감안해주시기 바랍니다.

위에 적은 두 점을 강조하면서 다음으로 넘어가겠습니다.

4] 시기별로 네트워크는 어떤 특징을 보이는가?

<표 1> 시기별 네트워크 구조 특징

비방향 그래프시기 1시기 2시기 3시기 4시기 5시기 6전체
밀도
(density)
0.040.030.040.050.040.050.05
중심 동류성
(degree assortativity)
-0.11-0.11-0.17-0.16-0.15-0.21-0.20
결집계수
(clustering coefficient)
0.220.200.270.270.250.310.32
중앙화 정도
(centralization)
0.270.300.450.420.310.430.51

시기 1부터 시기 6까지를 보면 중심 비동류성(음의 값이기 때문에)이 상승합니다. 네트워크 전체의 특징은 (희박한 밀도, 낮은 정도의 비동류성, 상당한 결집계수) 전체 그래프와 비슷하지만, 2년 사이 중심 비동류성의 크기는 .10, 결집계수의 크기는 .11 증가했습니다. 중앙화 정도는 빠르게 상승하여 .16이 되었지요. 이름 붙이자면 분극화라 할 수 있겠습니다. 소집단 내 핵심 유저를 중심으로 하는 상호작용은 강화되고, 집단의 유저 간 상호작용은 약화되었습니다.

주목할 만한 지점은 시기 3입니다.  [20년도 박원순 ~ 21년 4월 7일 재보궐 선거] 기간에는 대선 다음가는 정도로 분극화가 이루어졌습니다. 다른 기간보다 절대적인 시간 범위가 길지만 (9개월) 정치 관련 뉴스 글은 시기 1/2와 비슷하게 2000개 남짓인데, 분극화는 강하게 이루어졌지요. 중앙화는 더 심해졌고요. 원인은 박원순 사건의 영향을 제안하고 싶습니다. 하지만 시간 범위가 길기에 설명을 위해서는 세부적인 검토가 더 필요합니다.

1-6 시기에 따라 달라지는 패턴을 설명하기 위해, 정치적 갈등을 부각시키는 외부 사건의 영향과, 홍차넷 내 정치적 갈등의 누적을 모두 고려하는 큰 틀을 세울 수 있습니다. 하지만 선형적인 추세(내부 갈등의 누적)와 주기성(주기성을 지니는 외부 이벤트) 중 무엇이 영향을 더 끼치느냐는 향후 2년 간의 데이터를 추가로 겹쳐야 파악할 수 있을 것입니다. 지금 데이터는 대선 종료가 마지막 시기로 잡혀있기 때문에 갈등 상승 양상이 두드러져 보이는 것일 가능성을 배제할 수 없습니다.

해석에 주의를 달자면 '분극화'라는 표현을 사용하면 꼭 2개의 집단이 원래부터 존재했고, 그들 간의 갈등이 심화된 것으로 이해할 수 있는데 그런 지표가 아닙니다. 시기 1, 2에서는 같은 클러스터에 속했던 사람이 시기 3에서는 다른 클러스터에 속할 수도 있고, 시기 3에는 클러스터가 2개에서 4개로 늘어난 것일 수도 있는 것입니다. 이 점에 대해서는 클러스터 분석을 교차해서 봐야겠습니다.

그럼 클러스터 분석을 시작해봅시다. 클러스터링 알고리즘은 여러가지가 있습니다. 접근 방식에 따라 클러스터 수를 최대한 적게 뽑아내는 알고리즘도, 최대한 다양하게 뽑아내는 알고리즘도 있습니다. 어떤 클러스터를 적용해야 할지 결정하는 기준이 없었기에 가용한 알고리즘을 모두 적용한 후 결과를 비교했습니다. 시기에 따라 차이가 거의 나타나지 않는 알고리즘을 제외하고 Leading eigenvector, Walktrap, Louvain 알고리즘 결과를 비교합니다. Leading eigenvector은 가중치를 고려하지 않고, Walktrap과 Louvain은 가중치를 이용하기 떄문에 둘을 구분할 것입니다. 표 2부터 살펴봅시다.

<표 2> 시기별 클러스터 수의 변화

시기 1시기 2시기 3시기 4시기 5시기 6
Leading Eigenvector452222
Walktrap242422
Louvain573433
Note: 데이터 규모가 전체의 5% 이하인 클러스터들은 제거  

가중치를 고려하지 않고 클러스터를 계산해보면 , 홍차넷 뉴스게시판 정치 글에 대한 반응의 클러스터는 시기 3 이후 대규모 클러스터 2개로 양극화됩니다. 박원순 사건 이후 정치적 의견이 분극화 되었다고 주장하는 쪽에 힘이 실립니다. 

각 클러스터가 어떤 성격을 지니는지는 계속해서 변화합니다. 하지만 전 시기에 걸쳐서 특정 클러스터에만 속하는 유저들이 존재합니다. 이를 바탕으로 클러스터에 동질성과 연속성을 부여하여 2개로 구분할 수 있지요. 그래프 6와 표 3을 통해 시기 3-6에 걸쳐서 양극화 된 클러스터 규모가 약간씩 변화하지만, 클러스터 1의 크기가 큰 상태가 지속된다는 걸 볼 수 있습니다. 하지만 클러스터의 크기는 비슷할지라도 구성원은 변화합니다. 시기 3에 클러스터 1에 속했던 유저 101명은 시기 6에 클러스터 2로 재분류 되었습니다. 반대로 시기 3에 클러스터 2에 속했던 유저 117명은, 시기 6에는 클러스터 1로 바뀌었고요.

<표 3> Leading Eigenvector 클러스터 비교 (시기 3 vs 시기 6)

시기 3
(454명)
Leading Eigenvector시기 6
(511명)
Leading Eigenvector
클러스터N%클러스터N%
128963.7%133966.3%
216536.3%217033.3%
소계454100.0%소계50999.6%
Note: 표의 클러스터 번호는 클러스터 크기를 기준으로 부여한 것이기에 동일성/연속성을 가리키는 정보가 아님

<그래프 6> 양극화 된 클러스터 크기 변화 (Leading Eigenvector, 시기 3-6)


Note: 해당 그래프에서 클러스터는 주요 회원의 소속 여부를 가지고 동질성을 판단하여 재구성

조사 목적이 정치적 의견 분열의 포착이기에 가중치를 활용한 접근이 더 적합합니다. 가중치를 고려하는 경우에도 위계성을 고려하여 클러스터링을 하는가(Louvain) 아닌가에(Walktrap) 따라 클러스터의 양상은 다릅니다. 하지만 가중치(상호작용의 빈도)를 고려하는 경우 전반적으로 더 많은 클러스터를 포착합니다. 그럼에도 불구하고 시기 3, 5, 6에 분극화가 심해지는 건 비슷합니다.

Walktrap은 시기 3, 5, 6에 Leading Eigenvector처럼 양극화 된 클러스터링 결과를 내놓습니다. 클러스터의 규모 변화를 살피면 흥미로운 점을 발견할 수 있습니다. 그래프 7은 그래프 6과 마찬가지로 양극화 된 클러스터의 크기 변화를 보여주지만 양상은 달라집니다. 가중치를 고려하지 않은 그래프 6에서는 클러스터 1의 크기가 시기 6에서도 컸지만, 가중치를 고려한 그래프 7에서는 시기가 후반기로 넘어갈 수록 클러스터 2의 크기가 커져서 역전한다는 걸 볼 수 있습니다. 
* 그래프 6과 7의 구성원이 동일하지만 가중치만 달라지는 것이 아닙니다. 가중치 크기를 고려해서 새롭게 클러스터링을 한 결과입니다.

<그래프 7> 양극화 된 클러스터의 크기 변화 (Walktrap, 시기 3, 5, 6)


Note: 해당 그래프에서 클러스터는 주요 회원의 소속 여부를 가지고 동질성을 판단하여 재구성

하지만 Walktrap 방식을 통해 포착한 클러스터링에는 문제가 있습니다. <표 4>에서 볼 수 있듯이 주요 클러스터에 포함되는 회원들의 비율이 낮게는 68%까지 내려간다는 점입니다. 시기 3,5,6 사이 동일한 Walktrap 클러스터에 속한 회원들의 명단을 살펴보니, 제가 각 회원들의 정치적 입장 차이에 대해 파악하고 있던 바와는 구성이 많이 달랐습니다. Louvain 알고리즘은 클러스터를 최대한 포착하는 걸 지향하는 알고리즘이기 때문에 1개 클러스터를 더 잡아냅니다. 때문에 클러스터에 포함되는 회원들의 비율은 최소 83%까지 올라가고요. 따라서 Louvain이 제안하는 클러스터링을 중심으로 남은 논의를 전개하겠습니다.

<표 4> Walktrap vs Louvain 클러스터 (시기 3 - 시기 6)

시기 3
(454명)
WalktrapLouvain
클러스터N%N%
120545.2%22248.9%
213429.5%15935.0%
4610.1%
소계33974.7%38183.9%
시기 4
(430명)
WalktrapLouvain
클러스터N%N%
18720.2%17741.2%
28118.8%13631.6%
37517.4%8219.1%
44811.2%286.5%
소계29167.6%42398.4%
시기 5
(317명)
WalktrapLouvain
클러스터N%N%
112840.4%13342.0%
211937.5%13041.0%
3210.1%
소계24777.9%26383.0%
시기 6
(511명)
WalktrapLouvain
클러스터N%N%
123245.4%23445.8%
218135.4%17233.7%
39618.8%
소계41380.8%50298.3%
Note: 표의 클러스터 번호는 클러스터 크기를 기준으로 부여한 것이기에 동일성/연속성을 가리키는 정보가 아님

Louvain 클러스터링을 바탕으로 접근하면 홍차넷 내 정치적 지형을 다른 각도로 볼 수 있습니다. 표 4에서 보이듯이 상당한 규모의 새로운 클러스터 1개가 추가됩니다. 그래프 8은 이 제 3의 집단이 (노란색 점) 전체 네트워크에서 어떤 역할을 하는지 가늠할 수 있게 해줍니다. 이 세 번째 집단은 나뉘어져 있는 두 주요 집단 사이에서 매개자 역할을 하는 것처럼 보입니다. 검토를 위해 매개중심성의 집단별 평균치를 계산해봤습니다. 매개중심성은 네트워크 내에서 특정 회원이 중재자의 역할을 하는지 살펴보는 지표입니다. 표 5를 보면 시기 5, 6에서 클러스터 3은 크기는 작지만 매개 중심성은 타 집단보다 높은 모습을 보입니다. 

<그래프 8> 3개 클러스터 모델 (Louvain, 시기 5-6)

<표 5> 클러스터별 매개중심성 평균 (Louvain, 시기 5-6)

시기 5시기 6
클러스터N매개중심성N매개중심성
1133273.5275234571.4558
2130296.799172676.2897
332324.868896782.4063
Note: 표의 클러스터 번호는 클러스터 크기를 기준으로 부여한 것이기에 동일성/연속성을 가리키는 정보가 아님

이야기가 길어졌으니 잠시 정리를 해보겠습니다. 

1) 분절한 시기 구분을 바탕으로 데이터를 나누어보면, 홍차넷의 정치적 입장 네트워크는 지난 2년 간 지속적으로 분극화 되는 양상으로 변화했다 할 수 있습니다. 하지만 대선 2년 전부터 대선까지 자료를 수집했기에, 정치적 갈등이 상승하는 양상이 두드러지는 것일 수 있습니다. 박원순 이후에 나타난 분극화 양상의 상대적 강화를 설명하기 위해서는 다른 방식의 조사가 필요합니다. 대선이라는 정치적 이벤트 종료 이후에도 분극화가 지속될지는 향후 데이터를 더 지켜봐야 합니다.

2) 가중치를 고려하지 않고 클러스터를 계산해보면(Leading Eigenvector), 시기 3 이후 대규모 클러스터 2개로 양극화 되었습니다. 이 때 양극화 된 집단의 규모는 2:1~3:2 비율로 지속되었습니다. 가중치를 고려하여(Walktrap) 클러스터를 구하면 마찬가지로 시기 3 이후 양극화 되는 양상을 보이나, 대선이 다가옴에 따라 클러스터의 순위가 뒤바뀌었다는 새로운 정보를 볼 수 있었습니다. 하지만 두 번째 클러스터는 포착하는 회원의 비중이 상대적으로 낮다는 문제가 있습니다.

3) 가중치를 고려하고 국소 최적을 지향하는 다른 클러스터링(Louvain)은 홍차넷의 정치적 입장 네트워크가 삼분되어 있다는 관점을 지지합니다. 두 개의 주요 네트워크가 여전히 많은 비중을 차지하지만, 10~20%를 차지하는 세 번째 네트워크가 나타납니다. 이 세 번째 네트워크는 전체 네트워크에서 중재적 역할을 맡는 것으로 보입니다. 매개중심성 수치는 세 번째 클러스터에 속한 회원들이 지난 6개월 동안 정치적 양극화를 완화하는 역할을 했을 가능성을 제시합니다.
   
5] 전체 네트워크는 어떻게 클러스터링 되는가?

앞서 2]에서 보았던 내용에 클러스터 정보를 겹쳐서 살피겠습니다. Louvain 클러스터링을 적용합니다. 그래프 9를 보면 구조는 별다른 변화가 없지만(난수값 변화로 인한 레이아웃 변화는 존재) 색깔을 바탕으로 클러스터의 분포를 살필 수 있습니다.
 
<그래프 9> 홍차넷 전체 네트워크 - Louvain clustering 

전체 네트워크에서는 삼분 구조가 더 뚜렷하게 나타납니다. 분할하여 살핀 그래프와 전체 그래프는 질적으로 동일하지 않다는 점에 주의하셔야 합니다. 참여하는 회원의 구성이 달라지며, 각 회원이 지닌 정치적 입장이 달라지고, 입장을 취하도록 던져지는 외부의 사건도 다릅니다. 그럼에도 불구하고 지난 2년 간의 정치적 입장 차이가 어떻게 구성되는지 살피기에 유용합니다. <표 6>은 각 클러스터의 규모와 매개중심성을 보여줍니다. 여기서는 2번째 규모의 클러스터 2가 가장 높은 매개중심성을 보이는 걸로 나옵니다. 세 번째 클러스터의 크기는 10~20%가 아니라 30% 근처까지 올라옵니다.

<표 6> 전체 네트워크의 클러스터 (Louvain)

N%연결중심성 평균연결강도 평균매개중심성 평균밀도
132040.6%35.8781282.90313634.76260.065
223429.7%43.07265132.0983692.90540.101
322728.8%32.0704863.62555527.28920.053
소계78199.1%

클러스터 내에 속한 회원의 명단을 보면, 제가 2년 간 지켜보면서 느꼈던 양상과 겹쳐지는 바가 있습니다. 1은 규모는 크지만 강도, 연결중심성, 밀도는 약합니다. 명단을 살펴보면 정치적으로 소위 '진보'적인 의견에 호응하는 집단으로 보입니다. 

2는 규모는 1에 비해 작지만 연결중심성, 연결강도, 밀도 모두 높습니다. 명단을 보면 문재인 정권에 비판적인 의견에 호응하는 집단으로 보입니다. 적극적으로 서로의 의견에 호응한다는 걸 연결 강도와 밀도를 비교하여 알 수 있지만, 매개중심성 수치도 높아 네트워크 전반에서 중재자 역할을 하는 사람들의 비중도 높습니다.     

3은 모든 지표에서 낮은 수치를 보이지만 2와 비슷한 규모를 보입니다. 이 집단이 어떤 성향인지 명단을 보고 이름 붙이기는 어렵습니다. 1과 2의 성향 양 쪽에 해당하는 회원들이 고루 섞여있습니다. 이름 붙이자면 중도층이라 할 수 있겠습니다. 다만 전체 네트워크 내에서 매개성이 높은 집단은 아닙니다.

추가 검토를 위해 walktrap으로 나온 2개 클러스터링과, Louvain으로 나온 3개 클러스터링을 비교해봤습니다. 이번에는 클러스터에 포함되는 회원의 비중에 별 차이가 없습니다. walktrap으로 나온 2개 클러스터는 각각 Louvain으로 나왔던 클러스터 1과 2에 대응하며, 클러스터 3의 인원을 각기 흡수합니다. 전체 네트워크는 양극화 된 클러스터로도, 삼극화 된 클러스터로도 해석이 가능해보입니다. 하지만 Louvain 알고리즘이 현재 데이터를 최대한 설명하는 걸 목표로 한다는 점을 감안하면, 차후에는 3개 클러스터 구조는 사라질 수도 있을 것입니다.

나가며

예전부터 계획을 짜고 데이터는 수집하고 있었고, 봄방학 시즌을 맞아 빠르게 작업했습니다. 이론적 이해가 아직 얕은 분야라 중간중간 해석이 틀린 부분이 있을 수 있습니다. 생각해 볼만한 다른 방향의 해석은 환영합니다. 다만 가설적 형태의 해석이었으면 좋겠고, 해석을 빙자해서 다른 집단을 공격하지는 않았으면 합니다.

개인적으로는 클러스터 3개로 된 구조가 최근 시기의 정치적 양상을 더 잘 포착한다는 점을 발견한 것에 만족합니다. 매개중심성이 높은 클러스터 3이 향후 어떤 식으로 변화할지 살펴볼 가치가 있을 듯합니다.

계속해서 네트워크의 분극화가 강해지는 것은 우려스러운 일입니다. 데이터 범위의 끝이 대선이기에 나타나는 현상일 수 있지만, 이후에도 추세가 지속된다면 운영진 차원에서 더 적극적인 개입이 필요할 것 같습니다. 아직 어떤 방식이 필요할지는 가늠이 안 됩니다. 생각해볼만한 아이디어를 주시면 감사하겠습니다.

부록 1

클러스터별 네트워크 특징값 (시기)
* 클러스터에 붙여진 번호는 크기에 따라 부여, 시기에 따른 클러스터의 연속성을 파악할 수 있는 번호가 아님. 시기 1의 클러스터 1과, 시기 2의 클러스터 2는 다름

시기 1N%연결중심성 평균연결강도 평균매개중심성 평균밀도
LE 111434.2%12.1015.43270.980.06
LE 210130.3%15.5228.13351.610.09
LE 37121.3%13.8917.89351.220.08
LE 4298.7%10.2413.66231.900.09
소계31594.5%
WT 114944.7%16.3921.25399.750.08
WT 29729.1%17.2730.74374.000.11
소계24673.8%
LC 18224.6%14.4527.41291.090.10
LC 27923.7%12.7716.86303.920.08
LC 37622.8%11.6415.18307.610.06
LC 45616.8%14.0718.52334.940.09
LC 54012.0%10.2813.68226.320.08
소계23771.1%
시기 2N%연결중심성 평균연결강도 평균매개중심성 평균밀도
LE 112739.3%10.7613.50319.720.05
LE 28827.2%14.9222.61376.890.10
LE 34714.6%9.3410.83228.850.08
LE 4319.6%10.9013.81283.420.12
LE 5175.3%1.291.291.370.00
소계31096.0%
WT 17924.5%19.8526.05605.300.15
WT 25416.7%16.6326.76349.720.15
WT 3288.7%14.1416.75317.320.16
WT 4206.2%11.2013.85237.420.18
소계18156.1%
LC 19529.4%10.6913.39328.000.06
LC 26821.1%14.2122.65351.350.11
LC 34313.3%11.2313.72278.870.10
LC 43611.1%9.9711.47220.490.10
LC 53611.1%10.6113.64302.480.09
LC 6216.5%7.199.52135.980.11
LC 7206.2%9.0511.10292.280.13
소계31998.7%
시기 3N%연결중심성 평균연결강도 평균매개중심성 평균밀도
LE 128963.7%16.1223.60366.630.04
LE 216536.3%24.3653.82424.980.09
소계454100.0%
WT 120545.2%28.9257.49532.200.11
WT 213429.5%19.4028.04473.460.08
소계33974.7%
LC 122248.9%15.3221.72353.670.04
LC 215935.0%25.4655.99432.230.10
LC 34610.1%21.6336.07460.760.12
소계42794.0%
시기 4N%연결중심성 평균연결강도 평균매개중심성 평균밀도
LE 125659.5%15.9223.25295.710.04
LE 217440.5%25.2551.07436.700.10
소계430100.0%
WT 18720.2%26.2543.56472.820.10
WT 28118.8%22.2732.94380.220.13
WT 37517.4%35.4977.76571.990.25
WT 44811.2%28.4045.04625.690.14
소계29167.6%
LC 117741.2%18.5427.80348.600.07
LC 213631.6%25.5153.37421.450.12
LC 38219.1%16.1326.01333.810.06
LC 4286.5%11.8916.21161.780.08
소계42398.4%
시기 5N%연결중심성 평균연결강도 평균매개중심성 평균밀도
LE 118959.6%12.9618.53283.900.05
LE 212840.4%13.4822.30267.110.07
소계317100.0%
WT 112840.4%16.3625.98332.080.09
WT 211937.5%16.5624.55357.880.10
소계24777.9%
LC 113342.0%13.8222.49273.530.07
LC 213041.0%13.7020.55296.800.07
LC 33210.1%14.2818.53324.870.12
소계26383.0%
시기 6N%연결중심성 평균연결강도 평균매개중심성 평균밀도
LE 133966.3%24.1151.63375.000.05
LE 217033.3%32.6485.44470.850.12
소계50999.6%
WT 123245.4%32.2571.19523.090.10
WT 218135.4%33.8785.04462.620.13
소계41380.8%
LC 123445.8%28.0663.23444.030.08
LC 217233.7%29.7777.12406.770.11
LC 39618.8%20.9941.07330.640.06
소계50298.3%





* Cascade님에 의해서 티타임 게시판으로부터 게시물 복사되었습니다 (2022-03-29 08:59)
* 관리사유 : 추천게시판으로 복사합니다.



70
  • 저도 한번쯤은 궁금했던 내용이고, 실재하는 홍차넷 데이터를 기반으로 분석하여 치우침없이 글을 써 주셔서 흥미를 갖고 읽어 볼 수 있었습니다. 덧붙혀 "해석을 빙자해서 다른 집단을 공격하지는 않았으면 합니다." 이 말씀이 너무 마음에 들어요.
  • 진짜 재밌게 봤습니다. 홍차넷에서 본 글 중에 최고네요
  • 캬아 신기신기신통방통
  • 궁금했던 내용을 이렇게 실증적으로 분석해 주시니 그저 감사할 따름입니다.
  • 어찌 홍차넷을 바탕으로 심도깊은 데이터 분석을 하실 생각을...홍차넷에서 이렇게 정성이 많이 들어간 인사이트가 올라오다니 대박입니다.
  • 정성있는 분석글 감사합니다. 저도 이런식으로 글을 써야하는데 (이마짚)
  • 그러니까, 저는 정의당 찍었으니까 노란 점인 거죠? (아무말)
  • 너무 좋은글 감사합니다
  • 아~ 그렇구나 완벽히 이해했어 (이해 못함)
  • 와 대박...


목록
번호 제목 이름 날짜 조회 추천
841 일상/생각[단상] 결혼을 수선하다. 35 다람쥐 19/08/08 6533 93
545 일상/생각독일에서 들었던 수업들 4 droysen 17/11/16 6527 4
428 일상/생각'편 가르기'와 '편 들기' 17 소라게 17/05/12 6519 25
704 의료/건강건강한 노인들에게 저용량 아스피린을 장기 복용하면 어떻게 될까. 4 맥주만땅 18/09/27 6514 4
624 기타예비 아빠들을 위한 경험담 공유를 해볼까 합니다. 19 쉬군 18/04/30 6511 17
818 체육/스포츠심판 콜의 정확도와 스트라이크존 기계판정 4 손금불산입 19/06/15 6510 8
210 기타아들이 말을 참 잘합니다. 37 Toby 16/05/30 6506 25
788 정치/사회제1저자, 교신저자, 학회, 자리싸움, 그리고 관행 25 烏鳳 19/04/03 6502 23
910 경제홍차넷 50000플 업적달성 전기 79 파란아게하 20/01/17 6492 72
692 IT/컴퓨터Gmail 내용으로 구글캘린더 이벤트 자동생성하기 8 CIMPLE 18/09/06 6488 6
801 문학고속도로로서의 템즈강: 18세기 템즈강 상류지역의 운항과 수송에 관한 연구 34 기아트윈스 19/05/11 6482 16
1177 정치/사회홍차넷의 정치적 분열은 어떻게 변해 왔는가? - 뉴스게시판 정치글 '좋아요' 네트워크를 바탕으로 72 소요 22/03/13 6477 70
1035 게임체스에 대해 배워봅시다! [행마와 규칙] 29 Velma Kelly 20/12/02 6476 20
916 창작나는 행복의 나라로 갈테야. 5 작고 둥근 좋은 날 20/01/29 6468 24
658 일상/생각왜 펀치라인? 코메디의 구조적 논의 8 다시갑시다 18/07/06 6465 33
331 일상/생각나를 괴롭히는 것은, 나. 12 SCV 16/12/27 6459 10
324 역사러일전쟁 - 펑톈 전투 4 눈시 16/12/16 6455 5
212 정치/사회새누리 측 노동법 개정안 간단 요약 정리. 11 당근매니아 16/05/31 6455 5
255 정치/사회외국인 가사도우미와 가사 공간 내부의 협상 20 호라타래 16/08/26 6452 3
1110 과학예측모델의 난해함에 관하여, .feat 맨날 욕먹는 기상청 47 매뉴물있뉴 21/07/25 6446 42
509 기타콜라테러 썰 15 OshiN 17/09/15 6440 10
783 의료/건강어떻게 의사는 사고하는가 - 번외. ROC와 카파통계량 9 세란마구리 19/03/22 6435 11
798 문화/예술문화재로 지정된 전통 고택의 현황과 활용상 문제 22 메존일각 19/04/24 6435 11
164 기타인도네시아 이야기 28 Hitam 16/03/01 6435 11
819 과학과학적 연구의 동기부여는 시대를 어떻게 대변하는가? 30 다시갑시다 19/06/18 6430 37
목록

+ : 최근 6시간내에 달린 댓글
+ : 최근 12시간내에 달린 댓글

댓글