- 다양한 주제에 대해 자유롭게 글을 작성하는 게시판입니다.
Date 25/02/05 08:21:28
Name   덜커덩
Subject   LLM에 대한 두서없는 잡썰 (3)
왜 (1), (2)가 없는데 (3)이냐고 하실텐데

LLM에 대한 두서없는 썰 (1): https://redtea.kr/tm25/5602
LLM에 대한 두서없는 썰 (2): https://redtea.kr/tm25/5606

(1), (2)는 유료구독... 이 아니라 가입을 하고 로그인을 해야 보이도록 타임라인에 적었기 때문입니다. 이렇게 뉴우-비를 끌어들인다. 토비님을 비롯한 운영자 센세들은 저를 극렬히 칭찬해주십시오.

계속 탐라에 실을까말까 고민하다가 몇몇 선생님들께서 티탐으로 가자고 하셔서 전편을 재게시하지 않고 대충 이어서 티탐으로 씁니다. 시작과 끝이 그래서 뭐 어쩌라고라는 생각이 든다면 이 글이 꼴리는대로 써버린, 흘러가야하는 글이 맞기 때문일겁니다.

암튼 시작해보지요.


챗가나 클가를 한번이라도 써 보신 분들은 글자가 몇 개씩 나누어서 찍힌다는 것을 보셨을 것입니다. 그렇게 만드는 것은 기계가 사람처럼 타이핑하는 것을 흉내내려는 것으로 보실 수도 있지만, 사실 LLM은 실제로 그렇게 출력을 생성하고 있읍니다. 그렇게 스트리밍하듯 뽑아내는 것이 추론 서비스를 사용하는데 있어, 여러 사용자가 달라붙는 상황에서 연산장치가 쉬지 않고 부하를 소화할 수 있게 만들어주는 수단이기도 합니다. 다 나올때 까지 기다리게 하면 사람들은 아이고 일마 이거 대답 몬하겠으니까 입을 다물어뿌네! 하고 창을 닫으실 거라는 것을 생각해보면 사용자 경험에도 부합하구요.

LLM은 단어를 직접 출력하는 것이 아니라, 단어의 확률분포를 반환합니다. 별로 와닿지 않을테니 약간의 상상력을 동원해보지요.

영어 사전을 떠올려봅시다. 사전에는 각각의 표제어headword가 있고, 그 표제어에 주석을 달아 뜻을 전달하지요? LLM은 출력을 결정하기 위해 표제어만 잔뜩 있는 사전을 사용한다는 것을 기억해둡시다. 사전에 없는 단어는 못써요. 지금은 최소 단위가 바이트byte 이기 때문에 사실상 사전 외 어휘out-of-vocabulary라는 개념이 존재하지는 않지만... 어쨌건. 이제 동그란 다트판 같이 생긴 파이 차트pie chart를 떠올려볼까요? 아니다. 그냥 동그란 정당별 지지율 그래픽을 생각해봅시다. 다 합하면 100%가 되는. 생성 언어모델은 매번 예측할 때 마다, 그중 가장 가능성 있는 단어가 큰 공간을 차지하고, 나머지 단어들이 비율에 따라 지지율처럼 순서대로 공간을 차지하는 파이 차트를 만들어낸다고 이해하면 됩니다. 어떤 파이 차트는 저어기 독재국가 선거결과 처럼 한 후보가 99%를 먹는 것도 나올 것이고, 어떤때에는 두 후보가 파이의 대부분을 나눠먹고 나머지 군소 후보가 그 뒤를 나눠먹는 것도 나올겝니다.

이 파이에서 가장 큰 비중을 차지하는 1등만 계속 뽑는걸로 하고, 1등의 어휘를 계속 찍어내면 문장이 되고, 문단이 되고… 그렇게 결과를 볼 수 있게 됩니다.


옛날(~2020 이전) 생성 언어모델이라고 부르는 것을 연구하던 때에는, 주로 지지율 1등을 출력 단어로 결정했읍니다. 하지만 첫단어가 잘 나온다고 끝까지 좋은 결과가 나온다는 보장이 없기 때문에, 선두 후보를 적게는 2개, 많게는 5개 정도 살펴보면서 지지율 흐름을 살펴보다가, 끝까지 전체 지지율이 받쳐주는 최종 결과(=문장, 문단...)를 선택했습니다. 이걸 빔 탐색Beam search이라고 불렀는데, 이러면 앞서 언급하듯 결과를 끝까지 본 다음에 결정해야 하기 때문에, 스트리밍으로 뽑아낼 수가 없습니다. 그래서 스트리밍이라는 전제가 붙으면 당장 1등만을 반환하는 탐욕적greedy 디코딩decoding[1]이라는 기법을 사용하는 선택지만 남게 됩니다.. 이처럼 사용되는 알고리즘도 목표 응용과 대상에 맞게 취사선택을 할 수 밖에 없지요.

암튼 다시 예측 문제로 돌아가봅시다. 이처럼 1등만 추구하는 세상의 문제는, 안녕하세요? 를 물어봤을때 확률적으로 가장 자주 나타날 문장이 매번 반복되는 겁니다. (무심하게) 안녕하세요. 라고요. 한 글자의 오차도 없이. 그럼 아 이거 노잼이네 하겠지요? 그래서 이러한 시대의 배경[2]에 따라 앞서 반환하는 파이 차트에 다트를 던져서 당선자를 뽑아내는 선택을 사용하는 방법이 등장합니다. 차트를 구성하는 표제어의 크기가 서로 다르니, 확률이 큰 놈이 자주 나타나겠지만 운에따라 작은놈도 툭툭 튀어나와 항상 다른 응답이 나오게 만들게 됩니다. 샘플링 기반 디코딩sampling-based decoding이라고 불리는 이 기법은, 몇가지 스낄을 더해 오늘날 여러분들이 마주하는 챗가나 클가에 들어가게 됩니다.

[1] decoding: 부호화coded 된 것을 반대로 사람이 볼 수 있는 어휘형태로 바꾸기 때문에 복復de-호화coding하는 것이지요.
[2] 개념적으로는 아주 옛날부터 있었지만, 당시 생성 모델 (순환신경망Recurrent Neural Net. 또는 대규모 학습 시대 이전의 transformer)에서 샘플링을 통해서도 국소적 일관성이나 어느정도의 유창성을 유지할 수 있게 됨을 확인하기 이전(~2019년 쯤)에는 실용적이지 못했기 때문에 안(못) 쓰던 것입니다.


이러한 스낄에서 영향을 많이 주는 것을 딱 2개만 골라내자면, 하나는 쩌리가 운 좋게 당첨되어 정치가 개판으로... 아니 결과가 엉망으로 나오지 않게 일정 득표율(확률)을 얻지못한 쩌리 후보를 미리 추방하는 기법이고, 다른 하나는 가끔 한놈의 득표율이 쩌어기 어디 이북 리더처럼 99%가 나오지 않게 조정해주는 기법입니다. 전자 중에서 현재 가장 자주 사용되는 것은 Nucleus sampling 또는 top-p sampling라고 부르는 것을 들 수 있고, 후자는 temperature scaling이라고 부릅니다. 온도가 낮으면 분자의 활동성이 적어서 나오던 놈이 나올 확률이 높고, 온도가 높으면 활동성이 좋아져서 이놈 저놈 군웅할거의 시대를 연다 마 이렇게 기억하시면 됩니다.

앞서 출력 결과를 뽑아내는 과정을 읽어보셨다면, 각각의 표제어가 매 회 나오고, 그 결정된 표제어는 다시 LLM의 입력으로 들어가 되먹임되어 다음 결과를 결정하게 됩니다. 이것을 "나 이제 할 말 없어"라고 LLM이 지정된 약속어를 말해주기 전까지 이 되먹임을 반복하여 결과를 만들어냅니다. 이것을 우리는 자기 회귀 디코딩auto-regressive decoding혹은 인과 추론causal inference이라고 부릅니다. 샘플링을 통해서 중간에 예기치못했던 단어들이 등장해도, 국소적으로 가장 알맞은 다음 단어를 뽑아낼 수 있는 메커니즘은 이렇게 완성됩니다.


이 디코딩 과정과 샘플링에 의한 기법을 이해하면, 다음과 같은 생각을 떠올릴 수 있읍니다: (1) [어, 그러면 같은 질문을 여러번 돌려서 각기 다른 결과를 뽑을 수 있겠다. 그 중에는 좋은 것도 있고 나쁜 것도 있겠지?]! (2) [자기가 내뱉은걸 다시 되먹이면서 말을 만들어내니까, 뭔가 정답을 유도할 수 있는 중간 결과를 잘 찍어낼 수 있으면 정답이 더 잘 나오지 않을까?]

이러한 생각들은 지금의 LLM에 있어 다양한 아이디어와 시도를 할 수 있는 바탕이 된다고 할 수 있읍니다.

생각 (1)과 같이, 같은 입력을 통해서 각기 다른 결과를 뽑을 수 있고, 그 중에는 좋은 것이 숨겨져 있을 거라고 예상할 수 있다면, 나이브하게는 여러번 같은 질문을 반복해서 결과를 뽑아낸 다음에 다수결majority voting로 최종 결과를 선택하자는 아이디어를 덧 씌울 수 있게 됩니다.

옛날에 챗가나 클가가 나올 당시의 언론보도나 기술 리포트 성능표가 있었을텐데, 보시면 maj@10 뭐 이런걸 보험광고 팜플렛 한 귀퉁이에 적힌 글자들 마냥 조그맣게 써 있는 것을 볼 수 있습니다, 이건 10번 돌려 추론 가장 마지막에 나온 결과를 취합해 가장 많이 나온 것을 최종 응답이라고 생각하고 정답과 비교해 성능을 뽑아냈다는 뜻이 됩니다. 이쪽 동네 사람들은 2의 거듭제곱수를 좋아해서 64번이나 많으면 256번까지도 돌려서 올리기도 합니다.

(2)와 같은 아이디어는 요새 어디서 채신 기술 키워드같은걸 보신 선생님들은 아실텐데, 생각 체인Chain-of-Thought; 줄여서 CoT. 이라고 부르는 것입니다. 요새 딥식이니 o1이니 뭐니 하면서 추론 성능이 저같이 하찮은 인간쯤은 쌉발라버릴 수 있다고 하는 아이들은 이러한 생각의 체인을 좀 더 구체적으로, 명시적으로 단계를 나누어서 접근하는 긴 형식long-form의 CoT 생성 스타일을 따라할 수 있게 좀 더 북돋운 것이라고 생각하면 편하지요.



21
  • 4편 유료구독링크는 어디 있읍니까! (크왕)


목록
번호 제목 이름 날짜 조회 추천
15672 과학/기술2의 n제곱근은 무리수임을 증명! (n이 2보다 클 때) 21 아침커피 25/08/19 1238 2
15618 과학/기술천문학 취미의 시작 - 홍차넷 8 mathematicgirl 25/07/15 1246 6
15448 과학/기술전자렌지에 대하여 32 매뉴물있뉴 25/05/19 2397 15
15373 과학/기술챗가놈 이녀석 좀 변한거 같지 않나요? 2 알료사 25/04/09 1850 1
15372 과학/기술전자오락과 전자제품, 그리고 미중관계? 6 열한시육분 25/04/09 1718 3
15247 과학/기술LLM에 대한 두서없는 잡썰 (3) 14 덜커덩 25/02/05 2396 21
15194 과학/기술AI는 신이야! 13 세모셔츠수세미떡 25/01/07 2508 4
14990 과학/기술챗 지피티4가 잘 작동하는 이유 5 블리츠 24/10/18 2744 0
14750 과학/기술볼만한 유튜브 교육 채널 여름에가입함 24/06/17 2657 0
14673 과학/기술처음으로 가르친 수업, 강의 끝나는 김에 적어보는 배운 점 11 Velma Kelly 24/05/13 3088 6
14466 과학/기술 2066년안에 우리의 태양계 내에 호모 에릭툭스 이상 문명이 발견할 확률 3 mathematicgirl 24/02/18 3385 0
14439 과학/기술자율주행차와 트롤리 딜레마 9 서포트벡터 24/02/06 3341 7
14246 과학/기술우영우갤에서 선동한 자폐아의 현실 주장의 허구 7 자폐증당사자 23/11/03 4221 2
14239 과학/기술드라마『우영우』의 자폐 스펙트럼 장애 개념 왜곡 3 자폐증당사자 23/10/31 6189 8
14144 과학/기술체계화된 통빡의 기술 - 메타 휴리스틱 13 서포트벡터 23/09/14 4592 26
14076 과학/기술끝판왕급 계산기 사용기 9 copin 23/07/30 4368 2
14024 과학/기술(아마도) 후쿠시마 오염수가 안전한 이유 15 매뉴물있뉴 23/07/09 4710 12
14006 과학/기술유고시 대처능력은 어떻게 평가가 될까? - 위험 대응성 지표들 18 서포트벡터 23/06/26 4256 31
13963 과학/기술과학이 횡포를 부리는 방법 20 아침커피 23/06/08 4869 6
13951 과학/기술뇌 없는 명문대 수학과 재학생 3 컴퓨터청년 23/06/05 4312 0
13946 과학/기술수알못이 생각하는 수학 8 컴퓨터청년 23/06/03 3529 0
13907 과학/기술챗gpt 상담이 차라리 낫다 vs 그래도 인간 상담은 못 따라간다 11 Dope 23/05/25 3668 1
13664 과학/기술개발자 모드를 풀어주니 건방져진 chatgpt 3 큐리스 23/03/24 4129 0
13655 과학/기술(망상) 초음속으로 부담없이 움직이고 반응할 수 있는 몸을 가진다면 천하무적 아닐까요? 13 강세린 23/03/21 3500 0
13645 과학/기술지구상에 존재하는 모든 핵무기를 동시에 터뜨리면? 19 강세린 23/03/17 4012 0
목록

+ : 최근 2시간내에 달린 댓글
+ : 최근 4시간내에 달린 댓글

댓글