홍차넷 - LLM에 대한 두서없는 잡썰 (3)

왜 (1), (2)가 없는데 (3)이냐고 하실텐데

LLM에 대한 두서없는 썰 (1): https://redtea.kr/tm25/5602
LLM에 대한 두서없는 썰 (2): https://redtea.kr/tm25/5606

(1), (2)는 유료구독... 이 아니라 가입을 하고 로그인을 해야 보이도록 타임라인에 적었기 때문입니다. 이렇게 뉴우-비를 끌어들인다. 토비님을 비롯한 운영자 센세들은 저를 극렬히 칭찬해주십시오.

계속 탐라에 실을까말까 고민하다가 몇몇 선생님들께서 티탐으로 가자고 하셔서 전편을 재게시하지 않고 대충 이어서 티탐으로 씁니다. 시작과 끝이 그래서 뭐 어쩌라고라는 생각이 든다면 이 글이 꼴리는대로 써버린, 흘러가야하는 글이 맞기 때문일겁니다.

암튼 시작해보지요.

챗가나 클가를 한번이라도 써 보신 분들은 글자가 몇 개씩 나누어서 찍힌다는 것을 보셨을 것입니다. 그렇게 만드는 것은 기계가 사람처럼 타이핑하는 것을 흉내내려는 것으로 보실 수도 있지만, 사실 LLM은 실제로 그렇게 출력을 생성하고 있읍니다. 그렇게 스트리밍하듯 뽑아내는 것이 추론 서비스를 사용하는데 있어, 여러 사용자가 달라붙는 상황에서 연산장치가 쉬지 않고 부하를 소화할 수 있게 만들어주는 수단이기도 합니다. 다 나올때 까지 기다리게 하면 사람들은 아이고 일마 이거 대답 몬하겠으니까 입을 다물어뿌네! 하고 창을 닫으실 거라는 것을 생각해보면 사용자 경험에도 부합하구요.

LLM은 단어를 직접 출력하는 것이 아니라, 단어의 확률분포를 반환합니다. 별로 와닿지 않을테니 약간의 상상력을 동원해보지요.

영어 사전을 떠올려봅시다. 사전에는 각각의 표제어headword가 있고, 그 표제어에 주석을 달아 뜻을 전달하지요? LLM은 출력을 결정하기 위해 표제어만 잔뜩 있는 사전을 사용한다는 것을 기억해둡시다. 사전에 없는 단어는 못써요. 지금은 최소 단위가 바이트byte 이기 때문에 사실상 사전 외 어휘out-of-vocabulary라는 개념이 존재하지는 않지만... 어쨌건. 이제 동그란 다트판 같이 생긴 파이 차트pie chart를 떠올려볼까요? 아니다. 그냥 동그란 정당별 지지율 그래픽을 생각해봅시다. 다 합하면 100%가 되는. 생성 언어모델은 매번 예측할 때 마다, 그중 가장 가능성 있는 단어가 큰 공간을 차지하고, 나머지 단어들이 비율에 따라 지지율처럼 순서대로 공간을 차지하는 파이 차트를 만들어낸다고 이해하면 됩니다. 어떤 파이 차트는 저어기 독재국가 선거결과 처럼 한 후보가 99%를 먹는 것도 나올 것이고, 어떤때에는 두 후보가 파이의 대부분을 나눠먹고 나머지 군소 후보가 그 뒤를 나눠먹는 것도 나올겝니다.

이 파이에서 가장 큰 비중을 차지하는 1등만 계속 뽑는걸로 하고, 1등의 어휘를 계속 찍어내면 문장이 되고, 문단이 되고… 그렇게 결과를 볼 수 있게 됩니다.

옛날(~2020 이전) 생성 언어모델이라고 부르는 것을 연구하던 때에는, 주로 지지율 1등을 출력 단어로 결정했읍니다. 하지만 첫단어가 잘 나온다고 끝까지 좋은 결과가 나온다는 보장이 없기 때문에, 선두 후보를 적게는 2개, 많게는 5개 정도 살펴보면서 지지율 흐름을 살펴보다가, 끝까지 전체 지지율이 받쳐주는 최종 결과(=문장, 문단...)를 선택했습니다. 이걸 빔 탐색Beam search이라고 불렀는데, 이러면 앞서 언급하듯 결과를 끝까지 본 다음에 결정해야 하기 때문에, 스트리밍으로 뽑아낼 수가 없습니다. 그래서 스트리밍이라는 전제가 붙으면 당장 1등만을 반환하는 탐욕적greedy 디코딩decoding[1]이라는 기법을 사용하는 선택지만 남게 됩니다.. 이처럼 사용되는 알고리즘도 목표 응용과 대상에 맞게 취사선택을 할 수 밖에 없지요.

암튼 다시 예측 문제로 돌아가봅시다. 이처럼 1등만 추구하는 세상의 문제는, 안녕하세요? 를 물어봤을때 확률적으로 가장 자주 나타날 문장이 매번 반복되는 겁니다. (무심하게) 안녕하세요. 라고요. 한 글자의 오차도 없이. 그럼 아 이거 노잼이네 하겠지요? 그래서 이러한 시대의 배경[2]에 따라 앞서 반환하는 파이 차트에 다트를 던져서 당선자를 뽑아내는 선택을 사용하는 방법이 등장합니다. 차트를 구성하는 표제어의 크기가 서로 다르니, 확률이 큰 놈이 자주 나타나겠지만 운에따라 작은놈도 툭툭 튀어나와 항상 다른 응답이 나오게 만들게 됩니다. 샘플링 기반 디코딩sampling-based decoding이라고 불리는 이 기법은, 몇가지 스낄을 더해 오늘날 여러분들이 마주하는 챗가나 클가에 들어가게 됩니다.

[1] decoding: 부호화coded 된 것을 반대로 사람이 볼 수 있는 어휘형태로 바꾸기 때문에 복復de-호화coding하는 것이지요.
[2] 개념적으로는 아주 옛날부터 있었지만, 당시 생성 모델 (순환신경망Recurrent Neural Net. 또는 대규모 학습 시대 이전의 transformer)에서 샘플링을 통해서도 국소적 일관성이나 어느정도의 유창성을 유지할 수 있게 됨을 확인하기 이전(~2019년 쯤)에는 실용적이지 못했기 때문에 안(못) 쓰던 것입니다.

이러한 스낄에서 영향을 많이 주는 것을 딱 2개만 골라내자면, 하나는 쩌리가 운 좋게 당첨되어 정치가 개판으로... 아니 결과가 엉망으로 나오지 않게 일정 득표율(확률)을 얻지못한 쩌리 후보를 미리 추방하는 기법이고, 다른 하나는 가끔 한놈의 득표율이 쩌어기 어디 이북 리더처럼 99%가 나오지 않게 조정해주는 기법입니다. 전자 중에서 현재 가장 자주 사용되는 것은 Nucleus sampling 또는 top-p sampling라고 부르는 것을 들 수 있고, 후자는 temperature scaling이라고 부릅니다. 온도가 낮으면 분자의 활동성이 적어서 나오던 놈이 나올 확률이 높고, 온도가 높으면 활동성이 좋아져서 이놈 저놈 군웅할거의 시대를 연다 마 이렇게 기억하시면 됩니다.

앞서 출력 결과를 뽑아내는 과정을 읽어보셨다면, 각각의 표제어가 매 회 나오고, 그 결정된 표제어는 다시 LLM의 입력으로 들어가 되먹임되어 다음 결과를 결정하게 됩니다. 이것을 "나 이제 할 말 없어"라고 LLM이 지정된 약속어를 말해주기 전까지 이 되먹임을 반복하여 결과를 만들어냅니다. 이것을 우리는 자기 회귀 디코딩auto-regressive decoding혹은 인과 추론causal inference이라고 부릅니다. 샘플링을 통해서 중간에 예기치못했던 단어들이 등장해도, 국소적으로 가장 알맞은 다음 단어를 뽑아낼 수 있는 메커니즘은 이렇게 완성됩니다.

이 디코딩 과정과 샘플링에 의한 기법을 이해하면, 다음과 같은 생각을 떠올릴 수 있읍니다: (1) [어, 그러면 같은 질문을 여러번 돌려서 각기 다른 결과를 뽑을 수 있겠다. 그 중에는 좋은 것도 있고 나쁜 것도 있겠지?]! (2) [자기가 내뱉은걸 다시 되먹이면서 말을 만들어내니까, 뭔가 정답을 유도할 수 있는 중간 결과를 잘 찍어낼 수 있으면 정답이 더 잘 나오지 않을까?]

이러한 생각들은 지금의 LLM에 있어 다양한 아이디어와 시도를 할 수 있는 바탕이 된다고 할 수 있읍니다.

생각 (1)과 같이, 같은 입력을 통해서 각기 다른 결과를 뽑을 수 있고, 그 중에는 좋은 것이 숨겨져 있을 거라고 예상할 수 있다면, 나이브하게는 여러번 같은 질문을 반복해서 결과를 뽑아낸 다음에 다수결majority voting로 최종 결과를 선택하자는 아이디어를 덧 씌울 수 있게 됩니다.

옛날에 챗가나 클가가 나올 당시의 언론보도나 기술 리포트 성능표가 있었을텐데, 보시면 maj@10 뭐 이런걸 보험광고 팜플렛 한 귀퉁이에 적힌 글자들 마냥 조그맣게 써 있는 것을 볼 수 있습니다, 이건 10번 돌려 추론 가장 마지막에 나온 결과를 취합해 가장 많이 나온 것을 최종 응답이라고 생각하고 정답과 비교해 성능을 뽑아냈다는 뜻이 됩니다. 이쪽 동네 사람들은 2의 거듭제곱수를 좋아해서 64번이나 많으면 256번까지도 돌려서 올리기도 합니다.

(2)와 같은 아이디어는 요새 어디서 채신 기술 키워드같은걸 보신 선생님들은 아실텐데, 생각 체인Chain-of-Thought; 줄여서 CoT. 이라고 부르는 것입니다. 요새 딥식이니 o1이니 뭐니 하면서 추론 성능이 저같이 하찮은 인간쯤은 쌉발라버릴 수 있다고 하는 아이들은 이러한 생각의 체인을 좀 더 구체적으로, 명시적으로 단계를 나누어서 접근하는 긴 형식long-form의 CoT 생성 스타일을 따라할 수 있게 좀 더 북돋운 것이라고 생각하면 편하지요.

Date	25/02/05 08:21:28
Name	덜커덩
Subject	LLM에 대한 두서없는 잡썰 (3)
https://redtea.kr/free/15247 왜 (1), (2)가 없는데 (3)이냐고 하실텐데 LLM에 대한 두서없는 썰 (1): https://redtea.kr/tm25/5602 LLM에 대한 두서없는 썰 (2): https://redtea.kr/tm25/5606 (1), (2)는 유료구독... 이 아니라 가입을 하고 로그인을 해야 보이도록 타임라인에 적었기 때문입니다. 이렇게 뉴우-비를 끌어들인다. 토비님을 비롯한 운영자 센세들은 저를 극렬히 칭찬해주십시오. 계속 탐라에 실을까말까 고민하다가 몇몇 선생님들께서 티탐으로 가자고 하셔서 전편을 재게시하지 않고 대충 이어서 티탐으로 씁니다. 시작과 끝이 그래서 뭐 어쩌라고라는 생각이 든다면 이 글이 꼴리는대로 써버린, 흘러가야하는 글이 맞기 때문일겁니다. 암튼 시작해보지요. 챗가나 클가를 한번이라도 써 보신 분들은 글자가 몇 개씩 나누어서 찍힌다는 것을 보셨을 것입니다. 그렇게 만드는 것은 기계가 사람처럼 타이핑하는 것을 흉내내려는 것으로 보실 수도 있지만, 사실 LLM은 실제로 그렇게 출력을 생성하고 있읍니다. 그렇게 스트리밍하듯 뽑아내는 것이 추론 서비스를 사용하는데 있어, 여러 사용자가 달라붙는 상황에서 연산장치가 쉬지 않고 부하를 소화할 수 있게 만들어주는 수단이기도 합니다. 다 나올때 까지 기다리게 하면 사람들은 아이고 일마 이거 대답 몬하겠으니까 입을 다물어뿌네! 하고 창을 닫으실 거라는 것을 생각해보면 사용자 경험에도 부합하구요. LLM은 단어를 직접 출력하는 것이 아니라, 단어의 확률분포를 반환합니다. 별로 와닿지 않을테니 약간의 상상력을 동원해보지요. 영어 사전을 떠올려봅시다. 사전에는 각각의 표제어headword가 있고, 그 표제어에 주석을 달아 뜻을 전달하지요? LLM은 출력을 결정하기 위해 표제어만 잔뜩 있는 사전을 사용한다는 것을 기억해둡시다. 사전에 없는 단어는 못써요. 지금은 최소 단위가 바이트byte 이기 때문에 사실상 사전 외 어휘out-of-vocabulary라는 개념이 존재하지는 않지만... 어쨌건. 이제 동그란 다트판 같이 생긴 파이 차트pie chart를 떠올려볼까요? 아니다. 그냥 동그란 정당별 지지율 그래픽을 생각해봅시다. 다 합하면 100%가 되는. 생성 언어모델은 매번 예측할 때 마다, 그중 가장 가능성 있는 단어가 큰 공간을 차지하고, 나머지 단어들이 비율에 따라 지지율처럼 순서대로 공간을 차지하는 파이 차트를 만들어낸다고 이해하면 됩니다. 어떤 파이 차트는 저어기 독재국가 선거결과 처럼 한 후보가 99%를 먹는 것도 나올 것이고, 어떤때에는 두 후보가 파이의 대부분을 나눠먹고 나머지 군소 후보가 그 뒤를 나눠먹는 것도 나올겝니다. 이 파이에서 가장 큰 비중을 차지하는 1등만 계속 뽑는걸로 하고, 1등의 어휘를 계속 찍어내면 문장이 되고, 문단이 되고… 그렇게 결과를 볼 수 있게 됩니다. 옛날(~2020 이전) 생성 언어모델이라고 부르는 것을 연구하던 때에는, 주로 지지율 1등을 출력 단어로 결정했읍니다. 하지만 첫단어가 잘 나온다고 끝까지 좋은 결과가 나온다는 보장이 없기 때문에, 선두 후보를 적게는 2개, 많게는 5개 정도 살펴보면서 지지율 흐름을 살펴보다가, 끝까지 전체 지지율이 받쳐주는 최종 결과(=문장, 문단...)를 선택했습니다. 이걸 빔 탐색Beam search이라고 불렀는데, 이러면 앞서 언급하듯 결과를 끝까지 본 다음에 결정해야 하기 때문에, 스트리밍으로 뽑아낼 수가 없습니다. 그래서 스트리밍이라는 전제가 붙으면 당장 1등만을 반환하는 탐욕적greedy 디코딩decoding[1]이라는 기법을 사용하는 선택지만 남게 됩니다.. 이처럼 사용되는 알고리즘도 목표 응용과 대상에 맞게 취사선택을 할 수 밖에 없지요. 암튼 다시 예측 문제로 돌아가봅시다. 이처럼 1등만 추구하는 세상의 문제는, 안녕하세요? 를 물어봤을때 확률적으로 가장 자주 나타날 문장이 매번 반복되는 겁니다. (무심하게) 안녕하세요. 라고요. 한 글자의 오차도 없이. 그럼 아 이거 노잼이네 하겠지요? 그래서 이러한 시대의 배경[2]에 따라 앞서 반환하는 파이 차트에 다트를 던져서 당선자를 뽑아내는 선택을 사용하는 방법이 등장합니다. 차트를 구성하는 표제어의 크기가 서로 다르니, 확률이 큰 놈이 자주 나타나겠지만 운에따라 작은놈도 툭툭 튀어나와 항상 다른 응답이 나오게 만들게 됩니다. 샘플링 기반 디코딩sampling-based decoding이라고 불리는 이 기법은, 몇가지 스낄을 더해 오늘날 여러분들이 마주하는 챗가나 클가에 들어가게 됩니다. [1] decoding: 부호화coded 된 것을 반대로 사람이 볼 수 있는 어휘형태로 바꾸기 때문에 복復de-호화coding하는 것이지요. [2] 개념적으로는 아주 옛날부터 있었지만, 당시 생성 모델 (순환신경망Recurrent Neural Net. 또는 대규모 학습 시대 이전의 transformer)에서 샘플링을 통해서도 국소적 일관성이나 어느정도의 유창성을 유지할 수 있게 됨을 확인하기 이전(~2019년 쯤)에는 실용적이지 못했기 때문에 안(못) 쓰던 것입니다. 이러한 스낄에서 영향을 많이 주는 것을 딱 2개만 골라내자면, 하나는 쩌리가 운 좋게 당첨되어 정치가 개판으로... 아니 결과가 엉망으로 나오지 않게 일정 득표율(확률)을 얻지못한 쩌리 후보를 미리 추방하는 기법이고, 다른 하나는 가끔 한놈의 득표율이 쩌어기 어디 이북 리더처럼 99%가 나오지 않게 조정해주는 기법입니다. 전자 중에서 현재 가장 자주 사용되는 것은 Nucleus sampling 또는 top-p sampling라고 부르는 것을 들 수 있고, 후자는 temperature scaling이라고 부릅니다. 온도가 낮으면 분자의 활동성이 적어서 나오던 놈이 나올 확률이 높고, 온도가 높으면 활동성이 좋아져서 이놈 저놈 군웅할거의 시대를 연다 마 이렇게 기억하시면 됩니다. 앞서 출력 결과를 뽑아내는 과정을 읽어보셨다면, 각각의 표제어가 매 회 나오고, 그 결정된 표제어는 다시 LLM의 입력으로 들어가 되먹임되어 다음 결과를 결정하게 됩니다. 이것을 "나 이제 할 말 없어"라고 LLM이 지정된 약속어를 말해주기 전까지 이 되먹임을 반복하여 결과를 만들어냅니다. 이것을 우리는 자기 회귀 디코딩auto-regressive decoding혹은 인과 추론causal inference이라고 부릅니다. 샘플링을 통해서 중간에 예기치못했던 단어들이 등장해도, 국소적으로 가장 알맞은 다음 단어를 뽑아낼 수 있는 메커니즘은 이렇게 완성됩니다. 이 디코딩 과정과 샘플링에 의한 기법을 이해하면, 다음과 같은 생각을 떠올릴 수 있읍니다: (1) [어, 그러면 같은 질문을 여러번 돌려서 각기 다른 결과를 뽑을 수 있겠다. 그 중에는 좋은 것도 있고 나쁜 것도 있겠지?]! (2) [자기가 내뱉은걸 다시 되먹이면서 말을 만들어내니까, 뭔가 정답을 유도할 수 있는 중간 결과를 잘 찍어낼 수 있으면 정답이 더 잘 나오지 않을까?] 이러한 생각들은 지금의 LLM에 있어 다양한 아이디어와 시도를 할 수 있는 바탕이 된다고 할 수 있읍니다. 생각 (1)과 같이, 같은 입력을 통해서 각기 다른 결과를 뽑을 수 있고, 그 중에는 좋은 것이 숨겨져 있을 거라고 예상할 수 있다면, 나이브하게는 여러번 같은 질문을 반복해서 결과를 뽑아낸 다음에 다수결majority voting로 최종 결과를 선택하자는 아이디어를 덧 씌울 수 있게 됩니다. 옛날에 챗가나 클가가 나올 당시의 언론보도나 기술 리포트 성능표가 있었을텐데, 보시면 maj@10 뭐 이런걸 보험광고 팜플렛 한 귀퉁이에 적힌 글자들 마냥 조그맣게 써 있는 것을 볼 수 있습니다, 이건 10번 돌려 추론 가장 마지막에 나온 결과를 취합해 가장 많이 나온 것을 최종 응답이라고 생각하고 정답과 비교해 성능을 뽑아냈다는 뜻이 됩니다. 이쪽 동네 사람들은 2의 거듭제곱수를 좋아해서 64번이나 많으면 256번까지도 돌려서 올리기도 합니다. (2)와 같은 아이디어는 요새 어디서 채신 기술 키워드같은걸 보신 선생님들은 아실텐데, 생각 체인Chain-of-Thought; 줄여서 CoT. 이라고 부르는 것입니다. 요새 딥식이니 o1이니 뭐니 하면서 추론 성능이 저같이 하찮은 인간쯤은 쌉발라버릴 수 있다고 하는 아이들은 이러한 생각의 체인을 좀 더 구체적으로, 명시적으로 단계를 나누어서 접근하는 긴 형식long-form의 CoT 생성 스타일을 따라할 수 있게 좀 더 북돋운 것이라고 생각하면 편하지요. 21 4편 유료구독링크는 어디 있읍니까! (크왕) 이 게시판에 등록된 덜커덩님의 최근 게시물 25-02-05 LLM에 대한 두서없는 잡썰 (3) [14] 23-05-18 윈도우에서 여러 개의 PDF를 한꺼번에 돌려버리기 [4] 22-04-19 꼬맹이를 위한 마인크래프트 서버 만들어주기 [16] 22-02-13 워들에 빗대어 끄적여본 나의 어리석음에 대하여 [5]