- 주식이야기를 자유롭게
- 코인이야기도 해도 됨
[네이버 관련 코멘트]
LLM과 같은 대규모 AI 모델은 어떻게 학습 시키느냐(소스코드) 무엇으로 학습시키느냐(데이터) 그리고 어떤 순서와 피드백을 거쳐 학습시켰는가에 결정됩니다. 그 학습된 결과물이 파라미터, 지능의 뇌에 해당하는 부분입니다. 문제는 여기서 발생합니다. 글로벌 오픈소스 모델들은 소스코드와 학습 데이터를 공개하기도 하지만, 정작 가장 중요한 상세한 학습 레시피(순서, 가중치 부여 방식, 미세 조정 피드백 노하우)는 공개하지 않는 경우가 많습니다. 일종의 영업비밀 이자 노하우인 셈이죠.
국내에서 가장 데이터를 많이 확보하고 있었을 네이버가 흔히 From Scratch 라 불리는 방식으로 모델을 개발하지 않았을까라는 의문이 들텐데 일단 기존 텍스트 기반 LLM 자체는 독자 개발한게 맞습니다. 지금 문제가 된 부분은 멀티 모달 영역 (텍스트, 음성, 비디오 합성)인데 이 부분에서 초기 모델을 Qwen의 오픈소스 모델의 가중치를 그대로 가져오는 지름길을 선택했습니다. 이는 성능을 위한 나름의 고육지책 이었을지 모르지만 독자 소버린 AI 개발 프로젝트라는 문제에 있어서는 출제자의 의도를 잘 못 판단한게 아닐까 싶습니다.
LLM과 같은 대규모 AI 모델은 어떻게 학습 시키느냐(소스코드) 무엇으로 학습시키느냐(데이터) 그리고 어떤 순서와 피드백을 거쳐 학습시켰는가에 결정됩니다. 그 학습된 결과물이 파라미터, 지능의 뇌에 해당하는 부분입니다. 문제는 여기서 발생합니다. 글로벌 오픈소스 모델들은 소스코드와 학습 데이터를 공개하기도 하지만, 정작 가장 중요한 상세한 학습 레시피(순서, 가중치 부여 방식, 미세 조정 피드백 노하우)는 공개하지 않는 경우가 많습니다. 일종의 영업비밀 이자 노하우인 셈이죠.
국내에서 가장 데이터를 많이 확보하고 있었을 네이버가 흔히 From Scratch 라 불리는 방식으로 모델을 개발하지 않았을까라는 의문이 들텐데 일단 기존 텍스트 기반 LLM 자체는 독자 개발한게 맞습니다. 지금 문제가 된 부분은 멀티 모달 영역 (텍스트, 음성, 비디오 합성)인데 이 부분에서 초기 모델을 Qwen의 오픈소스 모델의 가중치를 그대로 가져오는 지름길을 선택했습니다. 이는 성능을 위한 나름의 고육지책 이었을지 모르지만 독자 소버린 AI 개발 프로젝트라는 문제에 있어서는 출제자의 의도를 잘 못 판단한게 아닐까 싶습니다.
3