- 작성자가 질문을 받을 수 있는 게시판입니다.
- AMA는 Ask me anything (무엇이든 물어보세요)라는 뜻입니다.
Date 20/09/25 02:29:19수정됨
Name   베이지안
Subject   축구 좋아하는 미국주립대학 통계학과 교수입니다.
축구는 일주일에 5번 정도 했는데, 지금은 코로나 땜에 못하고 있어요.

한국에서 sky중 한 곳에서 학석사하고, 박사학위는 텍사스에서 받고 박사후 연구원은 하버드에서하고 지금은 미국의 한 주립대학교에서 조교수로 있습니다.



1


세란마구리
통계를 위한 수학은 어느정도 레벨까지 공부하는게 나으려나요?
통계학을 가르치면서 학생들이 가장 오해를 많이 하는 개념은 무엇인가요?
베이지안
통계학 교수가 되려면, 대학수학에서 해석학 쪽은 더 알면 알수록 좋습니다. 근데, 통계학 방법론 쓰는데는 선형대수만 제대로 알아도 별 문제 없습니다.

학부학생들이 가장 오해하는 개념이라기 보다는 전반적인 통계학의 큰 그림에 대한 이해가 떨어져요. 뭐 어쩔 수 없지요. 나도 그랬으니까요. 그래도 굳이 몇몇을 뽑자면, p-value와 confidence interval에대한 해석. 그리고 Bayesian과 frequentist의 차이를 잘 몰라요.
2
세란마구리
답변 감사드립니다.
저는 어차피 도구로 빌려 쓰는 정도니 선대 레벨이 필요하겠군요.
p value만 가지고 해석하는 것을 지양하라는데 명확한 선이 없어지는것 같아서 아쉽기도...
error bar에서 CI랑 SE 해석이 헷갈릴 때도 있고, CI 자체가 좀 직관적인 개념은 아닌 것 같아서...(모집단의 평균을 포함 할 확률이 95%인 구간이란 것과, 이 구간안에 모집단의 평균이 들어있을 확률이 95%라는 것의 차이가 잘 와닿지가 않습니다.)
베이지안과 빈도주의는 막연히 다르다곤 알겠는데 차이를 말하라면 막히는군요..
베이지안
신뢰구간에 대한 설명은 상한과 하한이 확률변수고 모수는 fixed contant라는 차이만 명확히하면 됩니다.

사실 베이지안과 빈도주의의 차이를 이해하는데는 저도 박사거의 끝날 때 쯤 깨달았어요. 이해하기 어떻게 보면 쉬운데 어떻게 보면 무척 어렵습니다.
1
보이차
차이를 면접에서 물어보면 뭐라고 말하면 될까요? likelihood 모델링 주의자 vs. 사후확률 모델링 주의자라 하면 되나요?
베이지안
빈도주의라고 해서 likelihood를 굳이 쓸 필요는 없어요. 적당한 loss function만 정의되면 되거든요. 예를 들면 proper scoring rule 같은 것요. 결국 빈도주의의 핵심은 sampling distribution입니다. 이에 반해 베이지안은 사후분포지요. 그리고 보통 둘은 sample size가 커지면 asymptotic하게 서로 같아져요. Berstein von-Mise theorem이라고 하지요.
6
베이지안
그건 면접에서 물어보지는 않을겁니다. 통계학 박사들도 잘 모르는 사람들이 많거든요.
2
보이차
멋있읍니다..
세란마구리
혹시나 통계학 관련 책 중에 추천 하실 만한 것이 있나요?
베이지안
글쎄요... 별로 책을 보고 공부한 게 아니라... 잘모르겠네요.
세란마구리
그렇군요. 감사합니다.
베이지안
Lady Testing Tea라는 통계교양서는 추천할 만 합니다. 한국에서는 "천재들의 주사위"라고 번역되어 있네요.
2
방사능홍차수정됨
결혼하셨어요?? 아내나 여친 자랑 한 번 해주십시오. 가능하면 연애이야기도 ㅋㅋ
베이지안
와이프는 초등학교 동창입니다. 4학년 6학년 같은 반이였지요. 하지만, 저는 전교에서 가장 외소하고 발육이 지진한 아이였고, 와이프는 이미 그당시에 키가 163이였습니다. 거기다 전교에서 가장 똑똑한 학생이였죠. 반면에, 저는 학업적으로 아주 뒤 떨어지는 아이였습니다. 그래서 초등학교 때는 거의 대화도 못나눠 봤습니다. 워낙 제가 내성적이여서. 나중에 재수해서 겨우 대학에 들어갔는데, 와이프와 캠퍼스에서 마주쳤습니다. 이미 와이프는 초등학교 6학년 때 다 컸기 때문에 저는 바로 알아봤죠. 그리고 친구로 계속 지내다가 대학 졸업하고 제가 대학원에서 석사하고 있을 때 와이프도 회사 그만두고 대학원 들어 온다고 해서 몇 번 만나다가 여기 까지 왔네요. 그때 밤새 술마시고, 키스하는게 아니였는데...
24
막줄보고 추천드립니드
베이지안
와이프는 아주 똑똑합니다. 저는 재수해서 겨우 턱걸이로 대학에 진학했는데, 와이프 같은 경우는 외고에 진학하고 우수한 성적으로 대학에 쉽게 진학했다더라고요. 거기다 일본어는 일어능력검정시험 1급인가 있구요. 중국에 어학연수도 가서 중국어도 좀하고요. 영어도 저보다 잘하고요. 어학 쪽이 타고 난 거 같아요.
5
언년이
우와.. 저도 똑똑하고 현명한 여자가 되고싶네요 ㅜㅠ
이 댓글 보니 더 노력해야할 거 같습니다
와이프님, 홍차넷에 오시면 이곳이 좀 더 ^^^^ 멋진 곳이 될 것 같아요!! 적극 영업 부탁드려요!
1
그럼 베이지안님이 탈퇴하시거나 잠수하실지도 모릅니다? (;;;)
3
교수님 통계가 넘나어렵읍니다...
베이지안
원래 어렵습니다 ㅋ
2
wishbone
미국하신다면 다 여쭤보는가 같은데 미식축구 좋아하세요?
베이지안
미국 사람들은 좋아하는 거 같은데, 저는 별로 안좋아합니다. 룰도 잘 몰라요.
다람쥐
축구는 누구랑 하세요~? ㅎㅎ
베이지안
픽업 축구도 하고요 (그냥 모르는 사람들 끼리 모여서 시간 맞춰서 축구하는 것). 팀도 있고요. 일주일에 축구 5번하려면 팀이나 그룹이 3개 이상 있어야합니다. 같이 픽업 축구하다가 자기 팀들어오라고 해서 들어가기도 하고요. 잘 찾아보면, 많습니다. 다만, 제가 사는 곳이 한국 사람이 별로 없어서 한국 사람과 축구 안한지는 엄청 오래됐네요.
맥주만땅
요즘 축구관련 통계 분석에 대해서 한 말씀
베이지안
어렵습니다. 왜냐하면, 축구는 일단 플레이어간 상호작용이 큽니다. 그리고 데이터가 다이나믹하죠. 그에 반해 고차원의 데이터는 상대적으로 드뭅니다. 그래서 아마 축구는 통계분석이 앞으로도 어려울 겁니다. 야구랑 많이 다르죠.
1
사나남편
아스날팬이신가요? 야구는 롯데나 엘지에 컵스팬이신가요?
베이지안
좋아하는 축구 팀은 없습니다. 하는 걸 좋아하고요. K-리그 하일라이트는 꼭 챙겨봅니다. 그나마 뽑는다면, 대구FC를 좋아합니다. 세징야 엄청잘해요. 야구는 안봐서 모르겠습니다.
2
캡틴아메리카
확률론이나 measure theory 쪽도 공부하셨니요?
1
베이지안
박사과정에서는 기본입니다. 저같은 경우에 학부때 공부했습니다.
1
TheLifer
1. 통계 관련 질문
- 닉을 보면 베이지안을 주전공으로 하셨을 것으로 보이는데, 베이지안을 택하신 동기가 있을까요?
- 위에 답변 주신 내용 중 "베이지안과 빈도주의는 sample size가 커지면 asymptotic하게 서로 같아진다" 는 부분이 있는데, 그렇다면 베이지안 통계 방법론에서도 중심극한정리는 유효하다고 보면 될까요? 통계는 말 그대로 옛날에 손톱만 담궜다 빼서 그냥 문외한이나 다름없어서 질문드립니다.

2. 축구/일상 관련 질문
- 주로 어느 포지션에서 뛰시는지요? 해당 포지션에서 좋아하는 선수를... 더 보기
1. 통계 관련 질문
- 닉을 보면 베이지안을 주전공으로 하셨을 것으로 보이는데, 베이지안을 택하신 동기가 있을까요?
- 위에 답변 주신 내용 중 "베이지안과 빈도주의는 sample size가 커지면 asymptotic하게 서로 같아진다" 는 부분이 있는데, 그렇다면 베이지안 통계 방법론에서도 중심극한정리는 유효하다고 보면 될까요? 통계는 말 그대로 옛날에 손톱만 담궜다 빼서 그냥 문외한이나 다름없어서 질문드립니다.

2. 축구/일상 관련 질문
- 주로 어느 포지션에서 뛰시는지요? 해당 포지션에서 좋아하는 선수를 한 명 꼽으라면 누구일까요?
- 축구를 좋아하게 된 동기가 있으신가요?
- 현재 거주/근무중이신 곳은 텍사스나 하버드 소재지와는 다른 지역으로 보이는데, 해당 지역의 코로나 추이는 어떤 편인가요?
- 한국으로 복귀하실 계획은 혹시 있으신가요?
베이지안
1. 이건 운명입니다. 박사과정 때 베이지안 수업을 들었는데, 첫 수업 때 교수님이 이 중에 빈도주의자 있냐고 물어보셨습니다. 아무도 감히 말을 못하는데 저 혼자 용감하게 손을 들었고, 그 교수님이 당장 나가라고 했습니다. 물론 농담이였죠. 그 분이 제 지도교수가 되고 저는 자연스럽게 베이지안이 되었습니다.

그리고 중심극한 정리는 sample mean의 분포가 정규분포로 근사하다는 정리입니다. 베이지안 사후분포는 철학적으로 다르지만 중심극한 정리는 모든 통계이론에서 중요합니다. 베이지안이라고 예외일 수는 없지요.

2. ... 더 보기
1. 이건 운명입니다. 박사과정 때 베이지안 수업을 들었는데, 첫 수업 때 교수님이 이 중에 빈도주의자 있냐고 물어보셨습니다. 아무도 감히 말을 못하는데 저 혼자 용감하게 손을 들었고, 그 교수님이 당장 나가라고 했습니다. 물론 농담이였죠. 그 분이 제 지도교수가 되고 저는 자연스럽게 베이지안이 되었습니다.

그리고 중심극한 정리는 sample mean의 분포가 정규분포로 근사하다는 정리입니다. 베이지안 사후분포는 철학적으로 다르지만 중심극한 정리는 모든 통계이론에서 중요합니다. 베이지안이라고 예외일 수는 없지요.

2. 주로 공격형 미드필더 뛰는데, 픽업게임에서 뛰면 수비를 주로 봅니다. 왜냐하면, 애들이 포지션 개념이 없어서 아무대나 뛰는데, 수비를 서면 그나마 좀 중심이 잡혀서 팀이 안정화 되거든요. 축구를 좋아하게 된 동기는 처음으로 인생에서 내가 뭔가를 할 수 있다는 성취감을 느낀 계기가 되었기 때문입니다. 외소하고 내성적이며 학업성적도 좋지 못했던 고등학교 시절에 반대항전 축구경기에서 제가 상대방 수비를 한 번 어쩌다 제꼈거든요. 다른 친구들이 인정해주고 잘했다고 칭찬해주는데, 그게 계기가 되었습니다.

제가 사는 동네는 지금 큰일 났습니다. 대학생만 2500명이 걸렸습니다. 5주 만에요. 총 학생수가 4만명 좀 안되는데, 5%이상의 학생이 걸렸어요. 미쳤습니다. 한국에서 전국에서 100명 걸렸다고 난리인데, 여기는 전혀 상관안해요. 이래도 되나 싶은데, 이렇게 되고 있네요.

한국으로 복귀계획은 잘모르겠네요. 제가 사람많은 곳을 싫어해서요.
TheLifer
답변 감사합니다. 뒤숭숭한 게 차원이 다르네요. 건강하시길 빌겠습니다.
스피겔할터 선생님의 The art of statistics에서 모집단에 세 가지 유형이 있다시며 a literal population, a virtual population, a metaphorical population을 제시하신 것을 보았습니다. 이 중 a metaphorical population은 더 큰 모집단이 없는 경우로서 우리가 모든 데이터를 가지고 있는 경우라고 설명하고 그런데 마치 어떤 population에서 각 data-point가 random하게 추출된 것처럼 여긴다고 설명한 부분이 있었습니다.
이 metaphorical population이라는 용어 또는 개념이 통계학계에서 존재하는 것인지, 정의에 대한 합의가 있는 상황인지가 궁금합니다.
1
사실 말이 어려워서 그렇지 아이디어는 간단합니다. 예를 들면, 선거를 할 때 모집단은 모든 국민이 됩니다. 거기서 subsampling하게 되는 거죠. 모든 사람을 다 조사할 순 없고 해서도 안되고 해서 몇몇 대표 sample들을 이용하는데, 그러면 불확실성이 생길 수 밖에 없습니다. 반면에 다른 경우는 우리의 sample들이 이렇게 유한한 모집단이 아니라 어떤 확률분포를 따르는 확률변수라고 생각하는 겁니다. 거기서 random sampling된 거라는 거죠. 우리가 기본적으로 사용하는 Gaussian linear model같은 경우에 해당되지요. 두 개의 개념이 비슷하지만 다른 경우가 되지요.
2
감사합니다-^^
유럽마니아
손흥민경기 챙겨보시겠네요?
베이지안
축구보는 건 별로 안좋아합니다.하일라이트만 봅니다.
안녕하세요 교수님
딥러닝으로 밥벌이하는 개발자입니다.
최근들어서 딥러닝보다 전통적인 머신러닝/통계쪽이 좀 더 공부하고 싶어졌습니다. 사실 딥러닝이 근본이 없는 학문이라 perceptron 하나만 대충 알아도 그 이후는 적당한 수리적 센스로 퉁칠수는 있지만 계속 이렇게 날로먹다가는 인생이 골로갈것 같아서요.
그래서 말인데 어디서부터 시작해야할지 감이 안오네요. 베이지안, Hidden Markov 등의 전통적인 수리통계를 배우고 싶은데 어디부터 시작하면 좋을까요? 영어는 원활하고 pdf하나 던져주시면 열심히 읽을 자신 있습니다. 최종 목표는 openai나 금융통계 회사에서 입사면접문제로 나오는 문제... 더 보기
안녕하세요 교수님
딥러닝으로 밥벌이하는 개발자입니다.
최근들어서 딥러닝보다 전통적인 머신러닝/통계쪽이 좀 더 공부하고 싶어졌습니다. 사실 딥러닝이 근본이 없는 학문이라 perceptron 하나만 대충 알아도 그 이후는 적당한 수리적 센스로 퉁칠수는 있지만 계속 이렇게 날로먹다가는 인생이 골로갈것 같아서요.
그래서 말인데 어디서부터 시작해야할지 감이 안오네요. 베이지안, Hidden Markov 등의 전통적인 수리통계를 배우고 싶은데 어디부터 시작하면 좋을까요? 영어는 원활하고 pdf하나 던져주시면 열심히 읽을 자신 있습니다. 최종 목표는 openai나 금융통계 회사에서 입사면접문제로 나오는 문제들을 대응할 수 있을만한 직관을 기르고 싶습니다.
https://docs.google.com/document/d/10bJK8S4T7sBIP-pzdQm9xRpW0HcLsrh6D047pE_kFE8/edit
이런 류의 공부를 하고 있읍니다.
1
베이지안
카네기멜론의 Larry Wasserman교수의 All of Statistics라는 책으로 공부하면 좋을 것 같습니다. 좀 어렵게 느껴지면, 거기 나온 주제들에대해 구글에서 "talk slides"로 검생해보세요. 훨씬 이해하기 쉬울겁니다. 토크에서는 짧은 시간에 사람들을 직관적으로 이해시키기 위해서 쉽게 설명하거든요.

그리고 Larry Wasserman의 블로그도 보시면 좋습니다 대가가 왜 대가인지 알게 해주지요. https://normaldeviate.wordpress.com
4
1. 통계학 베이스가 없는 사람이 데이터 분석쪽으로 돌리는 것은 무모한 일일까요?
2. 데이터분석 관련한 미국 유학도 무모한 짓일까요?
질문이 모호하네요,,
3. 비전공자를 위한 통계관련 교양책 추천해주실 수 있을까요?
2
베이지안
1. 데이터 분석에 필요한 지식과 경험을 꾸준히 쌓는다면, 충분히 가능하지 않을까 싶습니다. 소스는 이미 인터넷에 차고 넘치니까요. Coursera같은 강의 사이트에서 무료 또는 매우 싼 값에 양질의 강의를 들을 수 있습니다. 문제는 그걸 할 만한 에너지와 시간이 있냐는 거지요. 직장에서 다른일을 하면서 배우기는 시간과 에너지가 무척 부족할 것입니다. 하지만, 자기하기 나름이지요. 꾸준히 계속 해야합니다. 그러면, 어느 순간 눈이 떠질겁니다.

2. 별로 안무모합니다. 석사는 미국유학이 돈이 많이듭니다. 대학원이 학비지원을 보... 더 보기
1. 데이터 분석에 필요한 지식과 경험을 꾸준히 쌓는다면, 충분히 가능하지 않을까 싶습니다. 소스는 이미 인터넷에 차고 넘치니까요. Coursera같은 강의 사이트에서 무료 또는 매우 싼 값에 양질의 강의를 들을 수 있습니다. 문제는 그걸 할 만한 에너지와 시간이 있냐는 거지요. 직장에서 다른일을 하면서 배우기는 시간과 에너지가 무척 부족할 것입니다. 하지만, 자기하기 나름이지요. 꾸준히 계속 해야합니다. 그러면, 어느 순간 눈이 떠질겁니다.

2. 별로 안무모합니다. 석사는 미국유학이 돈이 많이듭니다. 대학원이 학비지원을 보통 잘 안해주거든요. 하지만, 박사는 학비지원에 생활비도 줍니다. 결혼만 안했으면, 보통 살 만 합니다. 문제는 시간이 좀 길기는 하지요. 5년이라는 시간이 짧지는 않으니까요. 그리고 박사 받는 다고 모든 일이 다 순탄하게 흘러간다는 보장도 없습니다. 세상은 불확실성 덩어리지요.

3. Lady Tasting Tea (한국제목: 천재들의 주사위놀이) 추천합니다. 그리고 통계학 기본이 되어 있으시면, Larry Wasserman의 All of Statistics추천합니다.
2
제루샤
앗 모호한 질문에 자세한 답변 감사드립니다 :)
역시 문제는 돈과 역시이지만 그래도 희망과 의지를 가지고 해봐야겠군요..ㅎㅎ
일단 통계관련 책들부터 다양하게 읽어보고 있는데 추천해주신 책도 읽어보겠습니다! 감사해요!
베이지안
다만, 생각이 있다면 바로 준비를 시작하시는 걸 추천드립니다. 왜냐하면, GRE도 봐야하고 토플도 점수만들어야하고, 추천서도 교수님들께 부탁해야하고, 신경 써야 할 것이 많습니다.
1
듣보잡
닉값...
베이지안
사실 제 박사지도교수님들이 모든 순수 베이지안이십니다 (모두 베이지안 스쿨로 유명한 Duke출신이십니다). 그래서 저도 베이지안이지만, 계속 공부해 보니 베이지안통계도 문제가 많은 걸 느꼈습니다. 가장 큰 문제가 컴퓨팅이 너무 느립니다. MCMC같은 건 너무 오래 걸려요. 뉴럴넷을 MCMC할 수 없잖아요? 그렇다고 해서 Variational Bayes같은 건 정말 말도 안되게 부정확하고요. 사실 Variational Bayes를 Bayes라고 쓸 바에야, 그냥 MAP estimator나 penalized likelihood를 쓰는게 훨씬 낫다고 생각합니다.

그래서 요즘에는 frequentist로 변절되어가고 있는 중입니다. Bootstrap을 아주 빠르게 하는 방법론을 개발했거든요. Bootstrapping만 빠르게 할 수 있으면, 베이지안의 자연스러운 uncertainty quantification에 버금가는 장점이 될 수 있으니까요.
4
조선전자오락단
한국의 통계청에 대해서 한말씀 부탁드립니다.
베이지안
통계청은 한국의 공식 통계자료를 수집하고 관리하는 곳이지 데이터 분석을 주로하는 곳이 아닙니다. 제 전공이 sampling이 아니기 때문에 사실 잘 모릅니다.
메시가 역대 최고의 선수라고 생각하세요?
베이지안
예. 저는 의심의 여지 없이 메시가 역대 최고의 선수라고 생각합니다. 그렇게 수비수를 무기력하게 만드는 플레이는 본적도 없습니다. 제가 만약에 상대 수비라면 "저새끼 축구 X같이 하네"라고 엄청 욕할 거 같습니다.
3
지나가던선비
동부서부 어디에있는 주립대인가요
같은동아시아라 중국인으로오해받은적은없으신가요
코로나에관해서 질문인데 마스크는 얼마나 쓰고 다니고 글쓴님은 마스크나 그런 용품들을 무리없이 구할 수있나요?
90퍼확률로 1억 vs10퍼확률로 100억 은 통계학을 전공했다면 닥후여야 하너요??
베이지안
1. 남동부입니다.
2. 중국인이라고 오해많이 받습니다. 특히 히스패닉애들은 축구할 때 맨날 저보고 Chino라고 부릅니다. 꼬레아노라고해도 미안하다고하고 좀 있다가 또 치노라고 불러요. 근데, 중국사람도 저를 중국사람인 줄 알아요. 중국친구 말로는 제가 생긴걸로는 100% 중국사람 처럼 생겼답니다.
3. 미국은 마스크가 규격을 안따져서 무슨 손수건을 입에 두르고 다녀요. 효과는 많이 떨어질 텐 데도 말이죠. 마스크는 나이 드신 분들은 확실히 잘 쓴느데 대학생들은 진짜 잘 안씁니다. 특히 술집이랑 클럽에 주말에 가면, 대학생들이... 더 보기
1. 남동부입니다.
2. 중국인이라고 오해많이 받습니다. 특히 히스패닉애들은 축구할 때 맨날 저보고 Chino라고 부릅니다. 꼬레아노라고해도 미안하다고하고 좀 있다가 또 치노라고 불러요. 근데, 중국사람도 저를 중국사람인 줄 알아요. 중국친구 말로는 제가 생긴걸로는 100% 중국사람 처럼 생겼답니다.
3. 미국은 마스크가 규격을 안따져서 무슨 손수건을 입에 두르고 다녀요. 효과는 많이 떨어질 텐 데도 말이죠. 마스크는 나이 드신 분들은 확실히 잘 쓴느데 대학생들은 진짜 잘 안씁니다. 특히 술집이랑 클럽에 주말에 가면, 대학생들이 마스크 안쓰고 빠글빠글합니다. 그러니 학교 학생의 5%이상이 코로나가 걸리지요. 거기다 얼마 전에는 교회 사람들이 대규모로 모여서 마스크 쓰기 거부 데모도 했습니다. 참 이해가 안가요.
4. ㅋㅋㅋㅋㅋ 이건 취향 차이라고 생각합니다. utility로 생각했을 때 100억의 utility가 꼭 1억의 100배가 아니니까요. 기대수익 보다는 기대 utility의 측면에서 생각해야 할 것 같습니다. 저 같으면 90%의 1억을 선택하겠습니다.
1
꿈꾸던돼지
제가 수학을 다까먹어서 수학을 다시 공부할려고 하는데
수학은 머리가 똑똑한 사람들만이 할수 있는 학문인지 궁금합니다

저처럼 머리가 멍청한 사람도 노력하면 수학을 어느정도는 잘할수 있게 될까요?
더도말고 고교 수준까지만 다시 배울려고 합니다 원래 수학을 잘 못했어요 ㅜㅜ
베이지안
예전에는 뭔가를 배우는데 머리가 별로 필요없다고 생각했습니다. 하지만, 요즘 들어 드는 생각은 머리는 생각보다 타고나는 부분이 많은 것 같아요. 다만, 자기가 수학적인 머리가 좋은지 안좋은지는 생각보다 알기 어려운 것 같습니다. 자기도 모를 수 있어요. 저도 고등학교 때 수학 50점 받고 그랬거든요. 그래서 문과를 갔어요. 저는 수학을 못하는 줄 알고요. 나중에 시간이 지나고 보니까 제가 수학적인 머리가 무척 좋더라구요. 대학에서 수학과 수업을 많이 들었는데 수업에서 거의 1등했어요.

한 번 해보세요. 자기는 수학적인 머리가 안좋다는 생각은 절대하지 말고요. 그렇게 생각하는 순간 될일도 안됩니다.
2
꿈꾸던돼지
훌륭한 가르침 정말 감사합니다! 한가지만 더 질문 드려도 될까요?

제가 생각하는 수학은 계산기 마냥 이미지 트레이닝이 정말 중요하다고 생각하는데
예를들어 자신의 수학과 계산을 계산기 처럼 이미지화 해서 머리에 계산을 연상시키면
훨씬 수학이 잘될것같다고 늘 생각했었는데 베이지안 님께서는 어떻게 생각하시는지요?
베이지안
고등학교 수학에는 그런 방법으로 가능할지도 모르겠지만, 일반적인 수학은 수를 이용한 논리의 집합체여서 좀 모호합니다. 계산이 필요 없거든요. 예를 들면, "어떤 함수가 연속임을 증명하여라"라는 문제가 있을 때, 기계적인 계산은 필요 없으니까요.
2
꿈꾸던돼지
아하 그렇군요 좋은 가르침 감사합니다! ㅅ,ㅅ
1. ppm단위 불량률에 대해 어떤 방법으로 접근해야 할 지 고민이 있습니다. 예를 들어 월간 생산되는 칩이 60M정도 되는데, 이런 단위에서는 모수가 너무 커져서 불량률이 약간의 차이만 나도 다 p-value가 0으로 나옵니다. 서로 다른 개선점을 적용한 물량의 불량률 차이가 17ppm이 난다고 해서 이걸 나아졌다고 봐야 하는지 아닌지 고민이 있습니다. 좋은 방법이 있을까요?

2. 제가 있는 부서에서 현재 쓰고 있는 방법론 중에 Test Coverage를 잡는 방법이 있습니다. 예를 들어 납품한 물건 중에 claim이 10건... 더 보기
1. ppm단위 불량률에 대해 어떤 방법으로 접근해야 할 지 고민이 있습니다. 예를 들어 월간 생산되는 칩이 60M정도 되는데, 이런 단위에서는 모수가 너무 커져서 불량률이 약간의 차이만 나도 다 p-value가 0으로 나옵니다. 서로 다른 개선점을 적용한 물량의 불량률 차이가 17ppm이 난다고 해서 이걸 나아졌다고 봐야 하는지 아닌지 고민이 있습니다. 좋은 방법이 있을까요?

2. 제가 있는 부서에서 현재 쓰고 있는 방법론 중에 Test Coverage를 잡는 방법이 있습니다. 예를 들어 납품한 물건 중에 claim이 10건 들어왔을 때 불량 시료가 실제 normal물량 대비 가장 극단적인 차이를 보이는 변수(ANOVA 등을 활용)를 찾고 그 변수들 간의 and 조건들로 제어하여, 앞으로 이 claim시료가 발생하지 않게 한다, 식의 방법론입니다. 불량 매커니즘을 정확하게 추론하기 어렵고, 또 불량이 확률에 크게 의존(tunneling 등)하여 사용하는데 실제 발생한 claim시료가 이후 발생할 claim시료를 예측하는 데 얼마나 정합성이 있는지 검증하기 위해서는 어떤 통계적 마인드가 필요할까요?

3. 시간에 따라 불량률이 변하는 함수(Weibull 분포 등)을 fitting하는 과정이 궁금합니다. 저희는 가속조건에서 1시간 동안의 불량시료 수, 1시간~3시간 사이의 불량시료 수, 3시간~7시간 사이의 불량시료 수 등을 갖고 weibull분포의 형상모수를 추정하는데(아마도 MLE) 64시간 이상은 그냥 infinite로 놓고 64시간 이후에 발생한 불량은 전체 모수로 놓습니다. 이게 과연 맞는 방법인지 궁금하네요.
1
베이지안
1. 일단 통계학에서 흔한 문제입니다. p-value는 sample size에의존하기 때문에 표본수가 너무 크면 p-value가 0이 되기 쉽습니다. 말이 안되는 결과죠. 그래서 사람들은 effectsize를보라고 권장합니다. p-value의맹점 중 하나지요.

2. 만약에 저라면, 불량 여부를 dependent variable로놓고 logistic regression을 고려할 것 같습니다. 그러면 다른 여러 변수들 중에 불량여부에 연관이있는 변수를 선택하여 (변수선택방법을 이용해서) 불량률을 높이는 책터를 알아내는 게 좋을듯합니다. 다만, 이런 경우에 label들이 highly unbalanced되어있어서 (불량인 경우가 훨씬 적으니까) 모델 자체가 fitting이 어려울 수 있습니다.

3. Weibul분포는 연속형인데, 갯수는 discrete이고요. 근데 어떻게 Weibull로 discrete variable을모델하죠?
1
마일드
1.연구, 과제, 수업 포함해서 할 일이 많으실텐데 스케쥴링을 어떻게 하고 계신지 궁금합니다

2. 길게 봐서 중요한 일이랑 급한일 중에 무엇을 먼저 하시나요?
베이지안
저는 아주 단순하게 삽니다. 재밌는 것 하고 싶은 것 먼저하고 삽니다. 별로 추천하고 싶은 방법은 아닙니다. 왜냐하면, 일정에 여러가지 문제가 생기니까요. 거기다 생산성도 많이 떨어집니다. 하지만, 어떤 흥미가 생긴 여러 문제에 대해서 생각하다 보면 시야가 좀 넓어지는 것 같습니다.
오르토모
Random Variable 이 function 인데 이름이 너무 이상하게 붙어서 이해하느라 고생했습니다. 왜 function 이면서도 function 이 아닌 variable인지 설명 부탁드릴 수 있을런지요
베이지안
random variable을 function이라고 하는 건 아주 추상적인 수학에서 이야기입니다. probability measure space에서 발생가능한 event들을 모아놓은 collection을 sigma-algebra라고 하는데, random variable은 이 추상적인 공간인 sigma-algebra에서 정의된 function입니다. 각각의 event를 실수로 이어지는 역할을 하지요. 이 때 확률은 역으로 mapping된 event의 확률이 되고요. 이렇게 정교하게 다듬어진 시스템에 정의된 function을 measurable function이라고 부르고, 확률론에서는 random variable이라고 부릅니다. 비전공자가 보통 생각하는 function이랑은 느낌이 좀 다르지요. 하지만, 명백히 function입니다. 통계이론을 이해하는데는 중요하지만, 보통 사람들은 몰라도 상관없습니다.
오르토모
Measurable function 과 대비해서 찾아보니 좀더 이해가 잘 되네요. 감사합니다!
별다섯그랑호텔수정됨
교수님 통계관련 재밌는 짤 하나 올려주십시오
베이지안
제가 좋아하는 격언이 있지요. "인간은 평균적으로 1개의 고환과 1개의 나팔관을 가진다."
2
교수님... 질문하고픈데 둘다 모르는 분야라...
1
Schweigen
혹시 텍사스에서 교수로 재직중이신 곧 50되시는 그분이신가요?
베이지안
아니요 ㅋ
BibGourmand
바이오 쪽에서 일하는데, 통계를 쓰긴 하면서도 제대로 된 통계와는 연이 없습니다. 유전적으로 동일한 쥐를 나눠서 실험하기 때문에 n값에 상관없이 모수적 통계만 쓰다보니, 2개 비교하면 t-test고 3개 이상은 ANOVA를 돌리며, t-test 기준으로 두 그룹의 에러바가 겹치지 않을 정도로 차이나면 별이 뜨는거다 같은 수준이죠..

기초적인 질문이 두 가지인데요,
1. t-test에서 p-value < 0.05라는 말의 뜻을 '이런 그룹 간 차이가 우연에 의해 발생했을 가능성은 5% 미만이다'로 이해하면 맞는 건지요? ... 더 보기
바이오 쪽에서 일하는데, 통계를 쓰긴 하면서도 제대로 된 통계와는 연이 없습니다. 유전적으로 동일한 쥐를 나눠서 실험하기 때문에 n값에 상관없이 모수적 통계만 쓰다보니, 2개 비교하면 t-test고 3개 이상은 ANOVA를 돌리며, t-test 기준으로 두 그룹의 에러바가 겹치지 않을 정도로 차이나면 별이 뜨는거다 같은 수준이죠..

기초적인 질문이 두 가지인데요,
1. t-test에서 p-value < 0.05라는 말의 뜻을 '이런 그룹 간 차이가 우연에 의해 발생했을 가능성은 5% 미만이다'로 이해하면 맞는 건지요? 누구에게 물어봐도 다들 이렇게 이해하는데, 전문가 분께 확인을 받고 싶었습니다.
그리고 그래프를 그렸을 때 두 그룹의 에러바가 겹치지 않으면 통계적으로 유의미하더라는 경험칙이 있는데 (t-test), 그게 수학적으로도 맞는 것인지, 아니면 대부분의 경우에 그렇긴 하지만 그 자체로 딱히 의미가 있지는 않은 것인지요?

2. 종종 애매한 값을 얻은 사람들이 n값을 늘려서라도 억지로 별을 띄우려는 경우를 봅니다. 이 짓을 어디까지 해도 되는 걸까요?
차이가 크지 않은데 어거지로 별을 띄우면 실질적으로 무의미한 것을 유의미하게 포장하는 것일 텐데, 그렇다고 딱히 n값이 얼마여야 한다고 규정짓는 룰 같은 것도 없다보니 (대략적인 범위는 있습니다만, 그렇다고 12개 할 것을 20개 했다고 리젝 먹이지는 않으니까요) 이게 윤리 문제인지 수학 문제인지도 애매하고 그렇습니다.
Power analysis 이야기가 나올 법 한데, 그건 필요한 최소값을 구하는 거지 넘지 말아야 할 최대값이 나오는 건 아니잖아요? 일반적인 룰 같은 게 있을까요?
1. "두 그룹 간 차이가 실제로는 없는데, 우연에 의해 두 그룹이 다르다고 귀무가설을 기각할 확률이 5% 미만이다." 라고하는게 좀 더 정확하겠네요. 그룹 간의 표본평균 차이는 정도의 문제지, 항상 존재할 수 밖에 없으니까요.

2. 이걸 p-hacking이라고 하는데, 절대 하면 안되는 짓입니다. 가설검정에서 어느수준의 Power를 원한다고 할 때, 먼저 거기에 대응하는 sample size를 먼저 계산하고, 데이터를 수집해야합니다. 근데, 이걸 일단 조금 데이터수집하고 테스트해보고 p-value가 크면, 데이터 더 수집해... 더 보기
1. "두 그룹 간 차이가 실제로는 없는데, 우연에 의해 두 그룹이 다르다고 귀무가설을 기각할 확률이 5% 미만이다." 라고하는게 좀 더 정확하겠네요. 그룹 간의 표본평균 차이는 정도의 문제지, 항상 존재할 수 밖에 없으니까요.

2. 이걸 p-hacking이라고 하는데, 절대 하면 안되는 짓입니다. 가설검정에서 어느수준의 Power를 원한다고 할 때, 먼저 거기에 대응하는 sample size를 먼저 계산하고, 데이터를 수집해야합니다. 근데, 이걸 일단 조금 데이터수집하고 테스트해보고 p-value가 크면, 데이터 더 수집해서 p-value가 5%보다 낮아질 때 까지하면 안됩니다. 그러면, Type I error rate이 5%가아니라, 실제로는 훨씬 커질 수 있습니다. 하지만, 눈가리고 아웅하기 식으로 많이들 하지요. 통계학자가 이런 짓하면 안된다고, 뭐라 그러면. 다른 분야 사람들은 싫어하고요. 논문 써야하고 결과 내야하는데, 절차 따지면, 유의하게 안나오거든요. 이건 편법도 아니고 위법입니다.
BibGourmand
명확하네요. 감사합니다.

data를 빼거나 고르는 짓은 명백한 사기라고 모두가 알고 있는데, n값을 늘리는 방법에 대해서는 필드 내에 경각심이 많이 부족한 것 같습니다.
실험을 해 보기 전까지는 어떤 효과가 나올지 아무도 모르고, 실험 하나하나가 노동집약적이고 비싸다 보니, 우선 몇 개 뽑아보고 가망이 있어 보이면 추가하고 가망이 없어 보이면 접는 방식으로 실험을 하게 됩니다. 그러니 충분히 뽑아보고도 가망이 있어 보이면(?) 몇 개 더 해보지 뭐.. 하기 쉬운 구조이긴 합니다.
이런 류의 실험에서는 이 정도의 sampl... 더 보기
명확하네요. 감사합니다.

data를 빼거나 고르는 짓은 명백한 사기라고 모두가 알고 있는데, n값을 늘리는 방법에 대해서는 필드 내에 경각심이 많이 부족한 것 같습니다.
실험을 해 보기 전까지는 어떤 효과가 나올지 아무도 모르고, 실험 하나하나가 노동집약적이고 비싸다 보니, 우선 몇 개 뽑아보고 가망이 있어 보이면 추가하고 가망이 없어 보이면 접는 방식으로 실험을 하게 됩니다. 그러니 충분히 뽑아보고도 가망이 있어 보이면(?) 몇 개 더 해보지 뭐.. 하기 쉬운 구조이긴 합니다.
이런 류의 실험에서는 이 정도의 sample size면 된다는 경험적 공감대 정도는 있지만, 뭘 처리하느냐 어떻게 처리하느냐 누가 하느냐 등등에 따라 분산이 천차만별이니 처음부터 필요한 sample size를 계산해놓고 data를 수집한다는 개념 자체가 부족한 것이 가장 큰 문제인 것 같습니다.
베이지안
이해는 합니다. 적절한 절차를 따르면 연구결과에서 p-value가 크게나오면, 그냥 전체 결과를 버려야하니까요. 너무 아깝지요. 하지만, 그렇게 하면 안됩니다. 실제로 통계학자들이 재현성의 위기가 찾아 온 가장 큰 원인 중에 하나가 p-hacking이라고 보고 있습니다.
1
사악군
1. 주식하십니까..?

2. 미 대선 결과 예상은 어떠신지요?
베이지안
1. 안합니다.

2. 트럼프가 이길 것 같습니다. 어제도 공원에서 한 미국아저씨 만났는데, 트럼프빠라고 이야기는 안해도 거의 그렇더라고요. 제가 사는 곳이 남부여서 그런 것도 있지만, 아마 트럼프 뽑는 사람이 무척 많을 듯합니다.
바구니
이름도 기억 안나는 학생이 학부때 수업 들었다며 추천서 써달라고 연락오면 어떤가요?ㅎㅎ;; 미국에서 취업을 목적으로 통계학 석사를 하면 외국인한테도 어느정도 열려있는 편인가요? 학부 전공은 통계학이고 영어는 그럭저럭 합니다. 4년차 직장인이고 회사가 미국 대기업이긴 한데 지금 직무(영업, 마케팅)로 미국으로 가기에는 영어가 원어민 수준은 아니라서.. 그래도 기술이 있으면 미국으로 종종 가는것 같아서 지금이라도 도전해볼까 하는데 30대 중반에 새로운 커리어 시작하는것에 대한 리스크 때문에 고민중입니다.
베이지안
학부 때 수업 들었던 학생이 추천서를 써달라고하면 써줘야합니다. 왜냐하면, 그것도 교수의 업무 중 하나거든요. 뭐 안써줄수도 있지만, 엄밀히 말하면 직무유기죠. 하지만, 오래전에 수업을 듣고 잘 기억이 안나는 학생에 대해서는 학점외에는 써 줄 말이 별로 없지요.

그리고 통계석사가 미국 취업에 도움이 되냐는 질문에 대한 저의 대답은 "도움이 확실히 된다"입니다. 학부생과 비교해서는 훨씬 취업확률이 높을 겁니다. 하지만, 학부생의 미국 취업이 워낙 어려워서, 석사의 미국취업도 쉬운 것은 아닙니다. 그래도 석사를 하는 것은 추천할만 합니다. 특히, 석사생도 재정지원을 해주는 과들이 몇 개 있는데, 그런 곳은 학비도 안내고 생활비도 받으면서 석사과정을 보낼 수 있습니다.
목록
번호 제목 이름 날짜 조회 추천
1687 일정이 붕 떴어요. 관심이 고픕니다. 33 순수한글닉 20/09/22 3240 0
1688 아무 질문이나 받습니다 32 쿠팡 20/09/23 3812 1
1689 축구 좋아하는 미국주립대학 통계학과 교수입니다. 78 베이지안 20/09/25 8762 1
1690 영양제 중독자입니다 32 똘빼 20/09/30 4220 1
1691 심심해서..질문 받습니다. 24 [익명] 20/10/06 3275 0
1693 수박 겉핥기만 많이 해 온 대학생입니다! 15 Merrlen 20/10/11 4052 1
1694 은따 피해자 AMA 16 [익명] 20/10/11 3923 0
1695 미국 로스쿨생이에요 37 [익명] 20/10/15 5101 0
1696 AMA 39 [익명] 20/10/16 3139 0
1699 주식투자 23년차 개미입니다 48 [익명] 20/10/19 4357 0
1700 심심하니 AMA 26 [익명] 20/10/22 3415 0
1701 AMA 타임 29 쿠팡 20/10/23 3492 1
1702 중간고사를 조진 자의 AMA 35 [익명] 20/10/24 3177 0
1705 영화 스태프입니다 49 [익명] 20/10/30 3596 0
1706 코스트코 직원입니다. 44 [익명] 20/11/01 7919 0
1707 응급실에서 일합니다. 55 마네 20/11/02 4424 0
1709 반차입니다. 22 gohome 20/11/04 3382 0
1710 AMA 고고! 19 [익명] 20/11/05 2945 0
1711 아스퍼거 증후군 환자입니다. 10 [익명] 20/11/07 4141 0
1712 유튜브 채널을 운영하고 있습니다. 29 [익명] 20/11/14 3947 0
1713 유튜브 채널을 운영하고 있습니다. 5 [익명] 20/11/16 2974 0
1714 보드게임 취미 10년 차입니다. 49 BriskDay 20/11/18 5094 1
1715 엄마랑 한강 까페에 놀러나왔습니다. 18 Cascade 20/11/19 3407 0
1716 아무 말 vs 아무 말 43 [익명] 20/11/22 2807 0
1717 자가격리 2일차입니다. 뭐하고 시간을 때울까요? 66 [익명] 20/11/22 4360 0
목록

+ : 최근 6시간내에 달린 댓글
+ : 최근 12시간내에 달린 댓글

댓글
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기
회원정보 보기
닫기