3. Introduction
생각의 단순화
Y 가 연속형?
1 진짜 연속 VS 가짜연속(Count data)
2 연속: 정규분포!!!!!! → 일반 회귀분석
3 Count: 발생 수, 자녀 수 etc.. : 포아송, 감마, 음이항 등
Y 가 범주형?
1 2범주 VS 3범주이상
2 2범주 : 로지스틱
3 3범주이상 : 프로빗 등..
Y 가 독립이 아님?: 반복측정, 멀티레벨 등.. 본강의에선 제외
Jinseob Kim Regression Basic July 15, 2015 3 / 26
4. Introduction
단변량 VS 다변량
단변량(univariate) VS 다변량(multivariate)
1 Association 얼마나 있느냐
1 다른 것의 효과를 보정한 후에도 Association이 있는가?
Jinseob Kim Regression Basic July 15, 2015 4 / 26
5. Regression Review
Contents
1 Introduction
2 Regression Review
Basic linear regression
MLE에서 주요 지표
3 Logistic Regression
4 Poisson Regression
Jinseob Kim Regression Basic July 15, 2015 5 / 26
6. Regression Review Basic linear regression
Remind
β estimation in linear regression
1 Ordinary Least Square(OLS): semi-parametric
2 Maximum Likelihood Estimator(MLE): parametric
대부분의 회귀분석에서 추정원칙
Jinseob Kim Regression Basic July 15, 2015 6 / 26
7. Regression Review Basic linear regression
Least Square(최소제곱법)
제곱합을 최소로: y 정규성에 대한 가정 필요없다.
Figure: OLS Fitting
Jinseob Kim Regression Basic July 15, 2015 7 / 26
8. Regression Review Basic linear regression
Likelihood??
가능도(likelihood) VS 확률(probability)
Discrete: 가능도 = 확률 - 주사위 던져 1나올 확률은 1
6
Continuous: 가능도 != 확률 - 0∼1 에서 숫자 하나 뽑았을 때 0.7일
확률은 0...
Jinseob Kim Regression Basic July 15, 2015 8 / 26
9. Regression Review Basic linear regression
Maximum likelihood estimator(MLE)
최대가능도추정량: 1, · · · , n이 서로 독립이라하자.
1 각각의 가능도를 구한다.
2 가능도를 전부 곱하면 전체 사건의 가능도 (독립이니까)
3 가능도를 최대로 하는 β를 구한다.
즉, 정규분포 가정 하에 갖고 있는 데이터가 나올 가능성을 최대로 하는 β
를 구한다.
Jinseob Kim Regression Basic July 15, 2015 9 / 26
10. Regression Review Basic linear regression
MLE: 최대가능도추정량
데이터가 일어날 가능성을 최대로: y또는 분포가정필요.
최소제곱추정량과 동일
Jinseob Kim Regression Basic July 15, 2015 10 / 26
11. Regression Review MLE에서 주요 지표
LRT? Ward? score?
Likelihood Ratio Test VS Ward test VS score test
1 통계적 유의성 판단하는 방법들.
2 가능도비교 VS 베타값비교 VS 기울기비교/
Jinseob Kim Regression Basic July 15, 2015 11 / 26
12. Regression Review MLE에서 주요 지표
비교
Figure: Comparison
Jinseob Kim Regression Basic July 15, 2015 12 / 26
13. Regression Review MLE에서 주요 지표
AIC
우리가 구한 모형의 가능도를 L이라 하면.
1 AIC = −2 × log(L) + 2 × k
2 k: 설명변수의 갯수(성별, 나이, 연봉...)
3 작을수록 좋은 모형!!!
가능도가 큰 모형을 고르겠지만.. 설명변수 너무 많으면 페널티!!!
Jinseob Kim Regression Basic July 15, 2015 13 / 26
15. Logistic Regression
Contents
1 Introduction
2 Regression Review
Basic linear regression
MLE에서 주요 지표
3 Logistic Regression
4 Poisson Regression
Jinseob Kim Regression Basic July 15, 2015 15 / 26
16. Logistic Regression
Logistic function: MLE
Case-control study: Y 가 0 or 1
Figure: Fitting Logistic Function
Jinseob Kim Regression Basic July 15, 2015 16 / 26
18. Logistic Regression
Likelihood
Likelihood=
n
i=1
P(Yi = yi ) =
n
i=1
(
exp(β0 + β1 · xi1)
1 + exp(β0 + β1 · xi1)
)yi
(
1
1 + exp(β0 + β1 · xi1)
)1−yi
개인별로 가능도(데이터의 상황이 나올 확률)이 나온다.
그것들을 다 곱하면 Likelihood
이것을 최소로 하는 β를 구하는 것.
Case나 Control이나 따로따로 Likelihood를 구한다.
Jinseob Kim Regression Basic July 15, 2015 18 / 26
19. Logistic Regression
해석
Log(
pi
1 − pi
) = β0 + β1 · xi1
x1이 증가할수록 Log( p
1−p )이 β1만큼 증가한다.
p
1−p 이 exp(β1)배가 된다.
Odds Ratio = exp(β1)
Jinseob Kim Regression Basic July 15, 2015 19 / 26
20. Poisson Regression
Contents
1 Introduction
2 Regression Review
Basic linear regression
MLE에서 주요 지표
3 Logistic Regression
4 Poisson Regression
Jinseob Kim Regression Basic July 15, 2015 20 / 26
21. Poisson Regression
가짜 연속: 정규분포 쓸 수 있는가?
발생, 사망수 : 자연수
확률이 어느정도 된다면 이벤트라면 그냥 정규분포 가정해도 무방.
드문 이벤트라면??
Jinseob Kim Regression Basic July 15, 2015 21 / 26
22. Poisson Regression
이항분포 & 정규분포 & 포아송분포
이항분포: 발생확률 p인 일을 n번 수행.
정규분포: n이 무한대일 때 이항분포
포아송분포: n → ∞, p → 0, 또는 np → λ 라면
n!
(n − k)!k!
pk
(1 − p)n−k
→ e−λ λk
k!
Jinseob Kim Regression Basic July 15, 2015 22 / 26