SlideShare une entreprise Scribd logo
1  sur  17
Télécharger pour lire hors ligne
Linear Regression Analysis
서울아산병원 임상의학연구소
이 지 성
totoro96a@gmail.com
변수의 종류 - 1변수의 종류 - 1
변수의 종류(Types of variables)
 독립변수(independent variable), 설명변수(explanatory variable)
 인과관계의 틀 안에서 원인(cause)에 해당하는 변수
 종속변수(dependent variable), 반응변수(response variable)
 인과관계의 틀 안에서 결과(outcome)에 해당하는 변수
변수의 종류 ‐ 2변수의 종류 ‐ 2
변수의 종류(Types of variables)
y x
결과(종속변수) 원인(독립변수)
xy  
kk xxy   110
y x1 x2 xk
…
결과(종속변수) 원인들(독립변수들)
이변수 분석
(Bivariable analysis)
다변수 분석
(multivariable analysis)
Type of outcome variable determines choice 
of multivariable analysis.
 Descriptive :  form the strength of the association between 
outcome and exposure of interest
 Adjustment : for covariates/confounder
 Predictors : to determine important risk factors affecting the 
outcome
 Prediction : to quantify new cases
Multivariable Analysis를 사용하는 이유
 Potential confounders of the relationship between Periodontitis and CAD 
(A prospective cohort study)
 Hujoel, et al., JAMA 2000:284;1406‐1410
 Crude HR: 2.66 (95% CI, 2.34‐3.03)
 Adjusted HR: 1.21 (95% CI, 0.98‐1.50)
 Periodontitis is not associated with CAD after adjustment for 
confounders
An example for multivariable analysis (1)
An example for multivariable analysis (2)
회귀식:
1. 회귀분석의 개념 및 선형회귀분석
 회귀(Regress)의 원래 의미는 옛날 상태로 돌아가는 것을 의미
 영국의 유전학자 Francis Galton(1822-1911)의 연구에 기인
 부모의 신장과 자녀들의 신장 사이의 연관 관계를 연구
 부모의 신장과는 관계없이 자녀들의 신장은 전체 평균 신장으로 회귀하는
특성을 발견
회귀분석(Regression analysis)의 기원
아들의 키 = 33.73+0.516×아버지의 키
회귀분석의 용어정리
용어정리
Y: 종속(반응,결과)변수, X: 독립(설명,원인)변수
단순선형회귀모형(simple linear regression model)
다중선형회귀모형(multiple linear regression model)
iii XY   10
종속변수
회귀계수
오차항
독립변수
iippii XXY   110
종속변수
회귀계수
오차항독립변수
선형회귀모형(Linear Regression Model)
SBP = 46.28 + 0.48×키
:절편(Intercept) :기울기(Slope)
독립변수
종속변수
Underlying assumptions 
of multiple linear regression
Type of outcome variable Interval/Continuous
Range of values for outcome variable Any positive or negative number
What is being modeled Mean
Distribution of outcome variable Normal distribution
Variance of outcome variable Equal around the mean
 개별 회귀계수(기울기)의 해석
 다른 독립변수(공변량)들의 효과가 통제된(Controlled) 또는 보정된
(Adjusted) 상태 하에서 순수하게 해당 독립변수가 종속변수에 미치는
영향력의 크기
 다른 독립변수(공변량)들이 일정(Constant)한 상태에서 해당 독립변
수의 값이 1단위 증가할 때의 종속변수의 평균 증가량
 표준화된 개별 회귀계수의 해석
 모든 변수들을 표준화한 후의 회귀분석 결과
 독립변수들의 상대적인 중요도를 평가
 절편(Intercept)의 해석
 독립변수가 0일 때 종속변수의 평균 값
회귀계수(기울기 및 절편)의 해석
선형회귀모형의 적합도평가
결정계수 R2
 상관계수의 제곱
 회귀식이 자료를 얼마나 잘 설명하고 있는가를 나타내는 계수
 R2 > 0.65: 회귀식이 자료를 설명하는데 좋다.
수정된 결정계수 R2
(adj)
 독립변수의 수와 Data 수를 고려한 결정계수
 R2
(adj) < R2
 다중회귀분석에서 특히 중요
해석:  추정한 회귀식으로 BPD를
96.7% 설명할 수 있다.
Example
다중공선성(multicollinearity) 문제
 두 개의 독립변수가 서로 밀접하게 상관되어 있을 때에는, 다중 회귀모형에서 이들의
개별효과를 파악하기가 힘들 수 있다.
 따라서 결과적으로 단변수 분석(즉, 독립변수 하나만을 사용)에서는, 두 변수 각각 통계
적으로 유의하게 나타났어도, 이들 두 변수들 다중 모형에 동시에 포함시켰을 때에는
둘 다 종속변수와 관련이 없는 것으로 나타날 수 있다.
 이러한 현상을 공선성(collinearity) 또는 다중공선성(multicollinearity)이라 한다.
 공선성이 존재하는지의 여부를 파악하기 위해서는 독립변수들 각 쌍에 대한 상관계수
들 검토해 보거나, 다중 모형의 회귀계수들에 대한 표준오차를 직접 눈으로 확인해본
다.
 만일 특정 변수들 사이에 공선성이 존재한다면 이들의 표준오차는 각각의 단변수 모형
에 보여진 표준오차에 비해 상당히 클 것이다.
 이 문제에 관한 가장 쉬운 해결방법은 해당 변수들 중 하나를 모형에서 제외하는 것이
다. 
 독립변수의 수가 지나치게 많으면
 실제와는 다른 가짜의 결과가 얻어질 수 있음.
 독립변수들간 상관성이 높을 때 이러한 가능성은 높아짐.
 Risk factor를 찾고자 하는 연구
 먼저 각 독립변수들이 종속변수와 관련이 있는지 평가하기 위해 단변수 분석
(bivariable analysis) 실시. 일부 설명변수들을 제거
 이때의 유의수준: 통상적인 0.05보다는 덜 엄격한 0.10~0.25정도를 사용
 단변수 분석에서 유의한 것으로 밝혀진 독립변수들 대상, 다변수 분석(multivariable 
analysis) 실시
 독립변수 수가 그다지 많지 않으면 바로 다변수 분석을 실시하는 것도 전략
 어느 방법이 좋다고 할 수는 없음
 두 분석결과가 유사하면, 분석결과의 신뢰도는 높아짐.
 두 분석결과가 상이하면, 해당 연구의 전문가적 입장에서 더 나은 논리적인 해석을
할 수 있는 결과를 선택
독립변수의 선택(variable selection) ‐ 1
 통계적 모형화의 주목적이 독립변수들이 결과에 어떤 영향을 주고 있는지, 그리고 그 효과는
어느 정도인지를 평가하는 것 대신, 예측을 하고자 하는데 이들 독립변수들 중 의미가 있는
변수들을 선택해서 예측을 하기 위한 최적의 모형을 결정하고 싶을 것이다.
 이런 경우에는 아래와 같은 변수선택절차(variable selection procedure)들 중 하나를 사용하는
것이 효과적이다. 이 방법들을 computer intensive한 방법들이다.
 모든 가능한 부분집합: 독립변수들의 모든 가능한 조합을 평가
 전진선택 (Forward Selection)
 유의한 독립변수들을 하나씩 추가해 나가는 방법
 한번 포함된 독립변수들은 절대로 모형에서 제거되지 않는다.
 후진제거 (Backward Elimination)
 유의하지 않은 독립변수들을 하나씩 제거해 나가는 방법
 한번 제거된 독립변수들은 절대로 모형에 포함되지 않는다.
 단계선택 (Stepwise Selection)
 전진선택과 후진제거가 결합된 선택방법
독립변수의 선택(variable selection) ‐ 2
Example
자료: Fitness.sav
독립변수
SPSS: Linear Regression
0 1 2 3 6: 0H         을 기각
Maxpulse(X1), runtime(X2), wgt(X3)
Rstpulse(X4), age(X5), runpulse(X6)
1 1 2 2 3 3 4 4 5 5 6 6y x x x x x x            
2 2
84.9%, 81.1%R adj R 
SPSS Output
변수 RUNPULSE와 MAXPULSE 간에 다중공선성 문제가 발생함. 따라
서 MAXPULSE를 분석에서 제외하기로 함.
※다중공선성 기준
 Tolerance < 0.25
 VIF > 8
Maxpulse를 제외한 선형회귀분석결과
 수정된 R2 = 0.781  선형회귀모형에 포
함한 5개 독립변수로 종속변수를 78.1%
를 설명할 수 있음.
결과:
 Runtime의 5개 독립변수 중 결과변수에 제일 많이 영향을 주는 변수임.
 Age, weight, rstpulse, runpulse를 보정했을 때 runtime이 1분씩 증가할때 산소흡수율은
2.705만큼씩 감소한다. 
116.532 0.285 0.052 2.705 0.027 0.127
SPSS: Linear Regression (변수선택)
 후진제거 변수선택방법 분석결과
2 2
81.1%, 79.0%R adj R 
결과: 111.761 0.256 2.826 0.131oxygen age runtime runpulse      
27
 (another topic: 중요) 설명변수 x가 범주형 변수인 경우
 x가 연속형 변수(continuous variable)이면 변수 자체를 그대로 사용가능
 x가 범주형 변수(categorical variable)이면 변수 자체 그대로 사용 불가. 
 이 경우, 가변수(dummy variable) 처리를 해야 한다.
 예를 들어 x=A,B,C,D 인 경우, 자료입력을 x=1,2,3,4로 하고, 이 x를 설명변수로
사용한다면, 이는 x=1에 비해 x=4가 4배 더 큰 값이라는 의미이므로 원래 자료
의 성격에 맞지 않다. 따라서 다음과 같은 가변수를 3개 만들어서(D1, D2, D3), 
변수 x 대신 가변수 D1, D2, D3를 설명변수로 사용해야 한다. 
1
1 1 2
1 2
3 4
2
( 1) ( 2) ( 3)
i i i i
i i i i i i
y x x
y x D D D
   
      
  


 
대신
를 사용
Example
• HERS study(Heart and Estrogen/Progestin Replacement study)
 a measure of exercise to predict baseline glucose levels among 2,032 
participants without diabetes in the HERS clinical trial of hormone 
therapy(Hulley et al., 1998)
 변수명
 Physact: exercise level 
(1=much less active, 2=somewhat less active, 3=about as active, 
4=somewhat more active, 5=much more active)
 종속변수: baseline glucose level
 독립변수: age, BMI, Physact
 Physact에 대해 가변수를 만들어 보자.
SPSS dataset: HERS.sav
1. 범주형 변수에 대해 가변수 만들기
Phy2, Phy3, Phy4, Phy5에 대해 반복한다. 
2. 회귀모형 설정
3. 회귀분석 결과
	 0.081
 Much less active (phy1=1): 
Glucose = 68.154 – 0.123ⅹage  + 1.660ⅹBMI + 13.136ⅹphy1
= 81.289 – 0.123ⅹage + 1.660ⅹBMI
 Somewhat less active (phy2=1): 
Glucose = 68.154 – 0.123ⅹage + 1.660ⅹBMI + 6.332ⅹphy2
= 74.486 – 0.123ⅹage + 1.660ⅹBMI
 About as active (phy3=1): 
Glucose = 74.184 – 0.123ⅹage + 1.660ⅹBMI
Somewhat more active (phy4=1): 
Glucose = 70.292 – 0.123ⅹage + 1.660ⅹBMI
Much more active 
Glucose = 68.154 – 0.123ⅹage + 1.660ⅹBMI

Contenu connexe

Tendances

データサイエンスことはじめ
データサイエンスことはじめデータサイエンスことはじめ
データサイエンスことはじめ大貴 末廣
 
Correlation and regression
Correlation and regressionCorrelation and regression
Correlation and regressionzcreichenbach
 
予測理論とpredictability
予測理論とpredictability予測理論とpredictability
予測理論とpredictabilitylogics-of-blue
 
統計的学習の基礎_3章
統計的学習の基礎_3章統計的学習の基礎_3章
統計的学習の基礎_3章Shoichi Taguchi
 
一般線形モデル
一般線形モデル一般線形モデル
一般線形モデルMatsuiRyo
 
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)Kota Mori
 
ベクトルで理解する相関係数
ベクトルで理解する相関係数ベクトルで理解する相関係数
ベクトルで理解する相関係数Satoshi MATSUURA
 
Adversarial Attacks for Recommender Systems
Adversarial Attacks for Recommender SystemsAdversarial Attacks for Recommender Systems
Adversarial Attacks for Recommender SystemsWQ Fan
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333Issei Kurahashi
 
パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムパターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムMiyoshi Yuya
 
20180726 AWS KRUG - RDS Aurora에 40억건 데이터 입력하기
20180726 AWS KRUG - RDS Aurora에 40억건 데이터 입력하기20180726 AWS KRUG - RDS Aurora에 40억건 데이터 입력하기
20180726 AWS KRUG - RDS Aurora에 40억건 데이터 입력하기Jongwon Han
 
非ガウス性を利用した 因果構造探索
非ガウス性を利用した因果構造探索非ガウス性を利用した因果構造探索
非ガウス性を利用した 因果構造探索Shiga University, RIKEN
 
PRML2.4 指数型分布族
PRML2.4 指数型分布族PRML2.4 指数型分布族
PRML2.4 指数型分布族hiroki yamaoka
 
相関分析と回帰分析
相関分析と回帰分析相関分析と回帰分析
相関分析と回帰分析大貴 末廣
 
距離と分類の話
距離と分類の話距離と分類の話
距離と分類の話考司 小杉
 
ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33horihorio
 

Tendances (20)

データサイエンスことはじめ
データサイエンスことはじめデータサイエンスことはじめ
データサイエンスことはじめ
 
Correlation and regression
Correlation and regressionCorrelation and regression
Correlation and regression
 
予測理論とpredictability
予測理論とpredictability予測理論とpredictability
予測理論とpredictability
 
統計的学習の基礎_3章
統計的学習の基礎_3章統計的学習の基礎_3章
統計的学習の基礎_3章
 
一般線形モデル
一般線形モデル一般線形モデル
一般線形モデル
 
2 3.GLMの基礎
2 3.GLMの基礎2 3.GLMの基礎
2 3.GLMの基礎
 
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)
 
社会心理学とGlmm
社会心理学とGlmm社会心理学とGlmm
社会心理学とGlmm
 
ベクトルで理解する相関係数
ベクトルで理解する相関係数ベクトルで理解する相関係数
ベクトルで理解する相関係数
 
Adversarial Attacks for Recommender Systems
Adversarial Attacks for Recommender SystemsAdversarial Attacks for Recommender Systems
Adversarial Attacks for Recommender Systems
 
一般化線形混合モデル isseing333
一般化線形混合モデル isseing333一般化線形混合モデル isseing333
一般化線形混合モデル isseing333
 
パターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズムパターン認識 第12章 正則化とパス追跡アルゴリズム
パターン認識 第12章 正則化とパス追跡アルゴリズム
 
20180726 AWS KRUG - RDS Aurora에 40억건 데이터 입력하기
20180726 AWS KRUG - RDS Aurora에 40억건 데이터 입력하기20180726 AWS KRUG - RDS Aurora에 40억건 데이터 입력하기
20180726 AWS KRUG - RDS Aurora에 40억건 데이터 입력하기
 
主成分分析
主成分分析主成分分析
主成分分析
 
非ガウス性を利用した 因果構造探索
非ガウス性を利用した因果構造探索非ガウス性を利用した因果構造探索
非ガウス性を利用した 因果構造探索
 
PRML2.4 指数型分布族
PRML2.4 指数型分布族PRML2.4 指数型分布族
PRML2.4 指数型分布族
 
相関分析と回帰分析
相関分析と回帰分析相関分析と回帰分析
相関分析と回帰分析
 
距離と分類の話
距離と分類の話距離と分類の話
距離と分類の話
 
ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33ロジスティック回帰の考え方・使い方 - TokyoR #33
ロジスティック回帰の考え方・使い方 - TokyoR #33
 
Análise de regressão linear
Análise de regressão linearAnálise de regressão linear
Análise de regressão linear
 

En vedette

개발자를 위한 공감세미나 tensor-flow
개발자를 위한 공감세미나 tensor-flow개발자를 위한 공감세미나 tensor-flow
개발자를 위한 공감세미나 tensor-flow양 한빛
 
Logistic Regression
Logistic RegressionLogistic Regression
Logistic RegressionMinHyeok Kim
 
5.model evaluation and improvement
5.model evaluation and improvement5.model evaluation and improvement
5.model evaluation and improvementHaesun Park
 
4.representing data and engineering features
4.representing data and engineering features4.representing data and engineering features
4.representing data and engineering featuresHaesun Park
 
Deep learning 기반TmapPOI 추천기술개발사례
Deep learning 기반TmapPOI 추천기술개발사례Deep learning 기반TmapPOI 추천기술개발사례
Deep learning 기반TmapPOI 추천기술개발사례Lee Ji Eun
 
머신러닝 이해하기 (Sample)
머신러닝 이해하기 (Sample)머신러닝 이해하기 (Sample)
머신러닝 이해하기 (Sample)Ashal aka JOKER
 
머신러닝 시그 세미나_(deep learning for visual recognition)
머신러닝 시그 세미나_(deep learning for visual recognition)머신러닝 시그 세미나_(deep learning for visual recognition)
머신러닝 시그 세미나_(deep learning for visual recognition)Yonghoon Kwon
 
7.woring with text data
7.woring with text data7.woring with text data
7.woring with text dataHaesun Park
 
해커에게 전해들은 머신러닝 #2
해커에게 전해들은 머신러닝 #2해커에게 전해들은 머신러닝 #2
해커에게 전해들은 머신러닝 #2Haesun Park
 
파이콘 2017 그만퇴근합시다_이지호
파이콘 2017 그만퇴근합시다_이지호파이콘 2017 그만퇴근합시다_이지호
파이콘 2017 그만퇴근합시다_이지호Jiho Lee
 
빅데이터 전문가 / 데이터 사이언티스트 커리어에 대한 고려 사항과 사례 - Gonnector 고영혁 (Dylan Ko)
빅데이터 전문가 / 데이터 사이언티스트 커리어에 대한 고려 사항과 사례 - Gonnector 고영혁 (Dylan Ko)빅데이터 전문가 / 데이터 사이언티스트 커리어에 대한 고려 사항과 사례 - Gonnector 고영혁 (Dylan Ko)
빅데이터 전문가 / 데이터 사이언티스트 커리어에 대한 고려 사항과 사례 - Gonnector 고영혁 (Dylan Ko)Dylan Ko
 
20160409 microsoft 세미나 머신러닝관련 발표자료
20160409 microsoft 세미나 머신러닝관련 발표자료20160409 microsoft 세미나 머신러닝관련 발표자료
20160409 microsoft 세미나 머신러닝관련 발표자료JungGeun Lee
 
6.algorithm chains and piplines
6.algorithm chains and piplines6.algorithm chains and piplines
6.algorithm chains and piplinesHaesun Park
 
인공지능 변호사 개발 1편 - Ai lawyer 개발을 위한 시도
인공지능 변호사 개발  1편 - Ai lawyer 개발을 위한 시도 인공지능 변호사 개발  1편 - Ai lawyer 개발을 위한 시도
인공지능 변호사 개발 1편 - Ai lawyer 개발을 위한 시도 jason min
 
해커에게 전해들은 머신러닝 #4
해커에게 전해들은 머신러닝 #4해커에게 전해들은 머신러닝 #4
해커에게 전해들은 머신러닝 #4Haesun Park
 
해커에게 전해들은 머신러닝 #3
해커에게 전해들은 머신러닝 #3해커에게 전해들은 머신러닝 #3
해커에게 전해들은 머신러닝 #3Haesun Park
 
AlphaGo 알고리즘 요약
AlphaGo 알고리즘 요약AlphaGo 알고리즘 요약
AlphaGo 알고리즘 요약Jooyoul Lee
 
1.Introduction to Python and TensorFlow
1.Introduction to Python and TensorFlow1.Introduction to Python and TensorFlow
1.Introduction to Python and TensorFlowHaesun Park
 
1.introduction(epoch#2)
1.introduction(epoch#2)1.introduction(epoch#2)
1.introduction(epoch#2)Haesun Park
 

En vedette (20)

개발자를 위한 공감세미나 tensor-flow
개발자를 위한 공감세미나 tensor-flow개발자를 위한 공감세미나 tensor-flow
개발자를 위한 공감세미나 tensor-flow
 
Logistic Regression
Logistic RegressionLogistic Regression
Logistic Regression
 
5.model evaluation and improvement
5.model evaluation and improvement5.model evaluation and improvement
5.model evaluation and improvement
 
4.representing data and engineering features
4.representing data and engineering features4.representing data and engineering features
4.representing data and engineering features
 
Text summarization
Text summarizationText summarization
Text summarization
 
Deep learning 기반TmapPOI 추천기술개발사례
Deep learning 기반TmapPOI 추천기술개발사례Deep learning 기반TmapPOI 추천기술개발사례
Deep learning 기반TmapPOI 추천기술개발사례
 
머신러닝 이해하기 (Sample)
머신러닝 이해하기 (Sample)머신러닝 이해하기 (Sample)
머신러닝 이해하기 (Sample)
 
머신러닝 시그 세미나_(deep learning for visual recognition)
머신러닝 시그 세미나_(deep learning for visual recognition)머신러닝 시그 세미나_(deep learning for visual recognition)
머신러닝 시그 세미나_(deep learning for visual recognition)
 
7.woring with text data
7.woring with text data7.woring with text data
7.woring with text data
 
해커에게 전해들은 머신러닝 #2
해커에게 전해들은 머신러닝 #2해커에게 전해들은 머신러닝 #2
해커에게 전해들은 머신러닝 #2
 
파이콘 2017 그만퇴근합시다_이지호
파이콘 2017 그만퇴근합시다_이지호파이콘 2017 그만퇴근합시다_이지호
파이콘 2017 그만퇴근합시다_이지호
 
빅데이터 전문가 / 데이터 사이언티스트 커리어에 대한 고려 사항과 사례 - Gonnector 고영혁 (Dylan Ko)
빅데이터 전문가 / 데이터 사이언티스트 커리어에 대한 고려 사항과 사례 - Gonnector 고영혁 (Dylan Ko)빅데이터 전문가 / 데이터 사이언티스트 커리어에 대한 고려 사항과 사례 - Gonnector 고영혁 (Dylan Ko)
빅데이터 전문가 / 데이터 사이언티스트 커리어에 대한 고려 사항과 사례 - Gonnector 고영혁 (Dylan Ko)
 
20160409 microsoft 세미나 머신러닝관련 발표자료
20160409 microsoft 세미나 머신러닝관련 발표자료20160409 microsoft 세미나 머신러닝관련 발표자료
20160409 microsoft 세미나 머신러닝관련 발표자료
 
6.algorithm chains and piplines
6.algorithm chains and piplines6.algorithm chains and piplines
6.algorithm chains and piplines
 
인공지능 변호사 개발 1편 - Ai lawyer 개발을 위한 시도
인공지능 변호사 개발  1편 - Ai lawyer 개발을 위한 시도 인공지능 변호사 개발  1편 - Ai lawyer 개발을 위한 시도
인공지능 변호사 개발 1편 - Ai lawyer 개발을 위한 시도
 
해커에게 전해들은 머신러닝 #4
해커에게 전해들은 머신러닝 #4해커에게 전해들은 머신러닝 #4
해커에게 전해들은 머신러닝 #4
 
해커에게 전해들은 머신러닝 #3
해커에게 전해들은 머신러닝 #3해커에게 전해들은 머신러닝 #3
해커에게 전해들은 머신러닝 #3
 
AlphaGo 알고리즘 요약
AlphaGo 알고리즘 요약AlphaGo 알고리즘 요약
AlphaGo 알고리즘 요약
 
1.Introduction to Python and TensorFlow
1.Introduction to Python and TensorFlow1.Introduction to Python and TensorFlow
1.Introduction to Python and TensorFlow
 
1.introduction(epoch#2)
1.introduction(epoch#2)1.introduction(epoch#2)
1.introduction(epoch#2)
 

Plus de mothersafe

장애인 부부를 위한 임신·출산 매뉴얼, 40주의 우주
장애인 부부를 위한 임신·출산 매뉴얼, 40주의 우주장애인 부부를 위한 임신·출산 매뉴얼, 40주의 우주
장애인 부부를 위한 임신·출산 매뉴얼, 40주의 우주mothersafe
 
Safety of Mebendazole Use During Lactation
Safety of Mebendazole Use During LactationSafety of Mebendazole Use During Lactation
Safety of Mebendazole Use During Lactationmothersafe
 
Breastfeeding domeperiodne
Breastfeeding domeperiodneBreastfeeding domeperiodne
Breastfeeding domeperiodnemothersafe
 
(마더리스크라운드) Breastfeeding
(마더리스크라운드) Breastfeeding (마더리스크라운드) Breastfeeding
(마더리스크라운드) Breastfeeding mothersafe
 
(마더리스크라운드) Immunology in pregnancy /강원대 의대 나성훈 교수
(마더리스크라운드) Immunology in pregnancy /강원대 의대 나성훈 교수(마더리스크라운드) Immunology in pregnancy /강원대 의대 나성훈 교수
(마더리스크라운드) Immunology in pregnancy /강원대 의대 나성훈 교수mothersafe
 
(마더리스크라운드) Thyroid disease in pregnancy 임신 중 갑상선
(마더리스크라운드) Thyroid disease in pregnancy 임신 중 갑상선(마더리스크라운드) Thyroid disease in pregnancy 임신 중 갑상선
(마더리스크라운드) Thyroid disease in pregnancy 임신 중 갑상선mothersafe
 
Antiepileptics in pregnancy
Antiepileptics in pregnancyAntiepileptics in pregnancy
Antiepileptics in pregnancymothersafe
 
(마더리스크라운드) Diclectin in NVP / 한정열 교수
(마더리스크라운드) Diclectin in NVP / 한정열 교수(마더리스크라운드) Diclectin in NVP / 한정열 교수
(마더리스크라운드) Diclectin in NVP / 한정열 교수mothersafe
 
Diclectin in NVP, 44th 유럽기형학회보고 / 한정열 교수
Diclectin in NVP, 44th 유럽기형학회보고 / 한정열 교수Diclectin in NVP, 44th 유럽기형학회보고 / 한정열 교수
Diclectin in NVP, 44th 유럽기형학회보고 / 한정열 교수mothersafe
 
(마더리스크라운드) Developmental programming
(마더리스크라운드) Developmental programming (마더리스크라운드) Developmental programming
(마더리스크라운드) Developmental programming mothersafe
 
(마더리스크라운드) Determination of Isotretinoin & Acitretin in Pregnancy
(마더리스크라운드) Determination of Isotretinoin & Acitretin in Pregnancy(마더리스크라운드) Determination of Isotretinoin & Acitretin in Pregnancy
(마더리스크라운드) Determination of Isotretinoin & Acitretin in Pregnancymothersafe
 
(마더리스크 라운드) 임신 중 운동 exercise in pregnancy
(마더리스크 라운드) 임신 중 운동 exercise in pregnancy(마더리스크 라운드) 임신 중 운동 exercise in pregnancy
(마더리스크 라운드) 임신 중 운동 exercise in pregnancymothersafe
 
Smoking in pregnancy
Smoking in pregnancySmoking in pregnancy
Smoking in pregnancymothersafe
 
(마더리스크라운드) Thyroid Disease in Pregnancy
(마더리스크라운드) Thyroid Disease in Pregnancy(마더리스크라운드) Thyroid Disease in Pregnancy
(마더리스크라운드) Thyroid Disease in Pregnancymothersafe
 
ECV 역아회전술- 한정열 단국대 의대 교수
ECV 역아회전술- 한정열 단국대 의대 교수ECV 역아회전술- 한정열 단국대 의대 교수
ECV 역아회전술- 한정열 단국대 의대 교수mothersafe
 
2016 마더세이프 사업미팅
2016 마더세이프 사업미팅2016 마더세이프 사업미팅
2016 마더세이프 사업미팅mothersafe
 
임산부 영양상담
임산부 영양상담임산부 영양상담
임산부 영양상담mothersafe
 
(마더리스크라운드) 임신과 당뇨병 - 단국대의대 제일병원 김성훈 교수
 (마더리스크라운드) 임신과 당뇨병 - 단국대의대 제일병원 김성훈 교수 (마더리스크라운드) 임신과 당뇨병 - 단국대의대 제일병원 김성훈 교수
(마더리스크라운드) 임신과 당뇨병 - 단국대의대 제일병원 김성훈 교수mothersafe
 
(마더리스크라운드) 임신 중 천식
(마더리스크라운드) 임신 중 천식(마더리스크라운드) 임신 중 천식
(마더리스크라운드) 임신 중 천식mothersafe
 
(마더리스크라운드) 임신 중 알콜 - fasd
(마더리스크라운드) 임신 중 알콜 - fasd(마더리스크라운드) 임신 중 알콜 - fasd
(마더리스크라운드) 임신 중 알콜 - fasdmothersafe
 

Plus de mothersafe (20)

장애인 부부를 위한 임신·출산 매뉴얼, 40주의 우주
장애인 부부를 위한 임신·출산 매뉴얼, 40주의 우주장애인 부부를 위한 임신·출산 매뉴얼, 40주의 우주
장애인 부부를 위한 임신·출산 매뉴얼, 40주의 우주
 
Safety of Mebendazole Use During Lactation
Safety of Mebendazole Use During LactationSafety of Mebendazole Use During Lactation
Safety of Mebendazole Use During Lactation
 
Breastfeeding domeperiodne
Breastfeeding domeperiodneBreastfeeding domeperiodne
Breastfeeding domeperiodne
 
(마더리스크라운드) Breastfeeding
(마더리스크라운드) Breastfeeding (마더리스크라운드) Breastfeeding
(마더리스크라운드) Breastfeeding
 
(마더리스크라운드) Immunology in pregnancy /강원대 의대 나성훈 교수
(마더리스크라운드) Immunology in pregnancy /강원대 의대 나성훈 교수(마더리스크라운드) Immunology in pregnancy /강원대 의대 나성훈 교수
(마더리스크라운드) Immunology in pregnancy /강원대 의대 나성훈 교수
 
(마더리스크라운드) Thyroid disease in pregnancy 임신 중 갑상선
(마더리스크라운드) Thyroid disease in pregnancy 임신 중 갑상선(마더리스크라운드) Thyroid disease in pregnancy 임신 중 갑상선
(마더리스크라운드) Thyroid disease in pregnancy 임신 중 갑상선
 
Antiepileptics in pregnancy
Antiepileptics in pregnancyAntiepileptics in pregnancy
Antiepileptics in pregnancy
 
(마더리스크라운드) Diclectin in NVP / 한정열 교수
(마더리스크라운드) Diclectin in NVP / 한정열 교수(마더리스크라운드) Diclectin in NVP / 한정열 교수
(마더리스크라운드) Diclectin in NVP / 한정열 교수
 
Diclectin in NVP, 44th 유럽기형학회보고 / 한정열 교수
Diclectin in NVP, 44th 유럽기형학회보고 / 한정열 교수Diclectin in NVP, 44th 유럽기형학회보고 / 한정열 교수
Diclectin in NVP, 44th 유럽기형학회보고 / 한정열 교수
 
(마더리스크라운드) Developmental programming
(마더리스크라운드) Developmental programming (마더리스크라운드) Developmental programming
(마더리스크라운드) Developmental programming
 
(마더리스크라운드) Determination of Isotretinoin & Acitretin in Pregnancy
(마더리스크라운드) Determination of Isotretinoin & Acitretin in Pregnancy(마더리스크라운드) Determination of Isotretinoin & Acitretin in Pregnancy
(마더리스크라운드) Determination of Isotretinoin & Acitretin in Pregnancy
 
(마더리스크 라운드) 임신 중 운동 exercise in pregnancy
(마더리스크 라운드) 임신 중 운동 exercise in pregnancy(마더리스크 라운드) 임신 중 운동 exercise in pregnancy
(마더리스크 라운드) 임신 중 운동 exercise in pregnancy
 
Smoking in pregnancy
Smoking in pregnancySmoking in pregnancy
Smoking in pregnancy
 
(마더리스크라운드) Thyroid Disease in Pregnancy
(마더리스크라운드) Thyroid Disease in Pregnancy(마더리스크라운드) Thyroid Disease in Pregnancy
(마더리스크라운드) Thyroid Disease in Pregnancy
 
ECV 역아회전술- 한정열 단국대 의대 교수
ECV 역아회전술- 한정열 단국대 의대 교수ECV 역아회전술- 한정열 단국대 의대 교수
ECV 역아회전술- 한정열 단국대 의대 교수
 
2016 마더세이프 사업미팅
2016 마더세이프 사업미팅2016 마더세이프 사업미팅
2016 마더세이프 사업미팅
 
임산부 영양상담
임산부 영양상담임산부 영양상담
임산부 영양상담
 
(마더리스크라운드) 임신과 당뇨병 - 단국대의대 제일병원 김성훈 교수
 (마더리스크라운드) 임신과 당뇨병 - 단국대의대 제일병원 김성훈 교수 (마더리스크라운드) 임신과 당뇨병 - 단국대의대 제일병원 김성훈 교수
(마더리스크라운드) 임신과 당뇨병 - 단국대의대 제일병원 김성훈 교수
 
(마더리스크라운드) 임신 중 천식
(마더리스크라운드) 임신 중 천식(마더리스크라운드) 임신 중 천식
(마더리스크라운드) 임신 중 천식
 
(마더리스크라운드) 임신 중 알콜 - fasd
(마더리스크라운드) 임신 중 알콜 - fasd(마더리스크라운드) 임신 중 알콜 - fasd
(마더리스크라운드) 임신 중 알콜 - fasd
 

Linear regression analysis

  • 1. Linear Regression Analysis 서울아산병원 임상의학연구소 이 지 성 totoro96a@gmail.com 변수의 종류 - 1변수의 종류 - 1 변수의 종류(Types of variables)
  • 2.  독립변수(independent variable), 설명변수(explanatory variable)  인과관계의 틀 안에서 원인(cause)에 해당하는 변수  종속변수(dependent variable), 반응변수(response variable)  인과관계의 틀 안에서 결과(outcome)에 해당하는 변수 변수의 종류 ‐ 2변수의 종류 ‐ 2 변수의 종류(Types of variables) y x 결과(종속변수) 원인(독립변수) xy   kk xxy   110 y x1 x2 xk … 결과(종속변수) 원인들(독립변수들) 이변수 분석 (Bivariable analysis) 다변수 분석 (multivariable analysis) Type of outcome variable determines choice  of multivariable analysis.
  • 3.  Descriptive :  form the strength of the association between  outcome and exposure of interest  Adjustment : for covariates/confounder  Predictors : to determine important risk factors affecting the  outcome  Prediction : to quantify new cases Multivariable Analysis를 사용하는 이유  Potential confounders of the relationship between Periodontitis and CAD  (A prospective cohort study)  Hujoel, et al., JAMA 2000:284;1406‐1410  Crude HR: 2.66 (95% CI, 2.34‐3.03)  Adjusted HR: 1.21 (95% CI, 0.98‐1.50)  Periodontitis is not associated with CAD after adjustment for  confounders An example for multivariable analysis (1)
  • 5.  회귀(Regress)의 원래 의미는 옛날 상태로 돌아가는 것을 의미  영국의 유전학자 Francis Galton(1822-1911)의 연구에 기인  부모의 신장과 자녀들의 신장 사이의 연관 관계를 연구  부모의 신장과는 관계없이 자녀들의 신장은 전체 평균 신장으로 회귀하는 특성을 발견 회귀분석(Regression analysis)의 기원 아들의 키 = 33.73+0.516×아버지의 키 회귀분석의 용어정리 용어정리 Y: 종속(반응,결과)변수, X: 독립(설명,원인)변수 단순선형회귀모형(simple linear regression model) 다중선형회귀모형(multiple linear regression model) iii XY   10 종속변수 회귀계수 오차항 독립변수 iippii XXY   110 종속변수 회귀계수 오차항독립변수
  • 7.  개별 회귀계수(기울기)의 해석  다른 독립변수(공변량)들의 효과가 통제된(Controlled) 또는 보정된 (Adjusted) 상태 하에서 순수하게 해당 독립변수가 종속변수에 미치는 영향력의 크기  다른 독립변수(공변량)들이 일정(Constant)한 상태에서 해당 독립변 수의 값이 1단위 증가할 때의 종속변수의 평균 증가량  표준화된 개별 회귀계수의 해석  모든 변수들을 표준화한 후의 회귀분석 결과  독립변수들의 상대적인 중요도를 평가  절편(Intercept)의 해석  독립변수가 0일 때 종속변수의 평균 값 회귀계수(기울기 및 절편)의 해석 선형회귀모형의 적합도평가 결정계수 R2  상관계수의 제곱  회귀식이 자료를 얼마나 잘 설명하고 있는가를 나타내는 계수  R2 > 0.65: 회귀식이 자료를 설명하는데 좋다. 수정된 결정계수 R2 (adj)  독립변수의 수와 Data 수를 고려한 결정계수  R2 (adj) < R2  다중회귀분석에서 특히 중요 해석:  추정한 회귀식으로 BPD를 96.7% 설명할 수 있다. Example
  • 8. 다중공선성(multicollinearity) 문제  두 개의 독립변수가 서로 밀접하게 상관되어 있을 때에는, 다중 회귀모형에서 이들의 개별효과를 파악하기가 힘들 수 있다.  따라서 결과적으로 단변수 분석(즉, 독립변수 하나만을 사용)에서는, 두 변수 각각 통계 적으로 유의하게 나타났어도, 이들 두 변수들 다중 모형에 동시에 포함시켰을 때에는 둘 다 종속변수와 관련이 없는 것으로 나타날 수 있다.  이러한 현상을 공선성(collinearity) 또는 다중공선성(multicollinearity)이라 한다.  공선성이 존재하는지의 여부를 파악하기 위해서는 독립변수들 각 쌍에 대한 상관계수 들 검토해 보거나, 다중 모형의 회귀계수들에 대한 표준오차를 직접 눈으로 확인해본 다.  만일 특정 변수들 사이에 공선성이 존재한다면 이들의 표준오차는 각각의 단변수 모형 에 보여진 표준오차에 비해 상당히 클 것이다.  이 문제에 관한 가장 쉬운 해결방법은 해당 변수들 중 하나를 모형에서 제외하는 것이 다.   독립변수의 수가 지나치게 많으면  실제와는 다른 가짜의 결과가 얻어질 수 있음.  독립변수들간 상관성이 높을 때 이러한 가능성은 높아짐.  Risk factor를 찾고자 하는 연구  먼저 각 독립변수들이 종속변수와 관련이 있는지 평가하기 위해 단변수 분석 (bivariable analysis) 실시. 일부 설명변수들을 제거  이때의 유의수준: 통상적인 0.05보다는 덜 엄격한 0.10~0.25정도를 사용  단변수 분석에서 유의한 것으로 밝혀진 독립변수들 대상, 다변수 분석(multivariable  analysis) 실시  독립변수 수가 그다지 많지 않으면 바로 다변수 분석을 실시하는 것도 전략  어느 방법이 좋다고 할 수는 없음  두 분석결과가 유사하면, 분석결과의 신뢰도는 높아짐.  두 분석결과가 상이하면, 해당 연구의 전문가적 입장에서 더 나은 논리적인 해석을 할 수 있는 결과를 선택 독립변수의 선택(variable selection) ‐ 1
  • 9.  통계적 모형화의 주목적이 독립변수들이 결과에 어떤 영향을 주고 있는지, 그리고 그 효과는 어느 정도인지를 평가하는 것 대신, 예측을 하고자 하는데 이들 독립변수들 중 의미가 있는 변수들을 선택해서 예측을 하기 위한 최적의 모형을 결정하고 싶을 것이다.  이런 경우에는 아래와 같은 변수선택절차(variable selection procedure)들 중 하나를 사용하는 것이 효과적이다. 이 방법들을 computer intensive한 방법들이다.  모든 가능한 부분집합: 독립변수들의 모든 가능한 조합을 평가  전진선택 (Forward Selection)  유의한 독립변수들을 하나씩 추가해 나가는 방법  한번 포함된 독립변수들은 절대로 모형에서 제거되지 않는다.  후진제거 (Backward Elimination)  유의하지 않은 독립변수들을 하나씩 제거해 나가는 방법  한번 제거된 독립변수들은 절대로 모형에 포함되지 않는다.  단계선택 (Stepwise Selection)  전진선택과 후진제거가 결합된 선택방법 독립변수의 선택(variable selection) ‐ 2 Example 자료: Fitness.sav 독립변수
  • 11. 0 1 2 3 6: 0H         을 기각 Maxpulse(X1), runtime(X2), wgt(X3) Rstpulse(X4), age(X5), runpulse(X6) 1 1 2 2 3 3 4 4 5 5 6 6y x x x x x x             2 2 84.9%, 81.1%R adj R  SPSS Output 변수 RUNPULSE와 MAXPULSE 간에 다중공선성 문제가 발생함. 따라 서 MAXPULSE를 분석에서 제외하기로 함. ※다중공선성 기준  Tolerance < 0.25  VIF > 8
  • 12. Maxpulse를 제외한 선형회귀분석결과  수정된 R2 = 0.781  선형회귀모형에 포 함한 5개 독립변수로 종속변수를 78.1% 를 설명할 수 있음. 결과:  Runtime의 5개 독립변수 중 결과변수에 제일 많이 영향을 주는 변수임.  Age, weight, rstpulse, runpulse를 보정했을 때 runtime이 1분씩 증가할때 산소흡수율은 2.705만큼씩 감소한다.  116.532 0.285 0.052 2.705 0.027 0.127 SPSS: Linear Regression (변수선택)
  • 13.  후진제거 변수선택방법 분석결과 2 2 81.1%, 79.0%R adj R  결과: 111.761 0.256 2.826 0.131oxygen age runtime runpulse      
  • 14. 27  (another topic: 중요) 설명변수 x가 범주형 변수인 경우  x가 연속형 변수(continuous variable)이면 변수 자체를 그대로 사용가능  x가 범주형 변수(categorical variable)이면 변수 자체 그대로 사용 불가.   이 경우, 가변수(dummy variable) 처리를 해야 한다.  예를 들어 x=A,B,C,D 인 경우, 자료입력을 x=1,2,3,4로 하고, 이 x를 설명변수로 사용한다면, 이는 x=1에 비해 x=4가 4배 더 큰 값이라는 의미이므로 원래 자료 의 성격에 맞지 않다. 따라서 다음과 같은 가변수를 3개 만들어서(D1, D2, D3),  변수 x 대신 가변수 D1, D2, D3를 설명변수로 사용해야 한다.  1 1 1 2 1 2 3 4 2 ( 1) ( 2) ( 3) i i i i i i i i i i y x x y x D D D                   대신 를 사용 Example • HERS study(Heart and Estrogen/Progestin Replacement study)  a measure of exercise to predict baseline glucose levels among 2,032  participants without diabetes in the HERS clinical trial of hormone  therapy(Hulley et al., 1998)  변수명  Physact: exercise level  (1=much less active, 2=somewhat less active, 3=about as active,  4=somewhat more active, 5=much more active)  종속변수: baseline glucose level  독립변수: age, BMI, Physact  Physact에 대해 가변수를 만들어 보자.
  • 15. SPSS dataset: HERS.sav 1. 범주형 변수에 대해 가변수 만들기 Phy2, Phy3, Phy4, Phy5에 대해 반복한다. 
  • 16. 2. 회귀모형 설정 3. 회귀분석 결과 0.081
  • 17.  Much less active (phy1=1):  Glucose = 68.154 – 0.123ⅹage  + 1.660ⅹBMI + 13.136ⅹphy1 = 81.289 – 0.123ⅹage + 1.660ⅹBMI  Somewhat less active (phy2=1):  Glucose = 68.154 – 0.123ⅹage + 1.660ⅹBMI + 6.332ⅹphy2 = 74.486 – 0.123ⅹage + 1.660ⅹBMI  About as active (phy3=1):  Glucose = 74.184 – 0.123ⅹage + 1.660ⅹBMI Somewhat more active (phy4=1):  Glucose = 70.292 – 0.123ⅹage + 1.660ⅹBMI Much more active  Glucose = 68.154 – 0.123ⅹage + 1.660ⅹBMI