Sampling-Importance-Sampling을 이용한 선수 경기능력 측정

베이지언 연구방법론 기말발표
기댓값이 반영된 선수의 시즌별 경기능
력 향상 측정 방법 제시
Particle Filter SIR 알고리즘을 이용하여
설 명 페이지
프로젝트 개요 2
Sampling-Importance-Resampling 3
데이터 설명 7
계산과정 설명 8
결과 분석 12
120150251 안재현

프로젝트 개요
•  스포츠에서는 선수들의 득점치 뿐 아니라 다양한 기준을 가지고 성과를 측정하고
이를 바탕으로 다음 해의 연봉을 결정한다

•  그러나 대부분은 사실에 근거한 수치에 불과하며 각 선수들의 컨디션이나 나이를
근거로 한 능력 저하 또는 대중들의 선수에 대한 기댓값을 반영하고 있진 않다

•  또한 시즌 경기에서 개인이 낼 수 있는 통계적 수치가 그렇게 많지 않을 뿐 아니기
에 기대값이 들어갈 수 있을 만한 통계적 단단함 역시 부족한 편이다
•  이번 프로젝트에서는 샘플링 방법 중 하나인 SIR Simula*on(Sampling-
Importance-Resampling)을 통해 통계적 부족함을 극복하고, 기대값을 반영하여
선수의 다음 해 경기 능력을 예측하는 방법을 소개한다
2

Sampling-Importance-Resampling
•  SIR은 Monte Carlo(MC) sampler의 한 방법으로 기존의 데이터를 근간으로 한
Sampling과 기존 모델을 바탕으로 새로운 모델에 적용하는 Importance
Weigh*ng, 그리고 Resampling의 과정으로 이루어져 있다
•  Sampling:

•  Importance Weigh*ng:

3
!!
! !!!! 시점의 샘플을 생성하기 위하여 번째 데이터를 사용한다. 이 단계는 Sampling 또는 Draw
-ing이라고도 불리며 기본의 모델 분포를 근간으로 t 시점의 데이터를 샘플링한다
!!
!
의 시점을 고려하여 해당 샘플의 확률분포값을 가지고 중요도 weight를 계산산다

•  SIR은 Monte Carlo(MC) sampler의 한 방법으로 기존의 데이터를 근간으로 한
Sampling과 기존 모델을 바탕으로 새로운 모델에 적용하는 Importance
Weigh*ng, 그리고 Resampling의 과정으로 이루어져 있다
•  Resampling:

4
!!
! 시점의 샘플을 가지고 N 샘플을 생성한다. 이때 생성된 샘플은 weight을 근간으로 한다
새로 그려진 시점의 샘플 즉, 가 샘플링의 결과가 된다 !!
Albert-Ludwigs-Universität Freiburg Sta<s<cs 강의자료

•  Get expecta*on value for target func*on, when .
•  B가 x의 속할 여부가 결정되는 binary func*on이라고 할 때, Sampling 된 A로
부터 얻어진 데이터 x들에 대하여 정해지는 binary wieght의 기댓값은
•  이고, 이때 weight, 즉 w를 아래와 같이 정의한다
5
!! ! ! = ! ! ∙ ! ! !"
! ∈ !
Albert-Ludwigs-Universität Freiburg Sta<s<cs 강의자료

•  우리는 distribu*on of π(x) , 즉 sampling pool의 probability distribu*on을
모른다. 그러나 이 분포는 i-시점에서 샘플 된 데이터 S의 기대값과 그 분포가
같으므로, 다음과 같이 적을 수 있다
•  마지막으로 이렇게 구해진 π(x)를 이용한 가중치 weight를 사용하여 Sample
공간 B를 정의하여 근사할 수 있다면, π distribu<on을 통한 Re-sampling을 구
현할 수 있다
6 Albert-Ludwigs-Universität Freiburg Sta<s<cs 강의자료

데이터 설명
•  부족한 샘플을 극복할 수 있는 방식을 구체적으로 설명하기 위하여 데이터는 1994
년 대한 농구협회의 자료를 이용하였다. (강승호 등 1996) 데이터는 년도별 시즌 평
균 득점과, 해당 시즌 총 득점, 게임 수가 기록되어 있다
•  상단 정보에 대한 평균 득점의 기댓값은 23.2이며, 95% 신뢰 구간은 (19.423,
30.398)이다. 그러나 수치는 기대치가 반영되지 않았으며 9년치 수치를 종합한 것
임에도 활용할 수 있는 정보의 수가 충분치 않아 보인다
7 몬테칼로 베이지안 분석과 응용 사례, 강승호 박태성, 한국통계학회논문집 (1996)

데이터 설명
•  주어진 데이터 외에 여론(1000명에게 설문)이라고 하는 가상의 데이터를 추가하여
보자. 여론이 생각하는 해당 선수의 내년 성적에 대한 기댓값 통계가 주어졌을 때,
이 평균 30점, 표준편차 1.73의 분포를 가진다고 하자
•  이 때 95% 신뢰 구간은 (27.42128, 32.57822)로, 해당 선수의 과거 기록(19.423,
30.398)을 상회하는 수치이다
•  그러나 여론과 주어진 통계를 단순 합으로 생각하기엔 문제가 있다. 데이터의 가중
치 뿐 아니라 데이터 풀의 개수가 다르기 때문이다. SIR 알고리즘은 Weight factor
라는 가중치를 둠으로서 Resampling이 양쪽 분포를 균형있게 결합할 수 있도록 한
다
8

계산과정
•  주어진 데이터의 분포 를 먼저 구한다. 는 기대값을 근거로 한 1000개의 샘플이다
•  데이터의 사전확률 분포 를 구하고 이를 바탕으로 π(x)를 유추한다
•  Cpost(distribu<on, sample)은 distribu<on에 대하여 sample의 편차를 가지고
Importance Sampling을 해준다. 즉 weight of π 를 구하는 함수이다
9
!
theta.p = sqrt(exVarScore) * rt(1000, sampleN-1) + exScore
!(!)
!
pi.theta = exp(cpost(theta.p, score))
! ! !" ≈
1
!
!(! !
∈ !)
!
!!!
!

계산과정
•  본 과정을 거쳐 나오는 , 즉 1000개의 여론 기대값 대비 weight 의
분포는 다음과 같다
10
! ! ! =
!(!)
!(!)

계산과정
•  가중치 weight를 가지고 Re-sampling을 추출하는 코드는 다음과 같고
•  Sample된 데이터는 다음과 같이 관찰할 수 있다
11
# get samples from distribution
probs= weights/sum(weights)
theta.sample = sample(theta.p,size=1000,prob= probs,replace=TRUE)
theta.sample

결과분석
•  주어진 선수 데이터 9가지, 여론을 통해 얻어진 1000
개의 기댓값을 통하여 SIR을 통해 얻어진 Sample을
얻을 수 있으며, 각각을 Given, 여론 기대치
(Expecta*on), SIR Sample 추출(SIR Sample
Expecta*on)을 추출하고 Normal Distribu*on에 근
사하여 Mean과 Variance를 구할 수 있다.
12

결과분석
13
•  각각의 데이터를 보면 통계를 상회하던 여론의 기대값과 편차가 크던 9개년 데이터
모두가 반영된 채 평균으로 수렴하고 있는 분포를 관찰할 수 있다.

결과분석
14
•  각각의 데이터를 보면 통계를 상회하던 여론의 기대값과 편차가 크던 9개년 데이터
모두가 반영된 채 평균으로 수렴하고 있는 분포를 관찰할 수 있다.

Sampling-Importance-Sampling을 이용한 선수 경기능력 측정

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Sampling-Importance-Sampling을 이용한 선수 경기능력 측정

Similaire à Sampling-Importance-Sampling을 이용한 선수 경기능력 측정 (7)

Plus de Mad Scientists

Plus de Mad Scientists (20)

Sampling-Importance-Sampling을 이용한 선수 경기능력 측정