[Causal Inference Workshop 2022] Applications of Causal Inference in Product Analytics

Applications of Causal Inference
in Product Analytics
프로덕트 애널리틱스에서의 인과추론의 활용 사례와 향후 과제
Bokyung Choi (최보경)
Korea Summer Workshop on Causal Inference 2022

Introduction
00
발표자 소개
최보경(Bokyung Choi)
§ QANDA(Mathpresso) 데이터 분석가
§ Product Analytics 커뮤니티 PAP 설립 및 운영
§ 고려대학교 경영학, 인공지능 융합전공 학사
§ Causal Inference 세션
§ 스타트업에서의 인과추론, Causal Inference KR
§ 실무자를 위한 인과추론 활용 Best Practices, PAP
§ Causal Inference 아티클
§ Medium
LinkedIn
Medium Blog
bonniebkchoi@gmail.com

Contents
Introduction
00
01 Core of Product Analytics
02 Causal Inference Application Cases
03 Challenges in Applications
04 Open Problems in Product Analytics
05 Key Takeaways
해외 테크 기업 및 발표자 사례
실무에 적용하며 겪었던 어려운 점들과 발표자의 극복 방법
인과추론을 통해 풀고 싶은 향후 과제들
프로덕트 애널리틱스 소개와 인과추론의 중요성
핵심 메세지 정리

1
Core of Product Analytics
프로덕트 애널리틱스 소개와 인과추론의 중요성

What is Product Analytics?
01
§ Product(제품)의 개념
A product is a good or service or idea consisting
of a bundle of tangible and intangible attributes
that satisfies consumers and is received in
exchange for money or some other unit of value.
Fredrick G. Crane (2011). Marketing, 8th Canadian Edition

01
§ Product의 예시
Online Services Mobile Apps

01
§ Product Analytics의 개념
§ 데이터를 통해 사용자와 프로덕트의 상호작용을 이해하는 과정
§ 유사 개념
§ Mobile and Web Analytics : 마케팅 비용, SEO, 페이지
단위 지표 분석 vs 행동 데이터와 더 깊은 레벨의 데이터 탐색
§ Marketing Analytics : Traffic, Acquisition vs
Engagement, Retention
§ Business Intelligence(BI) : 전략적 vs 전술적 의사결정
출처 : https://amplitude.com/product-analytics / Mixpanel Product Analytics vs Marketing Analytics

01
프로덕트 개발
(Build, Measure,
Learn)
출처 : https://amplitude.com/product-analytics
사용자 행동 데이터를 분석하고,
전환 기회를 파악하고,
영향력 있는 경험을 창출하여
사용자를 비즈니스의 핵심에 두기 위한
프레임워크

Why Causal Inference in Product Analytics?
01
비즈니스는 Metric Growth를 원한다.

01
결과로 볼 수 있는 후행 지표라면 : e.g. 매출, 활성 사용자 수 등
직접 조절할 수 있고 후행 지표에 영향을 주는 선행 지표라면 : e.g. 결제 랜딩 페이지 조회수 등
아래와 같은 질문이 파생된다.
§ Is this metric Vanity or Actionable?
§ Is this metric reflecting true behavior change?

01
Metric Growth는 사용자의 행동 변화(Behavior Change)를 통해서 달성된다.

01
아래와 같은 질문이 파생된다.
§ What is the difference of subscribed users and non-subscribed users?
§ What makes users retain?
§ How can we make general users convert into subscribed users?
§ How can we make general users follow the journey of retained users?

01
사용자의 행동 변화(Behavior Change)를 만들기 위해서 검증된 인사이트(Vetted Insights)가 필요하다.

01
검증 방법 : A/B 테스트, 데이터 분석, 유저 리서치 등 → 검증이 된다면 행동이 변화할 확률이 높을 것
검증하지 않는다면 : 프로덕트 담당자의 직감(Gut Feeling)

01
검증된 인사이트(Vetted Insights)는 사용자 행동 변화를 만드는 원인을 이해함으로써 발굴할 수 있다.

+ 데이터 기반 인사이트의 종류
01
출처 : Joanne R. (2020). Product Analytics: Applied Data Science Techniques for Actionable Consumer Insights
Type of Insights Description Example
Observational
현상, 환경, 또는 행동을 설명하는
것을 기반으로 하는 인사이트
Insight : 유저들이 홈페이지에서 오래 체류한다.
Action : 홈페이지를 더 탐색하기 좋고 정리된 형태로 개선하자.
Comparative
두 가지 서로 다른 수량 간의
비교를 기반으로 하는 인사이트
Insight : 오거닉 유저의 유입이 저번달 대비 이번달에 크게
감소했다.
Action : 감소 원인을 찾아보자.
Causal
다른 요소를 발생시키는 하나의
요소에 대한 인사이트
Insight : 프로모션을 조회하는 것은 유저로 하여금 핸드백을
구매하게 한다.
Action : 프로모션을 더 많은 유저에게 조회하게 하면, 더 많은
핸드백 구매로 이어질 것이다.
Predictive
미래에 발생할 요소에 대한
인사이트
Insight : 앞으로 인구가 비슷한 비율로 증가한다면, 2020년까지
5배 큰 웨어하우스가 필요할 것이다.
Action : 더 큰 웨어하우스를 구매하도록 계획을 세우자.

01
Causal Insights
§ Useful in understanding and altering human behavior
§ Causal insights are directly actionable, but the most
difficult and expensive insights to find.

Data-Driven Behavior Change Framework
01
Inference based on Data → Behavior Change → Metric Growth
Raw
Data
Model
with
Hypothes
es
Causal or
Predictive
Inference
Vetted
Insight
Action
Behavior
Change

What else is important in Product Analytics?
01
정량과 정성을 결합하는 혼합 검증법(Mixed Methods)
§ 의미를 탐색하고 구조를
이해함
§ 참여자의 목소리를 강조함
§ 작은 샘플 사이즈
정성(Qualitative) 정량(Quantitative)
§ 규모와 구조의 빈도를
평가함
§ 모집단에 대해 일반화함
§ 큰 샘플 사이즈
X
데이터라는 툴에만 한정하여 사람의 행동을 이해하는 것은 어렵다.
사람의 행동은 측정 불가능한 복합적인 요소에 의해 발생하며, 개인의
특성에 따라 수만가지의 서로 다른 행동이 발생 가능하다.
출처 : https://kdd2021-mixedmethods.github.io/ 참고 : QANDA 학부모 이해 연구 사례

What else is important in Product Analytics?
01
조직의 데이터 활용 문화 및 데이터 성숙도(Data Governance, Data Culture)
Vetted
Insight
Action
§ 의사결정권자를 설득할 수 있는가?
§ 의사결정권자가 얼마나 이해하고 챌린지를 줄 수 있는가?
§ 실행하여 리소스를 투입할 정도로 강한 확신의 근거를 줄 수 있는가?
§ 이전에 해오던 의사결정 방식은 직감을 기반으로 하였는가, 데이터를 기반으로 하였는가?
…

2
Causal Inference
Application Cases
해외 테크 기업 및 발표자 사례

Causal Inference Application Cases
02
1. A/B 테스트가 불가능할 때
2. A/B 테스트 기반 추가적인 인사이트 도출할 때
3. 이미 만들어진 결정 및 제품에 대한 효과를 검증할 때
인과추론 적용 상황 (A/B 테스트 제외)
현업에서 마주치는 문제 상황의 분류
1. TripAdvisor 사례 (IV)
2. Roblox 사례 (IV)
1. QANDA 광고 사례 (IV)
2. Uber Eats 광고 타겟팅 사례 (Uplift)
1. QANDA 퀴즈 사례 (DiD)
2. QANDA 퀴즈 사례 (CausalImpact)
+ 4. 진행된 A/B 테스트의 Bias를 보정할 때

02
인과추론 적용 상황
현업에서 마주치는 문제 상황의 분류

1. A/B 테스트가 불가능한 이유? - 설계 차원
02
Control
User
Treatment
User
§ (처치 : SNS 피드 게시글) 실험군 유저가 좋아요 누를 경우 →
실험군 유저와 친구인 대조군 유저에게 뜬다.
§ (처치 : 라이드 수락 화면) 실험군 드라이버 유저가 거절 누를 경우
→ 대조군 드라이버 유저에게 라이드가 넘어간다.
Spillover Effect가 발생할 수 있을 때

1. A/B 테스트가 불가능한 이유? - 상황 차원
02
A/B 테스트까지 포함해서 나가기에는 계획해 둔
출시 일정을 맞추기 어려울 것 같습니다. (개발, QA)
A/B 테스트를 지원할 수 있는 인프라가 갖춰지지 않았을 때
해당 기능은 xx회의 유저 인터뷰와 yy명 대상 서베이를
통해서 니즈를 검증했습니다. 출시 전 User Testing과 출시
후 분석을 통해 빠르게 개선하는 것이 적절할 것 같습니다.
다른 검증 방식들을 통해 니즈에 대한 확신이 강할 때
01
02

1. A/B 테스트가 불가능한 이유? - 상황 차원
02
커뮤니티 기능은 유저 경험에서 필수적 요소로 중요하기
때문에, 커뮤니티 기능을 배제하는 대조군을 둘 수 없습니다.
A/B 테스트를 진행할 경우 유저 경험을 크게 해칠 수 있다고 판단했을 때
A/B 테스트를 진행할 경우 매출에 큰 타격을 입힐 수 있을 때
대조군을 둘 경우 1주일간 매출이 xx% 손해 입을 수
있으며 yy억원 손해가 발생할 수 있습니다.
03
04

1-1. TripAdvisor 멤버십에 가입하면, 더 많이 서비스에 관여할까?
02
출처 : KDD 2021 Slides / ALICE Paper (Microsoft Research x TripAdvisor 협업한 사례) / Notebook
서비스
관여

1-1. TripAdvisor 사례 분석
02
문제 정의
§ TripAdvisor의 멤버십에 가입하는 것이 유저의 관여도를 증가시킬까?
§ 관여도 지표: 체류시간, 방문일 수
§ 어떤 종류의 유저에게 TripAdvisor 멤버십 가입이 가장 효과적인가?
활용 방식
§ Recommendation A/B Test
§ Doubly Robust Instrumental Varible (DRIV) with EconML
활용 결과
§ 멤버십 가입이 1.12배 관여도 증가시키는 효과
§ 아이폰 유저와 예약 페이지를 방문한 멤버십 가입 유저가 관여도가 훨씬 더 높음을 발견
§ 해당 유저들을 대상으로 멤버십 가입 유도 기회를 모색하기 위해 전략을 구상
어떤 종류의 유저에게 가장 효과적인가?
iPhone, Visit Vacation Rental Page
멤버십 프로그램이 얼마나 효과적인가?
X 1.12배

1-1. 왜 A/B 테스트가 불가능 했을까?
02
멤버십 가입 유저 vs 멤버십 미가입 유저 체류시간 비교?
Confoundedness
§ 멤버십에 가입한 유저는 가입하지 않은 유저보다 서비스에
대한 유저의 선호도(User Affinity)가 본래 높을 것
§ 서비스에 대한 유저의 선호도가 높으면, 체류시간도 높을 것
A/B 테스트 진행?
Imperfect Compliance
§ A/B 테스트에서의 처치가 ‘멤버십 가입’이라고 했을 때,
랜덤하게 추출된 일부 유저에게 멤버십에 가입하도록
강제할 수 없음
§ 이 문제는 현업에서 빈번함. 유저가 참여 여부를 결정할 수
있는 이벤트의 경우 이 문제가 발생

1-1. Imperfect Compliance의 극복
02
Recommendation
A/B Test
A/B 테스트의 실험군, 대조군 할당 여부를 도구변수로 활용해
알고자 하는 인과관계를 추정할 수 있게 하는 방식

1-1. Recommendation A/B Test
02
§ 과거 실험의 가설 : 새롭고 더 빠른 멤버십
회원가입 과정이 유저의 리텐션을
향상시키는가? (목표 지표 : 유저 리텐션)
§ 도구변수의 기능
§ 도구변수를 통해서 원인 변수에서
내생성(Confoundedness,
Selection Bias, Error Term과
관계를 가짐)을 가지는 부분을
잘라내고
§ 외생성을 만족하는 부분으로만 결과
변수를 예측하는 메커니즘
도구변수
원인변수
원인변수
실험군
대조군

1-1. 도구변수의 조건
02
1. Relevance : 도구변수(실험군 할당 여부)는 원인변수(멤버십 가입 여부)에 충분히 영향을 주어야 함
2. Exclusion Restriction : 도구변수(실험군 할당 여부)는 원인변수(멤버십 가입 여부)를 통해서가 아닌 다른
경로로 결과변수(유저 관여도)에 영향을 주지 않음
3. Exogenity : 도구변수(실험군 할당 여부)와 결과변수(유저 관여도)에 둘다 영향을 주는 교란변수가 없음
도구변수
원인변수
결과변수
알고 싶은 인과관계
교란변수
내생성 제거

1-1. 도구변수의 조건 만족
02
Randomness of IV 도구변수에 이 예시처럼 Randomness가 있다면?
Golden Standard로 (2) Exclusion Restriction, (3)
Exogenity를 만족
(1) Relevance 가정 : 1st stage regression 에서 F-statistic > 10 이면
가정을 만족한다고 볼 수 있다.

1-2. Roblox 아바타 샵을 경험하면, 커뮤니티를 더 많이 사용할까?
02
출처 : Causal Inference Using Instrumental Variables
커뮤니티
활동
아바타 샵
활동

1-2. Roblox 사례 분석
02
문제 정의
§ 아바타 샵에서의 체류시간이 커뮤니티 활동에서의 체류시간에 어떤 영향을 주는가?
§ 어떤 종류의 유저에게 아바타 샵에서의 체류시간이 커뮤니티 체류시간에 더 큰 영향을 주는가?
활용 방식
§ Recommendation A/B Test
§ IV, 2SLS (2-Stage Least Squares Regression)
활용 결과
§ 아바타 샵에서의 체류시간이 1% 증가할수록, 커뮤니티 활동에서의 체류시간이 0.08% 증가
§ 1주 이내로 가입한 신규 유저에게서 더 큰 임팩트가 보이는 점을 발견

1-2. 왜 A/B 테스트가 불가능 했을까?
02
We cannot just turn Avatar Shop off for a portion of our user
population because it is a really important part of the user
experience on our platform.
상황상 : A/B 테스트를 진행할 경우 유저 경험을 크게 해칠 수 있다고 판단했을 때
03
Control
User
Treatment
User
Avatar Shop is a marketplace where users interact with
each other as buyers and sellers. Turning it off for one set
of users also impacts users for whom it was not turned off.
설계상 : Spillover Effect가 발생할 수 있을 때

1-2. Recommendation A/B Test
02
출처 : Causal Inference Using Instrumental Variables / Image 출처 : Roblox Twitter
§ 분석 시점으로부터 1년 전, 아바타 샵에 “Recommended for you” 라는 피쳐를 추가해서 A/B 테스트 진행
§ “Recommended for you” 피쳐는 아바타 샵 체류시간에 큰 증가 효과를 줬음 (F-stat > 15000)

1-2. 도구변수의 조건 만족
02
“Recommended for you” 실험 여부(Z)는 도구변수의 조건들을 모두 만족하기에,
아바타 샵 체류시간(X)이 커뮤니티 체류시간(Y)에 가지는 인과적 관계를 Direct A/B
테스트가 아닌 방식으로도 추정할 수 있게 되었음.
알고 싶은 인과관계
(도구변수로) 내생성 제거

02
먼저, 콴다(QANDA) 서비스 이해하기

2-1. 콴다 인앱 광고 형태별 조회가 유저 경험에 어떤 영향을 줄까?
02
재방문
앱 내 보여지는 광고 지면과 형태는 다양하며, 조건에 맞게 달라짐
(예시) 검색 화면 지면 x 네이티브 광고 형태
다양한 광고 형태

2-1. 콴다 광고 사례 분석
02
문제 정의
§ 어떤 형태의 광고가 가장 유저의 경험을 저해할까?
§ 유저 경험 지표 : (편입 이후) 3주차 재방문 여부 및 일수, 4주차 재방문 여부 및 일수
활용 방식 § IV, 2SLS (2-Stage Least Squares Regression)
활용 결과
§ 리워드 광고(Reward Video Ads)가 다른 형태 대비하여 조회수가 1회 증가할수록 유저의
리텐션에 20배 이상 더 큰 저해를 가함 (* 통계적으로 유의)
§ 리워드 광고 > 전면 광고 > 네이티브 .. 광고 순서로, 광고 조회수가 1회 증가할수록 유저의
리텐션에 더 큰 저해를 가함 (* 통계적으로 유의)
§ Action : 리워드 광고를 최대한 배제하도록 광고 플랜을 구성함

2-1. 왜 도구변수를 활용했을까? (진행된 실험 설계)
02
§ 복합적인 광고
§ 사용자에게 실제로 집행될 광고는 ‘단일 광고 지면과 형태’가 아닌 ‘복합적인 광고 지면과 형태’
§ 실험의 목적은 실제로 집행될 복합적인 광고가 ARPU, Retention에 주는 영향을 측정
§ 특정 광고 형태의 경우 지나치게 단가가 낮아 단가 높은 형태와 어느 정도 섞어줘야 함
§ 활동 특정 조건을 달성하면 형태 B, 형태 C 광고를 보여줄 수 있음 (Imperfect Compliance)
실험군 종류 전체 중 비율 광고 지면 광고 형태
실험군 1 14.28%
지면 A (조건 X 달성 미만) 형태 A
지면 A (조건 X 달성 이상) 형태 B
지면 B (조건 Y 달성 이상) 형태 C
지면 C 형태 D
지면 D 형태 E
실험군 2 14.28%
지면 A (조건 X 달성 미만) 형태 A
지면 A (조건 X 달성 이상) 형태 B
지면 B (조건 Y 달성 이상) 형태 C
* 대조군 포함하여 총 7개의 그룹이 존재 (Multivariate)

2-1. 도구변수의 활용과 조건 만족
02
4주차재방문
여부(0,1)
REWARD
광고조회수
(continuous)
광고실험군/
대조군분류
(0~6)
4주차재방문
일수
(continuous)
도구변수 (Z)
First-stage F-statistic > 30000
원인변수 (X)
결과변수 (Y)

2-1. 다른 관점에서의 근거를 보충
02
§ 어떤 형태의 광고가 가장 유저의 경험을 저해할까?
§ 광고 형태, 지면에 따른 유저의 선호도 서베이 결과를 보태어 결과 전달
§ 리워드 형태, 지면에서 가장 낮은 선호도 보임
콴다의 가장 큰 장점이 빠르게 풀이를 볼 수
있다는 건데, 광고가 콴다의 메리트를 없애는 것
같다 이 광고만 나와도 "콴다 짜증나"할 것 같다
광고 보기 싫어서 열려있는 답변만 볼 것 같다
User’s Comment about Reward

2-1. Limitations
02
§ 실제 커뮤니케이션 과정에 있어서 의사결정권자에게 도구변수라는 개념 자체를 전달하지는 못함
§ LPM(Linear Probability Model)으로 구성했을 때 계수에 대한 정량화가 직관적이지 못했던 문제가 있었음
출처 : https://pages.stern.nyu.edu/~wgreene/zombie-econometrics.pdf

2-2. Uber Eats의 예산 하에 최적의 광고 효율을 내려면?
02
출처 : KDD 2021 Tutorial / Uplift Modeling 의 기본 소개하는 블로그

2-2. Uber Eats 광고 사례 분석
02
문제 정의
§ 우버 이츠가 광고주로서 광고를 어떤 유저에게 내보내야, 주어진 예산 하에서 최적의 퍼포먼스를
낼 수 있을까?
§ 퍼포먼스 지표 : ROAS(Gross Booking/ Ad Spend)
활용 방식 § Uplift Modeling with CausalML
활용 결과
§ (예상) 상위 60%의 Uplift Score 를 가지는 유저를 대상으로 타겟팅했을 때, 예산을 40% 줄이면서
수익 효율을 67% 증가시킬 수 있을 것
§ (실제) 온라인 실험 진행시 예산 46% 줄이며, 수익 기준 ROAS 93% 증가함
* Uplift Score = P(outcome | treatment, x) – P(outcome | no treatment, x)
출처 : KDD 2021 Tutorial, Uber CausalML

2-2. Uplift Modeling
02
광고를 봤을 때(개입 O)
광고를 안 봤을 때(개입 X)
우버이츠 구매 X
우버이츠 구매 X
우버이츠 구매 O
출처 : KDD 2021 Tutorial / Uplift Modeling 의 기본 소개하는 블로그
개입 여부, 구매 여부로 2x2 매트릭스를 구성
효율을 극대화하기 위해 집중해야 할 세그먼트가 존재함
§ Persuadables(설득 가능)는 개입함
§ Defier(청개구리)는 개입하지 않음
§ Never-taker(무관심), Always-taker(잡은 물고기)는 비용
대비 임팩트를 내기 어려운 세그먼트이므로 비용이 드는 개입은
하지 않음

2-2. Uplift Modeling
02
출처 : KDD 2021 Tutorial, Uber CausalML
§ Uplift Modeling with CausalML
§ 실험형 데이터를 Input으로 받아서 사용하기 때문에, A/B 테스트로 캠페인의 효과를 비교하는 것에 그치지
않고 실제 Business value를 극대화해줄 수 있는 기법
§ 관측형 데이터를 실험, 대조로 구성할 시에도 가능
§ 데이터를 계층화(stratify)하고, 각 계층(strata) 내에서 평균 처치 효과(CATE) 를 머신러닝을 통해 추정
Uplift Modeling in Practice (진행 절차)
더 자세히는 Summer Workshop 2022, Summer Session 2021를 참고!

02
테스트를 진행하지 않아 가장 정답에 가까운
인과 효과는 볼 수 없겠지만,
대안 방법론들로 추정해볼게요.
A/B 테스트는 안했지만, 2020년 11월에 출시됐던
퀴즈퀴즈 기능이 유저의 리텐션을 얼마나 높였는지
그 효과를 알려주세요. (글로벌 확장 목적)
Executives, PM, PO 등의 요청
(의사결정을 위한 근거 : 과거 유사 결정의 결과)

3-1. 콴다 퀴즈퀴즈 기능을 사용해보면, 다시 방문하고 싶어질까?
02
퀴즈퀴즈
§ 콴다 앱에서 매주 2~3회 열리는 수학 퀴즈 대회
§ 1등으로 우승하면 ‘코인’ 제공
§ ‘코인’은 앱 내에서 선생님들한테 질문할 때 사용할 수 있는 화폐 단위 (유료 충전 가능)
참고 : 스타트업에서의 인과추론 Slides

3-1. 비하인드 : 기능을 늘리는게 월간 활성 사용자 성장에 도움이 될까?
02
슈퍼앱
§ 슈퍼앱: 하나의 앱에 여러 기능 및 서비스를 담은 앱
§ 본래 트래픽을 키울 수 있었던, 성공적이었던 기능의 도메인을 기반으로 서비스를 확장 / 또는 성공적이었던 국가를
기반으로, 해외 국가로 서비스를 확장할 수도 있음
예시
§ 야놀자 : 여가 슈퍼앱 (숙박 => 교통, 해외 여행, 원데이 클래스 등)
§ 배달의민족 : 푸드 슈퍼앱 (음식 배달 => 장보기, 쇼핑라이브, 선물하기, 맛집 배달 등)
§ 콴다 : 교육 슈퍼앱 (검색 => 타이머, 문제집, 퀴즈 이벤트, 커뮤니티 등)

3-1. 콴다 퀴즈퀴즈 사례 분석
02
문제 정의
§ 콴다 앱에서 퀴즈퀴즈 기능에 참여하는 것이 유저의 재방문에 어떤 영향을 주는가?
§ 재방문 지표 : 주별 방문 리텐션
활용 방식 § Look-forward Matching, Difference-in-Differences
활용 결과
§ 퀴즈퀴즈 기능 출시 직후, 퀴즈퀴즈 사용하는 행동이 유저의 주별 방문 리텐션을 4%p 증가시키는
것을 발견
§ 다른 국가에 동일한 기능을 출시하는 전략의 우선순위 조정으로 이어짐

3-1. Matching
02
§ 대조군 없이 100% 배포가 되었던 상황이므로, 대조군처럼 사용할 수 있는 집단을 찾아서 통제 집단으로 가정.
§ 통제 집단 대비 실험군에서 발생한 지표의 증분 상승을 통해서 인과 효과를 추정하는 Difference-in-Differences
§ 통제 집단을 찾기 위해서 Look-forward Matching 을 사용
§ 기능을 사용한 유저군 내에서 Adoption Timing(기능 최초 사용)을 활용해 실험군, 대조군을 분류하는 방식
§ 퀴즈를 2021년 02월 이전 최초 사용한 유저 : 실험군
§ 퀴즈를 2021년 02월 이후 최초 사용한 유저 : 대조군
실험군 Adoption Period 대조군 Adoption Period
실험, 대조군 리텐션 측정 기간
기능 출시
2020-11월
(Treatment)
기능 활용 시점 구분
2021년 2월
(Adoption Timing,
Threshold)
출처 : Summer Session 2021
Timing은 조금 늦지만,
어차피 사용할
유저들이니 특성이
동일할 것이다

3-1. Difference-in-Differences
02
§ 2020-08-31 ~ 2020-11-16까지 퀴즈퀴즈
출시하기 전 실험군, 대조군, 베이스라인 간의 WR 이
Parallel Trend Assumption (트렌드가 평행할 것)을
만족한다.
§ 실험군, 대조군에게 Spillover Effect가 발생하지 않
았다고 가정 (바이럴 X)
§ 21년 2월에는 설날 연휴로 2주간 일주일에 하루씩
퀴즈퀴즈를 운영하지 않았다.

3-1. Limitations
02
§ Look-forward matching 에서 실험군과 통제 집단 사이에 차이를 줄 수 있는 변수를 생각해봤을 때 가입일
분포가 다를 수 있을 것으로 판단함
§ 확인 결과 ‘기능 출시일 – 가입일’의 평균을 두 그룹간 비교할 경우 7일 정도 차이. (평균 500 ~ 600일대)
§ 주어진 시간의 한계로 Sensitivity Test를 위해 어떤 걸 해보면 좋았을까? 에 대한 고민과 실행이 모자랐음
§ 1월에 실험군의 Weekly Retention이 감소하는 경향을 퀴즈퀴즈 운영 플랜 변경, Novelty Effect 외로 다른
설명할 수 있는 원인을 찾기 어려웠음

3-2. 동일한 문제를 다른 방식으로 풀어보자
02
문제 정의
§ 콴다 앱에서 퀴즈퀴즈 기능에 참여하는 것이 유저의 재방문에 어떤 영향을 주는가?
§ 재방문 지표 : 주별 방문 리텐션
활용 방식
§ Synthetic Control 계열의 Google CausalImpact 라이브러리
§ 텐서플로우의 Bayesian Structured Time Series (BSTS)
활용 결과
§ 퀴즈퀴즈 출시일 이후 평균적인 MAU (Daily) 증가는 +2.13%
§ BSTS 기준 95% Interval : [0.08%, 4.08%]
§ BSTS p-value : 0.02

02
Counterfactual Data를 예측하는 구글의 라이브러리
§ 대조군으로 활용할 수 있는 데이터가 없는 상황
§ 이벤트(Treatment) 이전의 데이터들을 기반으로, 이벤트 이후 기간에 ‘이벤트’가 없었을 경우의 y의 흐름을 예측
§ 예측된 그 y의 흐름이 곧 synthetic control로, 가상의 대조군으로 사용
§ 실제 데이터(실험군) - 가상의 대조군 = 이벤트를 통한 인과 효과를 추정
3-2. CausalImpact

3-2. CausalImpact
02
§ 이벤트 이후 y의 예측에 있어서, 이벤트 이전의 y와 상관이 높은 공변량 변수들을 찾고, 검증하는 과정이 중요
§ y : daily MAU (Sliding Window)
§ y의 흐름과 유사하면서 반드시 이벤트에 영향을 받지 않는 변수
§ 발표자는 이벤트 이전의 y와 상관계수가 0.6 이상인 변수만 활용
동 시기에 특정 이벤트(퀴즈퀴즈 출시)가 없었던
국가의 Daily MAU (Daily Sliding Window)
경쟁사 DAU (Sensortower 활용) 연관 검색어 트래픽 (Google Trends)

3-2. CausalImpact
02
§ Google CausalImpact의 기본이 되는 인과 효과 추정에 사용되는 예측 모델은 텐서플로우의 Bayesian Structured
Time Series (BSTS)
§ Time-series forecasting and causal analysis in R with Facebook Prophet and Google CausalImpact
(2020.09)를 참고하여,시즈널리티 반영 및 튜닝할 수 있는 여지가 많아 성능이 좋기로 유명한 시계열 예측 패키지
Facebook의 Prophet과의 오차 비율을 함께 봄
§ BSTS와 Prophet의 y값이 유사해지도록, 또한 각 모델이 이벤트 이전 y 데이터에 오버피팅이 되지 않도록
파라미터들을 조정함
Prophet 에는 중간고사, 기말고사, 주요
프로덕트 업데이트 일자를 반영

3-2. 추론 결과 (BSTS)
02
상세 정보
§ event date: 2020-11-30 (점진적 학년별 출시 마무리일)
§ train dataset: 2019-12-02 ~ 2020-11-29
§ Predicted dataset: 2020-11-30 ~ 2021-02-21
§ features correlation coefficient threshold: 0.6
Causal Effects (timepoint 단위)
Causal Effects (event 이후 누적)

3-2. 추론 결과
(BSTS + Prophet)
02
상세 정보
§ train dataset: 2019-12-02 ~ 2020-11-29

3-2. 추론 결과
02
CausalImpact Result with Prophet
§ Error rate = (실제 y 값 - 예측된 y값)/ 실제 y값
§ BSTS와 Prophet의 y값이 유사해지도록, 또한
각 모델이 이벤트 이전 y 데이터에 오버피팅이
되지 않도록 파라미터들을 조정함
상세 정보
§ train dataset: 2019-12-02 ~ 2020-11-29

3-2. Limitations
02
참고 : 스타트업에서의 인과추론 Slides /
(추가 참고) PyData New York 2019에서 HelloFresh(밀키트 배달 서비스)에서 지역별 실험이 어려워 Google Causal Impact를 사용한 발표
Quasi-experiments 및 Counterfactuals의 한계점
§ 특정 시기를 기점으로 이벤트 전후의 인과 효과를 측정하므로, ‘기능 출시’뿐이 아니라 이 시점의 ‘여러 가지 이벤트
및 다른 roll out, A/B 실험’의 효과는 배제할 수 없음
§ y에 영향을 미치기 어려울 정도로 작은 효과는 감지하기 어려움
§ 모든 것을 큰 단위로 묶어서 보기 때문에, 유저 단위의 효과로는 파고들 수 없음
CausalImpact를 사용함에 있어서의 한계점
§ 성능이 좋은 Prophet 패키지와 추세를 유사하게 그리도록 파라미터를 바꿔보지만, 결과의 신뢰성을 높여줄
validation으로는 충분하지 않다고 생각
§ CausalImpact 라이브러리 자체적으로 제공하는 sensitivity analysis가 없어 어떻게 연결할 수 있을지 주어진
시간 내에 해답을 찾지 못했다는 점

4. A/B 테스트에서 발생한 Bias를 보정할 때
02
A/B 테스트에서도 Pre-experiment Bias가 발생할 수 있다 (MS 글 참조)
§ CUPED(controlled-experiment using pre-experiment data)
§ DiD
§ PSM, IPTW
참고 : Using Causal Inference to improve Uber UX
Pre-experiment Bias : 실험 이전에 그룹들이 본래 가지고 있던 차이

4. A/B 테스트에서 발생한 Bias를 보정할 때
02
실험을 Randomized 되도록 개발하여 진행해도 문제가 늘 생길 수 있다
§ CUPED
§ DiD
§ PSM, IPTW
참고 : Using Causal Inference to improve Uber UX
DiD for Bias Correction
CUPED for Bias Correction /
Variance Reduction
출처 : https://eng.uber.com/xp/
Uber Experimentation Platform (2018)

3
Challenges in Applications
실무에 적용하며 겪었던 어려운 점들과 발표자의 극복 방법

실무 인과추론 적용은 왜 어려울까?
Challenges : Chicken and Egg Problem
A/B 테스트로 대답이 될 수 없는 실무의 질문들, 테스트가 불가능한 상황들이 존재해 배움의 필요성은 인지하지만
Analysts / Research Producers
신뢰 가능한 숫자를 도출할 수
있을 정도로 인과추론에 대해
충분히 이해하지 못함
Consumers of Research
분석 결과에 대해서 심문하거나
이해할 수 있을 정도로
인과추론에 대해
충분히 이해하지 못함
두 측면은 서로를 강화
이해할 수 없는 숫자는 결국 간과.
굳이 인과추론 기법을 배울 Incentive가 없어지는 문제가 발생.
출처 : How to Push Causal Inference in Industry?
03

2가지 단계의 어려움
Raw
Data
Model
with
Hypothe
ses
Causal or
Predictive
Inference
Vetted
Insight
Action
Behavior
Change
01
02
03

데이터 수집 및 분석 단계
§ 수집된 Raw Data가 신뢰 가능하며 온전한 상태여야 한다는 것
§ Hypotheses를 세우는 과정에 올바른 Metric을 목표로 삼는 것
Raw
Data
Model
with
Hypothe
ses
Causal or
Predictiv
e
Inference
Vetted
Insight
Action
Behavior
Change
01
03
출처 : https://emilyriederer.netlify.app/post/causal-design-patterns/

검증과 커뮤니케이션 단계
§ 정해진 시간 내에 신뢰도 높은 결과를 도출하는 것
§ 가정을 통계적 or 시각적 or 직관적으로 검증하는 것도 [정해진 시간] 내에서 해결되어야 함
§ 의사결정권자가 방법론과 검증 내용을 어느 정도 이해할 수 있게 돕는 것
Raw
Data
Model
with
Hypothe
ses
Causal or
Predictiv
e
Inference
Vetted
Insight
Action
Behavior
Change
02
03

검증과 커뮤니케이션 단계 – 발표자의 극복 방법
정해진 시간 내에 신뢰도 높은 결과를 도출하는 것?
§ 조건을 만족하기 비교적 수월한 Randomness of IV(Recommendation A/B Test), DiD를 활용
§ 모형에 대한 가정과 Sensitivity Test를 통해서 검증하는 관점은 어려움
§ 자신 + 타인의 경험을 기반으로 [상황에 맞는 방법론] 패턴을 익혀 Toolkit을 구비해두는 것이 필요 (참고)
§ 다양한 관점에서의 근거를 보태는 것이 의사결정권자의 신뢰를 확보하는 데에 효과적
§ 다른 인과추론 방법론 결합, 유사 실험 결과, 사용자 리서치 결과 등
§ (예시) 광고 형태별 조회 -> 사용자 재방문에 주는 영향 추론 결과에
§ 광고 형태별 불만족도 서베이 결과를 추가하기
02
03

검증과 커뮤니케이션 단계 – 발표자의 극복 방법
의사결정권자가 방법론과 검증 내용을 어느 정도 이해할 수 있게 돕는 것?
§ “A picture is worth a thousand words” 시각적으로 두드러지는 DiD, RD 일 때 더 효과적으로 전달 가능
§ 자연 실험을 최대한 활용하여, 조건 만족에 대한 명확한 설명과 가능할 경우 시각화 추가
§ 인과 효과를 기반으로 Business Metric 단위의 해석이 가능할 수 있도록 하는 것에 집중
02
출처 : https://mixtape.scunning.com/06-regression_discontinuity#a-picture-is-worth-a-thousand-words
회귀 불연속(RD)
이중차분법 (DiD)
03

4
Open Problems
in Product Analytics
인과추론을 통해 풀고 싶은 향후 과제들

풀지 못했지만 중요하게 해결하고 픈 문제들
Input Metric – Output Metric 간의
Causal Relationship 에 대한 증명
Open Problems in Product Analytics
04
효율적이며 신뢰도 높은
일반적인 Causal Relationship
발견 방법
02
01

04
참고 : 데이터야놀자 2021 밑바닥부터 시작하는 프로덕트 데이터 분석
Input Metric – Output Metric Causal Relationship
01
“The right input metrics get the entire organization
focused on the things that matter most. Finding exactly
the right one is an iterative process that needs to happen
with every input metric.”

§ Output Metric (후행 지표)
§ 목표를 측정한다.
§ 직접적으로 영향력을 행사할 수 없다.
§ 예시 : 매출, 결제 전환율, 재방문율 등
§ Input Metric (선행 지표)
§ 후행 지표로 이어지는 행위를 측정한다.
§ 직접적으로 영향력을 행사할 수 있다.
§ 예시 : 랜딩 페이지 전환율, 버튼 Click-Through-Rate 등
04
참고 : Amplify 2022, Udemy의 세션 요약 글
01

04
참고 : Amplify 2022, Udemy의 세션 요약 글
01
§ 개별 제품 조직이 Input Metric에 집중하여 Output Metric의 성장으로 이끌 수 있도록
§ Output Metric의 레버가 되는 Input Metric을 발굴할 수 있을까?
§ Input Metric – Output Metric의 인과관계를 입증할 수 있을까?

§ Product Analytics에 한정된 이야기는 아님
§ 가정 만족에 대한 어려움과 상황마다 다르게 적용되어야 하는 방법론
§ 시스템 / 패턴화는 불가능할까?
04
효율적이며 신뢰도 높은 Causal Relationship 발견 방법
02
Challenges to widescale adoption 중 1가지
Implementation
§ 응답자 중 51%가 실험이 아닌 관측형 데이터에서의 인과추론일 경우
데이터에서 인과추론을 위한 가정을 만족시키기 어렵다고 응답.
(n = 234)
출처 : https://www.causalscience.org/blog/causal-data-science-in-practice/

§ 시스템화? PA Tool – Mixpanel 의 Impact Report (DiD)
04
효율적이며 신뢰도 높은 Causal Relationship 발견 방법
02
출처 : https://help.mixpanel.com/hc/en-us/articles/360034129112-Impact-Report

5
Key Takeaways
핵심 메세지 정리

Key Takeaways
05
대부분의 인과추론 적용 상황은 4가지로 분류될 수 있습니다.

모형에 대한 가정 없이 조건 만족이 용이한 방법론이 활용하기 좋습니다.
01 Randomization
A/B test
Multi-Armed Bandits
02 Natural Experiments
Regression Discontinuity
Instrumental Variables
03 Conditioning
Stratification,
Matching Propensity Scores..
DiD, IV with Randomness, Regression Discontinuity (Local Nonparametric) …
출처 : https://github.com/amit-sharma/causal-inference-tutorial/blob/master/causal_inference_tutorial.pptx / 쉽게 풀어쓴 실무자를 위한 인과추론 활용
Key Takeaways
05

A Picture is Worth a Thousand Words.
인과 효과, 모형 모두 시각화할 때 설득력이 높아집니다.
출처 : KDD 2021 / Amplitude Impact Analysis
Key Takeaways
05

PA는 사람을 이해하는 것이 핵심이므로 다양한 관점의 접근이 필요합니다.
§ 의미를 탐색하고 구조를
이해함
§ 참여자의 목소리를 강조함
§ 작은 샘플 사이즈
정성(Qualitative) 정량(Quantitative)
§ 규모와 구조의 빈도를
평가함
§ 모집단에 대해 일반화함
§ 큰 샘플 사이즈
X
데이터라는 툴에만 한정하여 사람의 행동을 이해하는 것은 어렵다.
사람의 행동은 측정 불가능한 복합적인 요소에 의해 발생하며, 개인의
특성에 따라 수만가지의 서로 다른 행동이 발생 가능하다.
Key Takeaways
05

실무에서도 인과추론 더 잘 활용하고 싶습니다.
Analysts / Research Producers
실무에서 잘 쓰이는 인과추론
기법 위주로 메커니즘에 대해
확실히 이해함
Consumers of Research
비즈니스에 인과추론이 가져다줄
수 있는 기회에 대해 이해하고 더
활용될 수 있도록 함
좋은 순환이 발생하길
이를 위해 더 많은 자리에서 공유가 되고
실무에서 풀고 싶은 문제를 학계와 함께 이야기 할 수 있기를 희망
Key Takeaways
05

좋은 순환을 위해 노력 중인 커뮤니티가 있습니다.
PAP - Product Analytics Playground
§ 데이터 실무자들이 모인 프로덕트 데이터 분석 커뮤니티
§ 더 궁금하시다면 아래 커뮤니티로 오셔서 방문하세요.
PAP - Product
Analytics Playground
https://playinpap.github.io/category/causal-inference/
인과추론 글도 구경하세요!
https://www.facebook.com/groups/talkinpap
Key Takeaways
05

Q & A
LinkedIn
Medium Blog
bonniebkchoi@gmail.com

[Causal Inference Workshop 2022] Applications of Causal Inference in Product Analytics

Recommandé

Recommandé

Contenu connexe

Similaire à [Causal Inference Workshop 2022] Applications of Causal Inference in Product Analytics

Similaire à [Causal Inference Workshop 2022] Applications of Causal Inference in Product Analytics (20)

[Causal Inference Workshop 2022] Applications of Causal Inference in Product Analytics