실리콘 밸리 데이터 사이언티스트의 하루

February 2015
권재명
실리콘 밸리
데이터 사이언티스트의 하루

권재명
● 통계학자
o "빅데이터" + 머신 러닝 + 데이터 사이언스
● 경력
o Berkeley Transportation Systems (2000~2007): 대용량 교통 데이터
o Wichorus (2009): 와이파이 데이터 모델링
o AOL Platforms (2009-): 온라인 광고 데이터
o Percolata* (2015): 리테일 애널리틱 데이터
o Molocoads.com* (2015): 모빌 DSP
(* : 자문 / 투자)
2

실리콘 밸리 "데이터" 기업들
서비스 (검색,
추천, 뉴스, ...)
사용자
클릭, 구매, "
좋아요", ...
알고리즘 / 서
비스 개선
사용 데이터
서비스 이용
3
서비스 - 사용자 - 데
이터 선순환
(positive feedback)
데이터보다 성공적
인 서비스가 선행

광고 알고리즘
온라인 광고
사용자 (3rd
party)
광고 클릭 / 구
매
광고 알고리즘
개선
클릭 / 구매 데이터
온라인 광고
노출
4
빅데이터 / 데이터 사이언스 대
표 분야
하루에 몇조개의 관측치 생성
수백-수천개의 변량을 이용한
클릭/구매 예측모형
0.001초 내로 "클릭 확률 예측"

5
http://www.lumapartners.com/lumascapes/display-ad-tech-lumascape/

"빅데이터"
웹서버 로그. 검색엔진 문서 자료/인덱스. 온라인 광고 로그. 소셜 네트웍
로그. 교통자료. 과학 자료. 의료자료. 센서 자료. 사물인터넷...
컴한대로 저장/처리 불가 → 분산
기존 소프트웨어로 처리 불가 → 하둡+
수집 / 저장 / 처리 / 분석 / 예측
하둡과 아마존 웹 서비스 (AWS) 로 코모디티 화 완료
6

7
http://www.google.com/trends/

서비스-사용자-데이터 선순환
"간단한" 통계분석
애널리틱
리포팅
"복잡한" 통계
머신러닝
코어 알고리즘 개발
8
"데이터 인력"
데이터 인프라
온디매드 클라우드
컴퓨팅
오픈 소스 빅데이터
소프트웨어 (Hadoop)
데이터 엔
지니어
데이터 사이언
티스트
머신러닝 사이
언티스트
* 링크드인의 2014 구조조정

통계 / 머신 러닝
코딩
적용 영역 지식
데이터 사이언스
9
통계 / 머신
러닝
코딩 적용 영역 지
식

전통적인 통계학자
10
코딩

"데이터 엔지니어"
11
코딩

"데이터 사이언티스트"
12
코딩

"머신러닝 사이언티스트" ("통계학자")
13
코딩

네 직업군의 수요-공급*
14
머신 러닝 사이
언티스트
데이터 엔지니어
데이터 사이언
티스트
데이터 엔지니어
전통 통계학자

수요-공급 불균형의 이유?
"데이터 사이언티스트"로 입사한 똑똑한 이공계분야 신입사
원의 경우:
● 적용분야 지식: 1-3개월+
● 코딩: 6-12개월+
● 통계의 올바른 적용: 1년+
● 고급 모델링과 알고리즘 개발: 보통 석/박사를 뽑는다.
통계학 / 머신러닝이 쉽지 않다
15

예측 프로덕션 시스템
어려운 통계
모델 구축 (Build
model)
데이터 사이언티스트(팀)의 하루
자료 추출
(Acquire)
자료 청소
(Clean)
대화형 분석
(Interactive
Analysis)
시각화 분석
(Visual
Analysis)
탐색적 자료 분
석 (EDA)
자료 저장 / 관리
(Store)
자료 랭글링
(Wrangle)
스토리 텔링
(Story-telling)
보고서 쓰기
(Reporting)
엔지니어들과의 협
업
문제 정의
모델 디플로이
(Deploy Model)
모델 모니터
(Monitor model)

비즈니스의 필요
랩장/선임(chief scientist)의 리더쉽
연구원들간의 개방적인 토론
구글 닥을 통한 동기부여(motivation)와 요구사
항 (requirements) 공유
문제 정의

자료 추출
(Acquire)
Hadoop, RDBMS (SQL)
Python (Streaming), Hive ...
코딩 능력이 가장 많이 필요
보통 데이터 사이언티스트들이 자체적으로
해냄
종종 데이터 엔지니어들의 도움
Git 트랙킹 시작

자료 청소
(Clean)
생각보다 많은 시간이 걸림...
Unix + Python + R
스타일 가이드
(pylint, pep 8...)
Git 트랙킹
자료 저장 / 관리
(Store)
자료 랭글링
(Wrangle)

R (가끔 Python)
자료의 문제가 수시로
발견됨
Git 트랙킹
결과는 구글 닥 공유시각화 분석
(Visual
Analysis)
탐색적 자료 분
석 (EDA)
대화형 분석
(Interactive
Analysis)

R
통계 고수의 도움이 필요한
때
베이지안 모델
계층모형 (Hierarchical
model)
어려운 통계

스토리 텔링
(Story-telling)
고품질 작문 (writing)
고품질 시각화 (ggplot2)
구글 닥
팀내 공유 필수
전사 공유 권고
코드 리뷰
Git
보고서 쓰기
(Visual
Analysis)

프로덕션 시스템
모델 구축 (Build
model)
엔지니어들과의 협
업
모델 디플로이
(Deploy Model)
모델 모니터
(Monitor model)
Python (+R)
좀더 엄격한 코드 리뷰
요구사항은 Python Pseudocode로
Git 집중활용 (fork/pull model)
리서치 + 프로덕션 거리를 좁히려 노력

데이터 사이언스 툴채인
● Powerful text editor (Sublime)
● Python
● R / RStudio
● Unix / bash
● Git
● RDBMS (SQL)
● Google App / Slack / JIRA / ...: 개방된 협업

데이터 사이언스 베스트 프랙티스
26
1. 툴 채인 통일 (OSX/Unix, Sublime Editor, RStudio, ...)
2. 스타일 가이드 (R, Python, Bash, Java)
3. 도큐먼트 탬플릿
4. 적극적인 문서 / 코드 공유
5. 코드 리뷰 / 피어 코딩
6. 준-애자일 워크플로우 (Semi-Agile process)
7. 재생가능 연구 (reproducible research)
조금은 심한 개방 / 협업

28https://github.com/WhiteHouse/2016-budget-data https://www.atlassian.com/software/jira
https://www.atlassian.com/software/sourcetree/overviewhttps://www.atlassian.com/git/tutorials/comparing-workflows/gitflow-workflow

데이터 = 신호 + 잡음
y = μ + 𝜀
y = β x + 𝜀
사실 = 진실 + 우연
뉴스 = 역사 + 우연
주식주가 = 가치 + 우연
성공 = 실력 + 우연
통계적 세계관: 신호와 잡음

데이터 = 신호 + 잡음
오버피팅
오차한도 / 신뢰구간
샘플링 에러 ~ 1/sqrt(n)
한계효용 체감의 법칙
탐색적 자료분석 (EDA)
자료는 항상 오염되어 있다
베이지언 기법들 (데이터가 부족한 경우 / 초기화)
계층 모형 (변량이 많은 경우)
데이터 사이언스 필수 통계 개념들

데이터 사이언스의 사내 도입
데이터에 기반한 의사결정 문화가 선행되어야
"솔루션"은 상대적으로 덜 중요
데이터 사이언스 전문 인력 / 팀이 필요
애널리틱과 서비스를 만드는 팀은 보통 분리
통계 내공이 도움이 된다
"데이터 기업"은 데이터 사이언스 인력/팀에 충분한 독립성 부여
엔지니어 팀과의 긴밀한 협업과 소통이 중요
신뢰받는 테크 리더쉽 + 베스트 프랙티스
31

요약
1. 실리콘 벨리 데이터 기업들
2. 온라인 광고 사업
3. 데이터 사이언티스트, 데이터 엔지니어, 머신러닝 사이언티스트
4. 실리콘 벨리 데이터 사이언티스트의 하루
5. 데이터 사이언스 툴채인
6. 데이터 사이언스 베스트 프랙티스
7. 데이터 사이언스 필수 통계 개념
8. 사내 데이터 사이언스 도입
32

실리콘 밸리 데이터 사이언티스트의 하루

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (14)

Similaire à 실리콘 밸리 데이터 사이언티스트의 하루

Similaire à 실리콘 밸리 데이터 사이언티스트의 하루 (20)

실리콘 밸리 데이터 사이언티스트의 하루