(오리지널 구글 프리젠테이션은 http://goo.gl/uiX2UH 에)
- 권재명 (Jaimyoung Kwon)
1. 실리콘 벨리 데이터 기업들
2. 온라인 광고 사업
3. 데이터 사이언티스트, 데이터 엔지니어, 머신러닝 사이언티스트
4. 실리콘 벨리 데이터 사이언티스트의 하루
5. 데이터 사이언스 툴채인
6. 데이터 사이언스 베스트 프랙티스
7. 데이터 사이언스 필수 통계 개념
8. 사내 데이터 사이언스 도입
2. 권재명
● 통계학자
o "빅데이터" + 머신 러닝 + 데이터 사이언스
● 경력
o Berkeley Transportation Systems (2000~2007): 대용량 교통 데이터
o Wichorus (2009): 와이파이 데이터 모델링
o AOL Platforms (2009-): 온라인 광고 데이터
o Percolata* (2015): 리테일 애널리틱 데이터
o Molocoads.com* (2015): 모빌 DSP
(* : 자문 / 투자)
2
3. 실리콘 밸리 "데이터" 기업들
서비스 (검색,
추천, 뉴스, ...)
사용자
클릭, 구매, "
좋아요", ...
알고리즘 / 서
비스 개선
사용 데이터
서비스 이용
3
서비스 - 사용자 - 데
이터 선순환
(positive feedback)
데이터보다 성공적
인 서비스가 선행
4. 광고 알고리즘
온라인 광고
사용자 (3rd
party)
광고 클릭 / 구
매
광고 알고리즘
개선
클릭 / 구매 데이터
온라인 광고
노출
4
빅데이터 / 데이터 사이언스 대
표 분야
하루에 몇조개의 관측치 생성
수백-수천개의 변량을 이용한
클릭/구매 예측모형
0.001초 내로 "클릭 확률 예측"
6. "빅데이터"
웹서버 로그. 검색엔진 문서 자료/인덱스. 온라인 광고 로그. 소셜 네트웍
로그. 교통자료. 과학 자료. 의료자료. 센서 자료. 사물인터넷...
컴한대로 저장/처리 불가 → 분산
기존 소프트웨어로 처리 불가 → 하둡+
수집 / 저장 / 처리 / 분석 / 예측
하둡과 아마존 웹 서비스 (AWS) 로 코모디티 화 완료
6
8. 서비스-사용자-데이터 선순환
"간단한" 통계분석
애널리틱
리포팅
"복잡한" 통계
머신러닝
코어 알고리즘 개발
8
"데이터 인력"
데이터 인프라
온디매드 클라우드
컴퓨팅
오픈 소스 빅데이터
소프트웨어 (Hadoop)
데이터 엔
지니어
데이터 사이언
티스트
머신러닝 사이
언티스트
* 링크드인의 2014 구조조정
9. 통계 / 머신 러닝
코딩
적용 영역 지식
데이터 사이언스
9
통계 / 머신
러닝
코딩 적용 영역 지
식
17. 예측 프로덕션 시스템
어려운 통계
모델 구축 (Build
model)
데이터 사이언티스트(팀)의 하루
자료 추출
(Acquire)
자료 청소
(Clean)
대화형 분석
(Interactive
Analysis)
시각화 분석
(Visual
Analysis)
탐색적 자료 분
석 (EDA)
자료 저장 / 관리
(Store)
자료 랭글링
(Wrangle)
스토리 텔링
(Story-telling)
보고서 쓰기
(Reporting)
엔지니어들과의 협
업
문제 정의
모델 디플로이
(Deploy Model)
모델 모니터
(Monitor model)
29. 데이터 = 신호 + 잡음
y = μ + 𝜀
y = β x + 𝜀
사실 = 진실 + 우연
뉴스 = 역사 + 우연
주식주가 = 가치 + 우연
성공 = 실력 + 우연
통계적 세계관: 신호와 잡음
30. 데이터 = 신호 + 잡음
오버피팅
오차한도 / 신뢰구간
샘플링 에러 ~ 1/sqrt(n)
한계효용 체감의 법칙
탐색적 자료분석 (EDA)
자료는 항상 오염되어 있다
베이지언 기법들 (데이터가 부족한 경우 / 초기화)
계층 모형 (변량이 많은 경우)
데이터 사이언스 필수 통계 개념들
31. 데이터 사이언스의 사내 도입
데이터에 기반한 의사결정 문화가 선행되어야
"솔루션"은 상대적으로 덜 중요
데이터 사이언스 전문 인력 / 팀이 필요
애널리틱과 서비스를 만드는 팀은 보통 분리
통계 내공이 도움이 된다
"데이터 기업"은 데이터 사이언스 인력/팀에 충분한 독립성 부여
엔지니어 팀과의 긴밀한 협업과 소통이 중요
신뢰받는 테크 리더쉽 + 베스트 프랙티스
31
32. 요약
1. 실리콘 벨리 데이터 기업들
2. 온라인 광고 사업
3. 데이터 사이언티스트, 데이터 엔지니어, 머신러닝 사이언티스트
4. 실리콘 벨리 데이터 사이언티스트의 하루
5. 데이터 사이언스 툴채인
6. 데이터 사이언스 베스트 프랙티스
7. 데이터 사이언스 필수 통계 개념
8. 사내 데이터 사이언스 도입
32