SlideShare une entreprise Scribd logo
1  sur  33
February 2015
권재명
실리콘 밸리
데이터 사이언티스트의 하루
권재명
● 통계학자
o "빅데이터" + 머신 러닝 + 데이터 사이언스
● 경력
o Berkeley Transportation Systems (2000~2007): 대용량 교통 데이터
o Wichorus (2009): 와이파이 데이터 모델링
o AOL Platforms (2009-): 온라인 광고 데이터
o Percolata* (2015): 리테일 애널리틱 데이터
o Molocoads.com* (2015): 모빌 DSP
(* : 자문 / 투자)
2
실리콘 밸리 "데이터" 기업들
서비스 (검색,
추천, 뉴스, ...)
사용자
클릭, 구매, "
좋아요", ...
알고리즘 / 서
비스 개선
사용 데이터
서비스 이용
3
서비스 - 사용자 - 데
이터 선순환
(positive feedback)
데이터보다 성공적
인 서비스가 선행
광고 알고리즘
온라인 광고
사용자 (3rd
party)
광고 클릭 / 구
매
광고 알고리즘
개선
클릭 / 구매 데이터
온라인 광고
노출
4
빅데이터 / 데이터 사이언스 대
표 분야
하루에 몇조개의 관측치 생성
수백-수천개의 변량을 이용한
클릭/구매 예측모형
0.001초 내로 "클릭 확률 예측"
5
http://www.lumapartners.com/lumascapes/display-ad-tech-lumascape/
"빅데이터"
웹서버 로그. 검색엔진 문서 자료/인덱스. 온라인 광고 로그. 소셜 네트웍
로그. 교통자료. 과학 자료. 의료자료. 센서 자료. 사물인터넷...
컴한대로 저장/처리 불가 → 분산
기존 소프트웨어로 처리 불가 → 하둡+
수집 / 저장 / 처리 / 분석 / 예측
하둡과 아마존 웹 서비스 (AWS) 로 코모디티 화 완료
6
7
http://www.google.com/trends/
서비스-사용자-데이터 선순환
"간단한" 통계분석
애널리틱
리포팅
"복잡한" 통계
머신러닝
코어 알고리즘 개발
8
"데이터 인력"
데이터 인프라
온디매드 클라우드
컴퓨팅
오픈 소스 빅데이터
소프트웨어 (Hadoop)
데이터 엔
지니어
데이터 사이언
티스트
머신러닝 사이
언티스트
* 링크드인의 2014 구조조정
통계 / 머신 러닝
코딩
적용 영역 지식
데이터 사이언스
9
통계 / 머신
러닝
코딩 적용 영역 지
식
전통적인 통계학자
10
통계 / 머신 러닝
코딩
적용 영역 지식
"데이터 엔지니어"
11
통계 / 머신 러닝
코딩
적용 영역 지식
"데이터 사이언티스트"
12
통계 / 머신 러닝
코딩
적용 영역 지식
"머신러닝 사이언티스트" ("통계학자")
13
통계 / 머신 러닝
코딩
적용 영역 지식
네 직업군의 수요-공급*
14
머신 러닝 사이
언티스트
데이터 엔지니어
데이터 사이언
티스트
데이터 엔지니어
전통 통계학자
수요-공급 불균형의 이유?
"데이터 사이언티스트"로 입사한 똑똑한 이공계분야 신입사
원의 경우:
● 적용분야 지식: 1-3개월+
● 코딩: 6-12개월+
● 통계의 올바른 적용: 1년+
● 고급 모델링과 알고리즘 개발: 보통 석/박사를 뽑는다.
통계학 / 머신러닝이 쉽지 않다
15
16
http://scikit-learn.org/
예측 프로덕션 시스템
어려운 통계
모델 구축 (Build
model)
데이터 사이언티스트(팀)의 하루
자료 추출
(Acquire)
자료 청소
(Clean)
대화형 분석
(Interactive
Analysis)
시각화 분석
(Visual
Analysis)
탐색적 자료 분
석 (EDA)
자료 저장 / 관리
(Store)
자료 랭글링
(Wrangle)
스토리 텔링
(Story-telling)
보고서 쓰기
(Reporting)
엔지니어들과의 협
업
문제 정의
모델 디플로이
(Deploy Model)
모델 모니터
(Monitor model)
비즈니스의 필요
랩장/선임(chief scientist)의 리더쉽
연구원들간의 개방적인 토론
구글 닥을 통한 동기부여(motivation)와 요구사
항 (requirements) 공유
문제 정의
자료 추출
(Acquire)
Hadoop, RDBMS (SQL)
Python (Streaming), Hive ...
코딩 능력이 가장 많이 필요
보통 데이터 사이언티스트들이 자체적으로
해냄
종종 데이터 엔지니어들의 도움
Git 트랙킹 시작
자료 청소
(Clean)
생각보다 많은 시간이 걸림...
Unix + Python + R
스타일 가이드
(pylint, pep 8...)
Git 트랙킹
자료 저장 / 관리
(Store)
자료 랭글링
(Wrangle)
R (가끔 Python)
자료의 문제가 수시로
발견됨
Git 트랙킹
결과는 구글 닥 공유시각화 분석
(Visual
Analysis)
탐색적 자료 분
석 (EDA)
대화형 분석
(Interactive
Analysis)
R
통계 고수의 도움이 필요한
때
베이지안 모델
계층모형 (Hierarchical
model)
어려운 통계
스토리 텔링
(Story-telling)
고품질 작문 (writing)
고품질 시각화 (ggplot2)
구글 닥
팀내 공유 필수
전사 공유 권고
코드 리뷰
Git
보고서 쓰기
(Visual
Analysis)
프로덕션 시스템
모델 구축 (Build
model)
엔지니어들과의 협
업
모델 디플로이
(Deploy Model)
모델 모니터
(Monitor model)
Python (+R)
좀더 엄격한 코드 리뷰
요구사항은 Python Pseudocode로
Git 집중활용 (fork/pull model)
리서치 + 프로덕션 거리를 좁히려 노력
데이터 사이언스 툴채인
● Powerful text editor (Sublime)
● Python
● R / RStudio
● Unix / bash
● Git
● RDBMS (SQL)
● Google App / Slack / JIRA / ...: 개방된 협업
데이터 사이언스 베스트 프랙티스
26
1. 툴 채인 통일 (OSX/Unix, Sublime Editor, RStudio, ...)
2. 스타일 가이드 (R, Python, Bash, Java)
3. 도큐먼트 탬플릿
4. 적극적인 문서 / 코드 공유
5. 코드 리뷰 / 피어 코딩
6. 준-애자일 워크플로우 (Semi-Agile process)
7. 재생가능 연구 (reproducible research)
조금은 심한 개방 / 협업
28https://github.com/WhiteHouse/2016-budget-data https://www.atlassian.com/software/jira
https://www.atlassian.com/software/sourcetree/overviewhttps://www.atlassian.com/git/tutorials/comparing-workflows/gitflow-workflow
데이터 = 신호 + 잡음
y = μ + 𝜀
y = β x + 𝜀
사실 = 진실 + 우연
뉴스 = 역사 + 우연
주식주가 = 가치 + 우연
성공 = 실력 + 우연
통계적 세계관: 신호와 잡음
데이터 = 신호 + 잡음
오버피팅
오차한도 / 신뢰구간
샘플링 에러 ~ 1/sqrt(n)
한계효용 체감의 법칙
탐색적 자료분석 (EDA)
자료는 항상 오염되어 있다
베이지언 기법들 (데이터가 부족한 경우 / 초기화)
계층 모형 (변량이 많은 경우)
데이터 사이언스 필수 통계 개념들
데이터 사이언스의 사내 도입
데이터에 기반한 의사결정 문화가 선행되어야
"솔루션"은 상대적으로 덜 중요
데이터 사이언스 전문 인력 / 팀이 필요
애널리틱과 서비스를 만드는 팀은 보통 분리
통계 내공이 도움이 된다
"데이터 기업"은 데이터 사이언스 인력/팀에 충분한 독립성 부여
엔지니어 팀과의 긴밀한 협업과 소통이 중요
신뢰받는 테크 리더쉽 + 베스트 프랙티스
31
요약
1. 실리콘 벨리 데이터 기업들
2. 온라인 광고 사업
3. 데이터 사이언티스트, 데이터 엔지니어, 머신러닝 사이언티스트
4. 실리콘 벨리 데이터 사이언티스트의 하루
5. 데이터 사이언스 툴채인
6. 데이터 사이언스 베스트 프랙티스
7. 데이터 사이언스 필수 통계 개념
8. 사내 데이터 사이언스 도입
32
Q&A

Contenu connexe

Tendances

고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들Chris Ohk
 
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편Seongyun Byeon
 
성장을 좋아하는 사람이, 성장하고 싶은 사람에게
성장을 좋아하는 사람이, 성장하고 싶은 사람에게성장을 좋아하는 사람이, 성장하고 싶은 사람에게
성장을 좋아하는 사람이, 성장하고 싶은 사람에게Seongyun Byeon
 
데이터 분석가는 어떤 SKILLSET을 가져야 하는가? - 데이터 분석가 되기
데이터 분석가는 어떤 SKILLSET을 가져야 하는가?  - 데이터 분석가 되기데이터 분석가는 어떤 SKILLSET을 가져야 하는가?  - 데이터 분석가 되기
데이터 분석가는 어떤 SKILLSET을 가져야 하는가? - 데이터 분석가 되기Hui Seo
 
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기AWSKRUG - AWS한국사용자모임
 
Data pipeline and data lake
Data pipeline and data lakeData pipeline and data lake
Data pipeline and data lakeDaeMyung Kang
 
MOBILITY X DATA : 모빌리티 산업의 도전 과제
MOBILITY X DATA : 모빌리티 산업의 도전 과제MOBILITY X DATA : 모빌리티 산업의 도전 과제
MOBILITY X DATA : 모빌리티 산업의 도전 과제Seongyun Byeon
 
데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립승화 양
 
소프트웨어 부트캠프 설계 및 운영사례(42Seoul)
소프트웨어 부트캠프 설계 및 운영사례(42Seoul)소프트웨어 부트캠프 설계 및 운영사례(42Seoul)
소프트웨어 부트캠프 설계 및 운영사례(42Seoul)수보 김
 
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?Yongho Ha
 
로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법Jeongsang Baek
 
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )정혁 권
 
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화Minho Lee
 
화성에서 온 개발자, 금성에서 온 기획자
화성에서 온 개발자, 금성에서 온 기획자화성에서 온 개발자, 금성에서 온 기획자
화성에서 온 개발자, 금성에서 온 기획자Yongho Ha
 
효율적 데이터 과학을 위한 7가지 팁
효율적 데이터 과학을 위한 7가지 팁효율적 데이터 과학을 위한 7가지 팁
효율적 데이터 과학을 위한 7가지 팁Jaimie Kwon (권재명)
 
[KAIST 채용설명회] 데이터 엔지니어는 무슨 일을 하나요?
[KAIST 채용설명회] 데이터 엔지니어는 무슨 일을 하나요?[KAIST 채용설명회] 데이터 엔지니어는 무슨 일을 하나요?
[KAIST 채용설명회] 데이터 엔지니어는 무슨 일을 하나요?Juhong Park
 
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정Seongyun Byeon
 
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)Dylan Ko
 
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유Hyojun Jeon
 
Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라Seongyun Byeon
 

Tendances (20)

고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
 
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편
 
성장을 좋아하는 사람이, 성장하고 싶은 사람에게
성장을 좋아하는 사람이, 성장하고 싶은 사람에게성장을 좋아하는 사람이, 성장하고 싶은 사람에게
성장을 좋아하는 사람이, 성장하고 싶은 사람에게
 
데이터 분석가는 어떤 SKILLSET을 가져야 하는가? - 데이터 분석가 되기
데이터 분석가는 어떤 SKILLSET을 가져야 하는가?  - 데이터 분석가 되기데이터 분석가는 어떤 SKILLSET을 가져야 하는가?  - 데이터 분석가 되기
데이터 분석가는 어떤 SKILLSET을 가져야 하는가? - 데이터 분석가 되기
 
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기
 
Data pipeline and data lake
Data pipeline and data lakeData pipeline and data lake
Data pipeline and data lake
 
MOBILITY X DATA : 모빌리티 산업의 도전 과제
MOBILITY X DATA : 모빌리티 산업의 도전 과제MOBILITY X DATA : 모빌리티 산업의 도전 과제
MOBILITY X DATA : 모빌리티 산업의 도전 과제
 
데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립데이터가 흐르는 조직 만들기 - 마이리얼트립
데이터가 흐르는 조직 만들기 - 마이리얼트립
 
소프트웨어 부트캠프 설계 및 운영사례(42Seoul)
소프트웨어 부트캠프 설계 및 운영사례(42Seoul)소프트웨어 부트캠프 설계 및 운영사례(42Seoul)
소프트웨어 부트캠프 설계 및 운영사례(42Seoul)
 
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
 
로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법로그 기깔나게 잘 디자인하는 법
로그 기깔나게 잘 디자인하는 법
 
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
린분석 with 레진코믹스 ( Lean Analytics with Lezhin Comics )
 
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
그래프에서 대시보드까지, 서비스를 위한 데이터 시각화
 
화성에서 온 개발자, 금성에서 온 기획자
화성에서 온 개발자, 금성에서 온 기획자화성에서 온 개발자, 금성에서 온 기획자
화성에서 온 개발자, 금성에서 온 기획자
 
효율적 데이터 과학을 위한 7가지 팁
효율적 데이터 과학을 위한 7가지 팁효율적 데이터 과학을 위한 7가지 팁
효율적 데이터 과학을 위한 7가지 팁
 
[KAIST 채용설명회] 데이터 엔지니어는 무슨 일을 하나요?
[KAIST 채용설명회] 데이터 엔지니어는 무슨 일을 하나요?[KAIST 채용설명회] 데이터 엔지니어는 무슨 일을 하나요?
[KAIST 채용설명회] 데이터 엔지니어는 무슨 일을 하나요?
 
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정
TF에서 팀 빌딩까지 9개월의 기록 : 성장하는 조직을 만드는 여정
 
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)
그로스 해킹 & 데이터 프로덕트 (Growth Hacking & Data Product) - 고넥터 고영혁 (Gonnector Dylan Ko)
 
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유
 
Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라Little Big Data #1. 바닥부터 시작하는 데이터 인프라
Little Big Data #1. 바닥부터 시작하는 데이터 인프라
 

En vedette

분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질Sun Young Kim
 
Python 오픈소스의 네이밍 특징들-파이콘격월세미나
Python 오픈소스의 네이밍 특징들-파이콘격월세미나Python 오픈소스의 네이밍 특징들-파이콘격월세미나
Python 오픈소스의 네이밍 특징들-파이콘격월세미나choi kyumin
 
ML + 주식 phase 2
ML + 주식  phase 2ML + 주식  phase 2
ML + 주식 phase 2HoChul Shin
 
머신러닝 + 주식 삽질기
머신러닝 + 주식 삽질기머신러닝 + 주식 삽질기
머신러닝 + 주식 삽질기HoChul Shin
 
세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표
세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표
세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표cbs15min
 
세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장
세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장
세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장cbs15min
 
Jupyter notebook 이해하기
Jupyter notebook 이해하기 Jupyter notebook 이해하기
Jupyter notebook 이해하기 Yong Joon Moon
 
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기 [데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기 choi kyumin
 
2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요
2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요
2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요Yongho Ha
 
Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례
Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례
Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례Jemin Huh
 
스프링 부트와 로깅
스프링 부트와 로깅스프링 부트와 로깅
스프링 부트와 로깅Keesun Baik
 
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?Yongho Ha
 
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Yongho Ha
 
중국 VR 보고서 - 2016
중국 VR 보고서 - 2016중국 VR 보고서 - 2016
중국 VR 보고서 - 2016Brandon Lee
 

En vedette (14)

분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질
 
Python 오픈소스의 네이밍 특징들-파이콘격월세미나
Python 오픈소스의 네이밍 특징들-파이콘격월세미나Python 오픈소스의 네이밍 특징들-파이콘격월세미나
Python 오픈소스의 네이밍 특징들-파이콘격월세미나
 
ML + 주식 phase 2
ML + 주식  phase 2ML + 주식  phase 2
ML + 주식 phase 2
 
머신러닝 + 주식 삽질기
머신러닝 + 주식 삽질기머신러닝 + 주식 삽질기
머신러닝 + 주식 삽질기
 
세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표
세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표
세바시15분 게임으로 세상을 바꾸다 - 피터리 놀공발전소 대표
 
세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장
세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장
세바시15분 스마트폰으로부터 아이를 구출하라 - 권장희 놀이미디어교육센터 소장
 
Jupyter notebook 이해하기
Jupyter notebook 이해하기 Jupyter notebook 이해하기
Jupyter notebook 이해하기
 
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기 [데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
[데이터야놀자2107] 강남 출근길에 판교/정자역에 내릴 사람 예측하기
 
2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요
2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요
2011 H3 컨퍼런스-파이썬으로 클라우드 하고 싶어요
 
Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례
Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례
Spring boot 를 적용한 전사모니터링 시스템 backend 개발 사례
 
스프링 부트와 로깅
스프링 부트와 로깅스프링 부트와 로깅
스프링 부트와 로깅
 
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?
 
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)
 
중국 VR 보고서 - 2016
중국 VR 보고서 - 2016중국 VR 보고서 - 2016
중국 VR 보고서 - 2016
 

Similaire à 실리콘 밸리 데이터 사이언티스트의 하루

AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)Amazon Web Services Korea
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)Metatron
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdfYunjeong Susan Hong
 
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Amazon Web Services Korea
 
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture상래 노
 
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining [Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining SuHyun Jeon
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScienceNAVER D2
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 AWSKRUG - AWS한국사용자모임
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020Jinwoong Kim
 
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아K data
 
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2BruceDong WinnersLab
 
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼ABRC_DATA
 
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)Treasure Data, Inc.
 
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례Amazon Web Services Korea
 
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장eungjin cho
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드kosena
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망Open Cyber University of Korea
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
 
링크브릭스 2019
링크브릭스 2019링크브릭스 2019
링크브릭스 2019Sangkyu Kim
 
Week1 ot
Week1 otWeek1 ot
Week1 otEun Yu
 

Similaire à 실리콘 밸리 데이터 사이언티스트의 하루 (20)

AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf
 
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
 
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
2019.06 devgroud kurly-advanced analyticsteam-aboutourdataculture
 
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining [Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
 
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
 
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
발표자료 4차 산업혁명 시대를 선도하는 스타트업분석 동우상_170720_v1.2
 
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
빅데이터 윈윈 컨퍼런스-4차 산업혁명 핵심:데이터 가공 플랫폼
 
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
 
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
 
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
 
링크브릭스 2019
링크브릭스 2019링크브릭스 2019
링크브릭스 2019
 
Week1 ot
Week1 otWeek1 ot
Week1 ot
 

실리콘 밸리 데이터 사이언티스트의 하루

  • 2. 권재명 ● 통계학자 o "빅데이터" + 머신 러닝 + 데이터 사이언스 ● 경력 o Berkeley Transportation Systems (2000~2007): 대용량 교통 데이터 o Wichorus (2009): 와이파이 데이터 모델링 o AOL Platforms (2009-): 온라인 광고 데이터 o Percolata* (2015): 리테일 애널리틱 데이터 o Molocoads.com* (2015): 모빌 DSP (* : 자문 / 투자) 2
  • 3. 실리콘 밸리 "데이터" 기업들 서비스 (검색, 추천, 뉴스, ...) 사용자 클릭, 구매, " 좋아요", ... 알고리즘 / 서 비스 개선 사용 데이터 서비스 이용 3 서비스 - 사용자 - 데 이터 선순환 (positive feedback) 데이터보다 성공적 인 서비스가 선행
  • 4. 광고 알고리즘 온라인 광고 사용자 (3rd party) 광고 클릭 / 구 매 광고 알고리즘 개선 클릭 / 구매 데이터 온라인 광고 노출 4 빅데이터 / 데이터 사이언스 대 표 분야 하루에 몇조개의 관측치 생성 수백-수천개의 변량을 이용한 클릭/구매 예측모형 0.001초 내로 "클릭 확률 예측"
  • 6. "빅데이터" 웹서버 로그. 검색엔진 문서 자료/인덱스. 온라인 광고 로그. 소셜 네트웍 로그. 교통자료. 과학 자료. 의료자료. 센서 자료. 사물인터넷... 컴한대로 저장/처리 불가 → 분산 기존 소프트웨어로 처리 불가 → 하둡+ 수집 / 저장 / 처리 / 분석 / 예측 하둡과 아마존 웹 서비스 (AWS) 로 코모디티 화 완료 6
  • 8. 서비스-사용자-데이터 선순환 "간단한" 통계분석 애널리틱 리포팅 "복잡한" 통계 머신러닝 코어 알고리즘 개발 8 "데이터 인력" 데이터 인프라 온디매드 클라우드 컴퓨팅 오픈 소스 빅데이터 소프트웨어 (Hadoop) 데이터 엔 지니어 데이터 사이언 티스트 머신러닝 사이 언티스트 * 링크드인의 2014 구조조정
  • 9. 통계 / 머신 러닝 코딩 적용 영역 지식 데이터 사이언스 9 통계 / 머신 러닝 코딩 적용 영역 지 식
  • 10. 전통적인 통계학자 10 통계 / 머신 러닝 코딩 적용 영역 지식
  • 11. "데이터 엔지니어" 11 통계 / 머신 러닝 코딩 적용 영역 지식
  • 12. "데이터 사이언티스트" 12 통계 / 머신 러닝 코딩 적용 영역 지식
  • 13. "머신러닝 사이언티스트" ("통계학자") 13 통계 / 머신 러닝 코딩 적용 영역 지식
  • 14. 네 직업군의 수요-공급* 14 머신 러닝 사이 언티스트 데이터 엔지니어 데이터 사이언 티스트 데이터 엔지니어 전통 통계학자
  • 15. 수요-공급 불균형의 이유? "데이터 사이언티스트"로 입사한 똑똑한 이공계분야 신입사 원의 경우: ● 적용분야 지식: 1-3개월+ ● 코딩: 6-12개월+ ● 통계의 올바른 적용: 1년+ ● 고급 모델링과 알고리즘 개발: 보통 석/박사를 뽑는다. 통계학 / 머신러닝이 쉽지 않다 15
  • 17. 예측 프로덕션 시스템 어려운 통계 모델 구축 (Build model) 데이터 사이언티스트(팀)의 하루 자료 추출 (Acquire) 자료 청소 (Clean) 대화형 분석 (Interactive Analysis) 시각화 분석 (Visual Analysis) 탐색적 자료 분 석 (EDA) 자료 저장 / 관리 (Store) 자료 랭글링 (Wrangle) 스토리 텔링 (Story-telling) 보고서 쓰기 (Reporting) 엔지니어들과의 협 업 문제 정의 모델 디플로이 (Deploy Model) 모델 모니터 (Monitor model)
  • 18. 비즈니스의 필요 랩장/선임(chief scientist)의 리더쉽 연구원들간의 개방적인 토론 구글 닥을 통한 동기부여(motivation)와 요구사 항 (requirements) 공유 문제 정의
  • 19. 자료 추출 (Acquire) Hadoop, RDBMS (SQL) Python (Streaming), Hive ... 코딩 능력이 가장 많이 필요 보통 데이터 사이언티스트들이 자체적으로 해냄 종종 데이터 엔지니어들의 도움 Git 트랙킹 시작
  • 20. 자료 청소 (Clean) 생각보다 많은 시간이 걸림... Unix + Python + R 스타일 가이드 (pylint, pep 8...) Git 트랙킹 자료 저장 / 관리 (Store) 자료 랭글링 (Wrangle)
  • 21. R (가끔 Python) 자료의 문제가 수시로 발견됨 Git 트랙킹 결과는 구글 닥 공유시각화 분석 (Visual Analysis) 탐색적 자료 분 석 (EDA) 대화형 분석 (Interactive Analysis)
  • 22. R 통계 고수의 도움이 필요한 때 베이지안 모델 계층모형 (Hierarchical model) 어려운 통계
  • 23. 스토리 텔링 (Story-telling) 고품질 작문 (writing) 고품질 시각화 (ggplot2) 구글 닥 팀내 공유 필수 전사 공유 권고 코드 리뷰 Git 보고서 쓰기 (Visual Analysis)
  • 24. 프로덕션 시스템 모델 구축 (Build model) 엔지니어들과의 협 업 모델 디플로이 (Deploy Model) 모델 모니터 (Monitor model) Python (+R) 좀더 엄격한 코드 리뷰 요구사항은 Python Pseudocode로 Git 집중활용 (fork/pull model) 리서치 + 프로덕션 거리를 좁히려 노력
  • 25. 데이터 사이언스 툴채인 ● Powerful text editor (Sublime) ● Python ● R / RStudio ● Unix / bash ● Git ● RDBMS (SQL) ● Google App / Slack / JIRA / ...: 개방된 협업
  • 26. 데이터 사이언스 베스트 프랙티스 26 1. 툴 채인 통일 (OSX/Unix, Sublime Editor, RStudio, ...) 2. 스타일 가이드 (R, Python, Bash, Java) 3. 도큐먼트 탬플릿 4. 적극적인 문서 / 코드 공유 5. 코드 리뷰 / 피어 코딩 6. 준-애자일 워크플로우 (Semi-Agile process) 7. 재생가능 연구 (reproducible research) 조금은 심한 개방 / 협업
  • 27.
  • 29. 데이터 = 신호 + 잡음 y = μ + 𝜀 y = β x + 𝜀 사실 = 진실 + 우연 뉴스 = 역사 + 우연 주식주가 = 가치 + 우연 성공 = 실력 + 우연 통계적 세계관: 신호와 잡음
  • 30. 데이터 = 신호 + 잡음 오버피팅 오차한도 / 신뢰구간 샘플링 에러 ~ 1/sqrt(n) 한계효용 체감의 법칙 탐색적 자료분석 (EDA) 자료는 항상 오염되어 있다 베이지언 기법들 (데이터가 부족한 경우 / 초기화) 계층 모형 (변량이 많은 경우) 데이터 사이언스 필수 통계 개념들
  • 31. 데이터 사이언스의 사내 도입 데이터에 기반한 의사결정 문화가 선행되어야 "솔루션"은 상대적으로 덜 중요 데이터 사이언스 전문 인력 / 팀이 필요 애널리틱과 서비스를 만드는 팀은 보통 분리 통계 내공이 도움이 된다 "데이터 기업"은 데이터 사이언스 인력/팀에 충분한 독립성 부여 엔지니어 팀과의 긴밀한 협업과 소통이 중요 신뢰받는 테크 리더쉽 + 베스트 프랙티스 31
  • 32. 요약 1. 실리콘 벨리 데이터 기업들 2. 온라인 광고 사업 3. 데이터 사이언티스트, 데이터 엔지니어, 머신러닝 사이언티스트 4. 실리콘 벨리 데이터 사이언티스트의 하루 5. 데이터 사이언스 툴채인 6. 데이터 사이언스 베스트 프랙티스 7. 데이터 사이언스 필수 통계 개념 8. 사내 데이터 사이언스 도입 32
  • 33. Q&A