2. 가상의 그분의 대사
유저 로그 데이터도 전부 모으고 있고,
하둡 클러스터도 다 구축 했습니다.
이제 빅데이터로 뭐 그럴듯 한 거 하기만 하면 됩니다.
-어떤 데이터 팀 팀장
http://www.resumeexamplesweb.com/images/combination-resume.jpg
3. 가상의 그분의 대사
유저 로그 데이터도 전부 모으고 있고,
하둡 클러스터도 다 구축 했습니다.
이제 빅데이터로 뭐 그럴듯 한 거 하기만 하면 됩니다.
-어떤 데이터 팀 팀장
5. 본 발표는 공개되어있는 링크드인의 연구/발표자료등을 토대로 만들어졌습니다.
하지만 발표에서 제시되는 의견들은 저 개인의 것이며, 링크드인의 공식적인 입장과는 상이할 수 있습니다.
6. 오늘의 발표
1. Big Data의 3요소 + 2목표
2. Data Science란?
3. Data Science @ Linkedin
- Data Product: People You May Know
- Data Analytics: Skills
4.결론
7. 빅데이터의 정의
인터넷을 사용하는 사람들에 의해 발생하는 굉장히 큰 데이터 셋을 지칭하며
특별한 툴과 방법론을 이용해서만 저장,이해 및 사용 될 수 있다
– 캠브리지 사전
8. + 빅데이터의 – 3 요소와 2 목표
툴
3 요소 2 목표
큰 데이터
셋
이해:
Data Analytics
방법론 사용:
Data Products
http://icons.iconarchive.com/icons/icons8/ios7/128/Data-Mind-Map-icon.png, http://www.clker.com/clipart-white-tool-box.html, http://www.publicdomainpictures.net/pictures/40000/nahled/question-mark.jpg,
http://www.flaticon.com/free-icon/data-analytics-graphic-on-a-presentation-screen_38897,
https://www.iconfinder.com/icons/198841/box_bundle_cargo_freight_gift_load_loading_package_parcel_product_icon
9. + 목표 1. 이해 – Data Analytics
기존 데이터를 분석하여 새로운 인사이트를 찾아내는 것
http://en.wikipedia.org/wiki/File:Google_Analytics_Sample_Dashboard.jpg
10. + 목표 2. 사용 – Data Product
추천, 검색, 개인화 등 사용자에게 보여지는 제품에 데이터를 기반으로
한 알고리즘이 깊이 녹아들어가 있는 제품.
데이터를 통해 유저의 만족을 극대화하는 것이 목표.
11. + 요소 1. 굉장히 큰 데이터 set
인류문명이 시작된 이래 2003년까지 만들어진 데이터양은 통틀어
5엑사바이트에 불과했습니다. 지금은 이틀마다 그만큼씩의 데이터가 새로
추가되고 있으며, 이 속도는 점점 빨라지고 있습니다. –에릭 슈미트, Technomy
2010
기회&도전
http://en.wikipedia.org/wiki/File:Google_Analytics_Sample_Dashboard.jpg
18. 오늘의 발표
1. Big Data의 3요소 + 2목표
2. Data Science란?
3. Data Science @ Linkedin
- Data Product: People You May Know
- Data Analytics: Skills
4.결론
19. + 데이터 사이언스란?
데이터
사이언스
방법론
hhttp://www.iconpng.com/icon/58699
20. + 데이터 사이언스란?
Data Science 는 데이터로부터 일반화 가능한 지식을 추출하는
학문으로써, 키워드는 “Science”이다. Data Science는 signal
processing, mathematics, probability models, machine learning,
statistical learning, computer programming, data engineering, pattern
recognition and learning, visualization, uncertainty modeling, data
warehousing, and high performance computing 등 다양한 분야의
학문을 접목시켜서, 데이터로부터 의미를 추출하거나 데이터
프로덕트를 만드는 것을 목표로 한다. …
-en.wikipedia.org, “data science”
21. + 데이터 사이언스란?
http://www.jumpgate.io/assets/img/datascience.jpg
22. + 빅데이터의 – 3 요소와 2 목표
툴
3 요소 2 목표
큰 데이터
셋
이해:
Data Analytics
방법론 사용:
Data Products
23. + 빅데이터의 – 3 요소와 2 목표
툴
3 요소 2 목표
큰 데이터
셋
이해:
Data Analytics
사용:
Data Products
데이터
사이언스
24. + 왜 과학인가?
과학적 방법론을 사용하기 때문
가설 설정:
Hypothesis
모델 수립:
Model
실험:
A/B Testing
입증 / 반증
25. + 과학적 방법론: 가설 설정 / 모델 수립
유저의 행동을 잘 설명할 수 있는 가설을 설정:
한국인일수록 LOL 실력이 좋다?
코딩을 한 기간이 길수록 연봉이 높다?
가설을 바탕으로 수학적 모델을 수립:
P(LOL 플래티넘 랭크) = 0.5 + if(한국인 == true) 0.2, else -0.2
연봉 = 평균 연봉 * (1 + (코딩 한 년수 / 100년))
26. + 과학적 방법론: 실험 – A/B Testing
서로 다른 모델을 통해 만들어진 결과물을 서로 다른 유저 그룹에게
동시에 보여주며 반응을 측정.
변인통제가 중요 – 실험하고자 하는 모델의 결과물(조작변인) 이외에
다른 변인들은 일치해야한다. => 랜덤하게 유저 그룹을 선택
http://cartytrax.com/split-testing-for-e-commerce
27. + 과학적 방법론: 실험 – A/B Testing
버락 오바마 미국 대통령의 선거 캠페인
28. + 과학적 방법론: 실험 – A/B Testing
A/B/C/D/E/F …… Testing?
야후의 CEO 마리사 메이어는 구글 재직 시절 여러가지로 유명하지만,
“40 shades of blue” 는 그녀의 성향을 특히 더 잘 설명합니다. Google
Mail 과 Google page에서 보여지는 파란색을 결정하기 위해서, 그녀는
서로 다른 음영의 40가지의 파란색이 각각 2.5%의 사용자에게 보여지게
하였습니다.가장 많은 클릭을 받은 파란색이 여러분들이 오늘날 Google
과 Google Mail에서 보는 파란색입니다. - http://www.theguardian.com/
http://commons.wikimedia.org/wiki/File:Color_gradient_map_(blue)_palette.png
29. + 과학적 방법론: 입증/반증
입증된 모델의 경우:
가설을 받아들임 and 데이터 프로덕트에 적용
반증된 모델의 경우:
가설/모델/실험 단계에서 잘못된 점을 검토
30. 오늘의 발표
1. Big Data의 3요소 + 2목표
2. Data Science란?
3. Data Science @ Linkedin
- Data Product: People You May Know
- Data Analytics: Skills
4.결론
33. + 링크드인의 데이터 프로덕트들
Skills and Endorsements – 누구의 어떤 스킬을 승인(like)할 것인가?
34. + 링크드인의 데이터 프로덕트들
Jobs You May be Interested In – 어떤 새 직장에 관심이 있을 것인가?
News Recommendation – 어떤 뉴스를 읽고 싶은가?
Feed – 유저가 관심가질만한 정보로 이루어진 메인 페이지
35. + 특징 1. Big Data Ecosystem
하둡 클러스터 Key/Value Storage
유저 인터랙션 데이터
36. + 특징 2. 오픈소스의 활용
Apache Hadoop: 분산 처리 시스템
Apache Kafka: 분산 메세징 시스템
Azkaban: 웹 기반 하둡 scheduler
Voldemort: Key/Value Storage
Apache Pig: 하둡 쿼리 언어
DataFu: 피그용 UDF 모음
37. + 특징 3. Encapsulation
시스템에 대해 잘 모르는 데이터 사이언티스트가 Recommendation
Algorithm을 만들고 싶다면?
Analytics/Modeling Layer
R, Linkedin’s Azkaban(Hadoop workflow management),
Apache Pig, LinkedIn’s DataFu
Infrastructure Layer
Hadoop, LinkedIn’s Voldemort(Key/Value storage)
데이터 모델링, 분석 레벨의 지식과
인프라스트럭쳐 레벨의 지식이 분리됨.
38. 오늘의 발표
1. Big Data의 3요소 + 2목표
2. Data Science란?
3. Data Science @ Linkedin
- Data Product: People You May Know
- Data Analytics: Skills
4.결론
40. + People You May Know?
소셜 네트워크 그래프 상에서의 Link Prediction 문제
?
41. + People You May Know - HowTo
1. 기존의 유저 데이터를 활용, 머신 러닝 모델을 Train
Model Training
http://www.vorterix.com/malditosnerds/notas/4918/los-creadores-de-siri-preparan-algo-especial.html
42. + People You May Know - HowTo
2. Hadoop Flow 를 통해, 추천 데이터 생성
46. + PYMK 새 input 추가: 조직 오버랩
어떤 두 링크드인 유저가 같은 회사, 같은 학교에 함께 있었던 기간을
People You May Know에 활용 할 수 있을까?
Can we compute edge affinity based on organizational overlap?
47. + People You May Know 조직 오버랩: 과학적 방법론
가설 설정:
Hypothesis
모델 수립:
Model
실험:
A/B Testing
입증 / 반증
48. + 조직 오버랩 : 가설 설정
가설 1. 시간
같은 직장/학교에 함께 있었던 시간이 길수록, 서로 알 확률이 높을
것이다.
49. + 조직 오버랩 : 가설 설정
가설 2. 조직의 크기
직장/학교가 클 수록, 서로 알 확률은 낮아질 것이다
50. + 조직 오버랩 : 모델 수립
모델 1. 시간
t시간동안 함께 한 회사에 있었던 유저 둘이 서로를 알 확률:
P(t) = μ(1 - e-λt)
=> 함께 조직에 있었던 시간 t가 길어질수록, 서로 알 확률이 높아진다
51. + 조직 오버랩 : 모델 수립
모델 2. 조직의 크기
λ: 각 조직별로 달라지는 변수. 조직의 크기(|S|)에 따라 달라짐:
log(λ) = -0.8 log (|S|)
=> 조직의 크기가 클수록 서로 알 확률이 낮아진다
52. + 조직 오버랩 : 실험
A/B Testing
기존 모델 vs. 조직 오버랩을 활용한 모델
어떤 모델이 유저들에게 더 반응이 좋은가?
A 그룹: 기존
모델
B 그룹: 기존 모델 + 조직 오버랩
More Clicks!
56. 가설 : 실리콘 밸리에 쿨한 회사는 모두 북쪽에, 지루한 회사는 모두
남쪽에 있다?
San Francisco
Mountain View
San
Jose
Redwood City
57. 가설 : 실리콘 밸리에 쿨한 회사는 모두 북쪽에, 지루한 회사는 모두
남쪽에 있다?
San Francisco
Mountain View
San
Jose
Redwood City
58. 진짜 가설 : 실리콘 밸리의 회사 분포는, Network OSI 7 layer를 닮았다.
San Francisco
Mountain View
San
Jose
Redwood City
59. 모델 수립 / 실험
1.실리콘 밸리를 남~북 순으로 네개의 지역으로 나눔
2.각 지역별로 IT회사들을 정리
3.회사 직원들의 링크드인 프로필상 스킬을 모음
4.각 지역별로 가장 빈번히 보이는 스킬들은, 북쪽 지역일수록
Application layer, 남쪽 지역일수록 Physical layer의 스킬 일 것이다.
60. San Francisco
San Jose
Redwood City
Mountain View
Application
Presentation
Network &
Transport
Data Link &
Physical
61. 오늘의 발표
1. Big Data의 3요소 + 2목표
2. Data Science란?
3. Data Science @ Linkedin
- Data Product: People You May Know
- Data Analytics: Skills
4.결론
62. 가상의 그분의 대사 - Before
유저 로그 데이터도 전부 모으고 있고,
하둡 클러스터도 다 구축 했습니다.
이제 빅데이터로 뭐 그럴듯 한 거 하기만 하면 됩니다.
-어떤 데이터 팀 팀장
63. 가상의 그분의 대사 - After
유저 로그 데이터도 전부 모으고 있고,
하둡 클러스터도 다 구축 했습니다.
이제 데이터에 대한 가설을 설정하고 이를 입/반증하는 과정을 통해서,
로그 데이터 분석을 통해 사용자에 대한 이해도를 높이고
사용자들에게 더 좋은 반응을 이끌어 낼 수 있는 데이터 프로덕트를
만들고자 합니다.
-어떤 데이터 팀 팀장
64. 가상의 그분의 대사 - After
유저 로그 데이터도 전부 모으고 있고,
하둡 클러스터도 다 구축 했습니다.
이제 데이터에 대한 가설을 설정하고 이를 입/반증하는 과정을 통해서,
로그 데이터 분석을 통해 사용자에 대한 이해도를 높이고
사용자들에게 더 좋은 반응을 이끌어 낼 수 있는 데이터 프로덕트를
만들고자 합니다.
-어떤 데이터 팀 팀장
65. + 결론(1) 빅데이터의 3 요소와 2 목표
툴
3 요소 2 목표
큰 데이터
셋
이해:
Data Analytics
사용:
Data Products
방법론
66. + 결론(2): 데이터 사이언스 = 과학
과학적 방법론을 사용하기 때문
가설 설정:
Hypothesis
모델 수립:
Model
실험:
A/B Testing
입증 / 반증
67. + 그렇다면 무엇을 해야하나
1. 가설 설정은 인간의 몫임을 잊지 말라
http://www.portaloko.hr/slika/76532/0/800/69/576/1046/0/terminator.jpg
68. + 그렇다면 무엇을 해야하나
2. 데이터 프로덕트는 수많은 앱/사이트의 곳곳에 숨어있다.
69. + 그렇다면 무엇을 해야하나
3. 기존의 통계적 방법론을 공부하라
http://image.kyobobook.co.kr/images/book/large/231/l9788988399231.jpg
70. + 그렇다면 무엇을 해야하나
4. 끊임없이 삽질해보라
http://cfile10.uf.tistory.com/image/146891404E0BC492379C1C
Imaginary conversation: I’m collecting user log data, I finished setting up hadoop cluster. Now I just want to do “something interesting” with big data
Imaginary conversation: I’m collecting user log data, I finished setting up hadoop cluster. Now I just want to do “something interesting” with big data
How can u do “something interesting” with big data?
Disclaimer: This presentation is based on public research/presentations of LinkedIn. However, opinions presented here is mine, and can be differ from official stance of Linkedin.
2:05
Definition of Big Data
Very large sets of data that are produced by people using the internet, and that can only be stored, understood, and used with the help of special tools and methods
– Cambridge Dictionary
3 elements of big data
각각의 요소에 대해 자세히 말할 필요는 없음(다음슬라이드들에서 할것이기 때문에)
Element 1: very large data set
Element 2: Tools
기하급수적
Element 3: Methodology = Data Science
Imaginary conversation: I’m collecting user log data, I finished setting up hadoop cluster. Now I just want to do “something interesting” with big data
Imaginary conversation: I’m collecting user log data, I finished setting up hadoop cluster. Now I just want to do “something interesting” with big data
How can u do “something interesting” with big data?
Methodology is missing!
7:08
What is data science?
3 elements of big data
각각의 요소에 대해 자세히 말할 필요는 없음(다음슬라이드들에서 할것이기 때문에)
3 elements of big data
각각의 요소에 대해 자세히 말할 필요는 없음(다음슬라이드들에서 할것이기 때문에)
Why is it science?
Hypothesis & Model building
A/B Testing
오프라인 테스트도 언급?
A/B Testing
: Obama election campaign
A/B Testing
: Google “40shades of blue”
Accept or decline the hypothesis
14:17
313million linkedin users
Linkedin’s Data Products
Linkedin’s Data Products
Linkedin’s Data Products
Big Data Ecosystem : Big data Product -> User Interaction Data -> Hadoop Cluster -> Key/Value Storage
Open source projects used in Linkedin Data team.
Analytics/Modeling layer’s knowledge is separated from infrastructure layer’s knowledge
18:17
PYMK: Link Prediction On Social Network
PYMK: Train the machine learning model using existing connection data
PYMK: Hadoop workflow
PYMK: serving data to users
User’s reaction will be the new input data
How PYMK has been changed from 2008
21:19
Can we use organizational overlap on PYMK?
Using scientific method
The longer two users were on same organization, the higher the probability for them to know each other
The larger the size of organization, the lower the probability for members within it to know each other
Model of organizational overlap
Model of organizational overlap
Experiment of Organizational overlap: A/B Testing
Organizational overlap: Hypothesis accepted
Hypothesis: All cool companies are at north of silicon valley, while companies at south of silicon valley are boring?(joke)
Hypothesis: All cool companies are at north of silicon valley, while companies at south of silicon valley are boring?(joke)
Real Hypothesis: Silicon Valley’s distribution of the company resembles that of Network OSI 7 layer
Methodology we used to extract skills by the region of silicon valley
31:00
Imaginary conversation: I’m collecting user log data, I finished setting up hadoop cluster. Now I just want to do “something interesting” with big data
Imaginary conversation: I’m collecting user log data, I finished setting up hadoop cluster. Now I just want to do “something interesting” with big data
Imaginary conversation: I’m collecting user log data, I finished setting up hadoop cluster. Now I just want to do “something interesting” with big data
3 elements of big data
각각의 요소에 대해 자세히 말할 필요는 없음(다음슬라이드들에서 할것이기 때문에)
Why is it science?
Action Item 1: Don’t forget Hypothesis setup must be done by human
Action Item 3: Be aware that data product is everywhere
Action Item 2: Review statistics
Action Item 4: Trial & Error – lots of iteration is the key