SlideShare une entreprise Scribd logo
1  sur  71
Data Science – 왜 ‘과학’ 인가? 
김형진(Evion Kim)
가상의 그분의 대사 
유저 로그 데이터도 전부 모으고 있고, 
하둡 클러스터도 다 구축 했습니다. 
이제 빅데이터로 뭐 그럴듯 한 거 하기만 하면 됩니다. 
-어떤 데이터 팀 팀장 
http://www.resumeexamplesweb.com/images/combination-resume.jpg
가상의 그분의 대사 
유저 로그 데이터도 전부 모으고 있고, 
하둡 클러스터도 다 구축 했습니다. 
이제 빅데이터로 뭐 그럴듯 한 거 하기만 하면 됩니다. 
-어떤 데이터 팀 팀장
뭐 그럴 듯 한거 뭐, 어떻게 하실건가요? 
What, How
본 발표는 공개되어있는 링크드인의 연구/발표자료등을 토대로 만들어졌습니다. 
하지만 발표에서 제시되는 의견들은 저 개인의 것이며, 링크드인의 공식적인 입장과는 상이할 수 있습니다.
오늘의 발표 
1. Big Data의 3요소 + 2목표 
2. Data Science란? 
3. Data Science @ Linkedin 
- Data Product: People You May Know 
- Data Analytics: Skills 
4.결론
빅데이터의 정의 
인터넷을 사용하는 사람들에 의해 발생하는 굉장히 큰 데이터 셋을 지칭하며 
특별한 툴과 방법론을 이용해서만 저장,이해 및 사용 될 수 있다 
– 캠브리지 사전
+ 빅데이터의 – 3 요소와 2 목표 
툴 
3 요소 2 목표 
큰 데이터 
셋 
이해: 
Data Analytics 
방법론 사용: 
Data Products 
http://icons.iconarchive.com/icons/icons8/ios7/128/Data-Mind-Map-icon.png, http://www.clker.com/clipart-white-tool-box.html, http://www.publicdomainpictures.net/pictures/40000/nahled/question-mark.jpg, 
http://www.flaticon.com/free-icon/data-analytics-graphic-on-a-presentation-screen_38897, 
https://www.iconfinder.com/icons/198841/box_bundle_cargo_freight_gift_load_loading_package_parcel_product_icon
+ 목표 1. 이해 – Data Analytics 
기존 데이터를 분석하여 새로운 인사이트를 찾아내는 것 
http://en.wikipedia.org/wiki/File:Google_Analytics_Sample_Dashboard.jpg
+ 목표 2. 사용 – Data Product 
추천, 검색, 개인화 등 사용자에게 보여지는 제품에 데이터를 기반으로 
한 알고리즘이 깊이 녹아들어가 있는 제품. 
데이터를 통해 유저의 만족을 극대화하는 것이 목표.
+ 요소 1. 굉장히 큰 데이터 set 
인류문명이 시작된 이래 2003년까지 만들어진 데이터양은 통틀어 
5엑사바이트에 불과했습니다. 지금은 이틀마다 그만큼씩의 데이터가 새로 
추가되고 있으며, 이 속도는 점점 빨라지고 있습니다. –에릭 슈미트, Technomy 
2010 
기회&도전 
http://en.wikipedia.org/wiki/File:Google_Analytics_Sample_Dashboard.jpg
+ 요소 2. 툴
+ 요소 3. 방법론 
빅데이터를 다룰 수 있는 새로운 방법론의 필요
가상의 그분의 대사 
유저 로그 데이터도 전부 모으고 있고, 
하둡 클러스터도 다 구축 했습니다. 
이제 빅데이터로 뭐 그럴듯 한 거 하기만 하면 됩니다.
가상의 그분의 대사 – version 2 
유저 로그 데이터도 전부 모으고 있고, 
하둡 클러스터도 다 구축 했습니다. 
이제 빅데이터를 분석도 하고, 데이터 프로덕트도 만들고자 합니다.
남은 질문: 어떻게 하실건가요?? 
How
Missing 
Piece 
방법론 
http://static.wixstatic.com/media/779878_d6071e23f5a2fab184116f2fda8e9a6f.jpg_srz_p_398_181_75_22_0.50_1.20_0.00_jpg_srz
오늘의 발표 
1. Big Data의 3요소 + 2목표 
2. Data Science란? 
3. Data Science @ Linkedin 
- Data Product: People You May Know 
- Data Analytics: Skills 
4.결론
+ 데이터 사이언스란? 
데이터 
사이언스 
방법론 
hhttp://www.iconpng.com/icon/58699
+ 데이터 사이언스란? 
Data Science 는 데이터로부터 일반화 가능한 지식을 추출하는 
학문으로써, 키워드는 “Science”이다. Data Science는 signal 
processing, mathematics, probability models, machine learning, 
statistical learning, computer programming, data engineering, pattern 
recognition and learning, visualization, uncertainty modeling, data 
warehousing, and high performance computing 등 다양한 분야의 
학문을 접목시켜서, 데이터로부터 의미를 추출하거나 데이터 
프로덕트를 만드는 것을 목표로 한다. … 
-en.wikipedia.org, “data science”
+ 데이터 사이언스란? 
http://www.jumpgate.io/assets/img/datascience.jpg
+ 빅데이터의 – 3 요소와 2 목표 
툴 
3 요소 2 목표 
큰 데이터 
셋 
이해: 
Data Analytics 
방법론 사용: 
Data Products
+ 빅데이터의 – 3 요소와 2 목표 
툴 
3 요소 2 목표 
큰 데이터 
셋 
이해: 
Data Analytics 
사용: 
Data Products 
데이터 
사이언스
+ 왜 과학인가? 
과학적 방법론을 사용하기 때문 
가설 설정: 
Hypothesis 
모델 수립: 
Model 
실험: 
A/B Testing 
입증 / 반증
+ 과학적 방법론: 가설 설정 / 모델 수립 
유저의 행동을 잘 설명할 수 있는 가설을 설정: 
한국인일수록 LOL 실력이 좋다? 
코딩을 한 기간이 길수록 연봉이 높다? 
가설을 바탕으로 수학적 모델을 수립: 
P(LOL 플래티넘 랭크) = 0.5 + if(한국인 == true) 0.2, else -0.2 
연봉 = 평균 연봉 * (1 + (코딩 한 년수 / 100년))
+ 과학적 방법론: 실험 – A/B Testing 
서로 다른 모델을 통해 만들어진 결과물을 서로 다른 유저 그룹에게 
동시에 보여주며 반응을 측정. 
변인통제가 중요 – 실험하고자 하는 모델의 결과물(조작변인) 이외에 
다른 변인들은 일치해야한다. => 랜덤하게 유저 그룹을 선택 
http://cartytrax.com/split-testing-for-e-commerce
+ 과학적 방법론: 실험 – A/B Testing 
버락 오바마 미국 대통령의 선거 캠페인
+ 과학적 방법론: 실험 – A/B Testing 
A/B/C/D/E/F …… Testing? 
야후의 CEO 마리사 메이어는 구글 재직 시절 여러가지로 유명하지만, 
“40 shades of blue” 는 그녀의 성향을 특히 더 잘 설명합니다. Google 
Mail 과 Google page에서 보여지는 파란색을 결정하기 위해서, 그녀는 
서로 다른 음영의 40가지의 파란색이 각각 2.5%의 사용자에게 보여지게 
하였습니다.가장 많은 클릭을 받은 파란색이 여러분들이 오늘날 Google 
과 Google Mail에서 보는 파란색입니다. - http://www.theguardian.com/ 
http://commons.wikimedia.org/wiki/File:Color_gradient_map_(blue)_palette.png
+ 과학적 방법론: 입증/반증 
입증된 모델의 경우: 
가설을 받아들임 and 데이터 프로덕트에 적용 
반증된 모델의 경우: 
가설/모델/실험 단계에서 잘못된 점을 검토
오늘의 발표 
1. Big Data의 3요소 + 2목표 
2. Data Science란? 
3. Data Science @ Linkedin 
- Data Product: People You May Know 
- Data Analytics: Skills 
4.결론
+ LinkedIn: 프로페셔널 소셜 네트워크 
3억 1천 3백만 사용자
+ 링크드인의 데이터 프로덕트들 
People You May Know – 친구 추천
+ 링크드인의 데이터 프로덕트들 
Skills and Endorsements – 누구의 어떤 스킬을 승인(like)할 것인가?
+ 링크드인의 데이터 프로덕트들 
Jobs You May be Interested In – 어떤 새 직장에 관심이 있을 것인가? 
News Recommendation – 어떤 뉴스를 읽고 싶은가? 
Feed – 유저가 관심가질만한 정보로 이루어진 메인 페이지
+ 특징 1. Big Data Ecosystem 
하둡 클러스터 Key/Value Storage 
유저 인터랙션 데이터
+ 특징 2. 오픈소스의 활용 
Apache Hadoop: 분산 처리 시스템 
Apache Kafka: 분산 메세징 시스템 
Azkaban: 웹 기반 하둡 scheduler 
Voldemort: Key/Value Storage 
Apache Pig: 하둡 쿼리 언어 
DataFu: 피그용 UDF 모음
+ 특징 3. Encapsulation 
시스템에 대해 잘 모르는 데이터 사이언티스트가 Recommendation 
Algorithm을 만들고 싶다면? 
Analytics/Modeling Layer 
R, Linkedin’s Azkaban(Hadoop workflow management), 
Apache Pig, LinkedIn’s DataFu 
Infrastructure Layer 
Hadoop, LinkedIn’s Voldemort(Key/Value storage) 
데이터 모델링, 분석 레벨의 지식과 
인프라스트럭쳐 레벨의 지식이 분리됨.
오늘의 발표 
1. Big Data의 3요소 + 2목표 
2. Data Science란? 
3. Data Science @ Linkedin 
- Data Product: People You May Know 
- Data Analytics: Skills 
4.결론
+ People You May Know (PYMK) 
39
+ People You May Know? 
소셜 네트워크 그래프 상에서의 Link Prediction 문제 
?
+ People You May Know - HowTo 
1. 기존의 유저 데이터를 활용, 머신 러닝 모델을 Train 
Model Training 
http://www.vorterix.com/malditosnerds/notas/4918/los-creadores-de-siri-preparan-algo-especial.html
+ People You May Know - HowTo 
2. Hadoop Flow 를 통해, 추천 데이터 생성
+ People You May Know - HowTo 
3. 유저에게 추천.
+ People You May Know - HowTo 
4. 새로운 데이터 생성 
? !
+ PYMK – 2008 vs 2014 
2008 2014 
 3천만 유저 
 Single node fully offline (Oracle) then 
MPP database 
 3억 유저 
 Distributed offline (Hadoop) w/ online 
adjustments
+ PYMK 새 input 추가: 조직 오버랩 
어떤 두 링크드인 유저가 같은 회사, 같은 학교에 함께 있었던 기간을 
People You May Know에 활용 할 수 있을까? 
Can we compute edge affinity based on organizational overlap?
+ People You May Know 조직 오버랩: 과학적 방법론 
가설 설정: 
Hypothesis 
모델 수립: 
Model 
실험: 
A/B Testing 
입증 / 반증
+ 조직 오버랩 : 가설 설정 
가설 1. 시간 
같은 직장/학교에 함께 있었던 시간이 길수록, 서로 알 확률이 높을 
것이다.
+ 조직 오버랩 : 가설 설정 
가설 2. 조직의 크기 
직장/학교가 클 수록, 서로 알 확률은 낮아질 것이다
+ 조직 오버랩 : 모델 수립 
모델 1. 시간 
t시간동안 함께 한 회사에 있었던 유저 둘이 서로를 알 확률: 
P(t) = μ(1 - e-λt) 
=> 함께 조직에 있었던 시간 t가 길어질수록, 서로 알 확률이 높아진다
+ 조직 오버랩 : 모델 수립 
모델 2. 조직의 크기 
λ: 각 조직별로 달라지는 변수. 조직의 크기(|S|)에 따라 달라짐: 
log(λ) = -0.8 log (|S|) 
=> 조직의 크기가 클수록 서로 알 확률이 낮아진다
+ 조직 오버랩 : 실험 
A/B Testing 
기존 모델 vs. 조직 오버랩을 활용한 모델 
어떤 모델이 유저들에게 더 반응이 좋은가? 
A 그룹: 기존 
모델 
B 그룹: 기존 모델 + 조직 오버랩 
More Clicks!
+ 조직 오버랩: 입증/반증 
입증!
오늘의 발표 
1. Big Data의 3요소 + 2목표 
2. Data Science란? 
3. Data Science @ Linkedin 
- Data Product: People You May Know 
- Data Analytics: Skills 
4.결론
+ Skills & Endorsements
가설 : 실리콘 밸리에 쿨한 회사는 모두 북쪽에, 지루한 회사는 모두 
남쪽에 있다? 
San Francisco 
Mountain View 
San 
Jose 
Redwood City
가설 : 실리콘 밸리에 쿨한 회사는 모두 북쪽에, 지루한 회사는 모두 
남쪽에 있다? 
San Francisco 
Mountain View 
San 
Jose 
Redwood City
진짜 가설 : 실리콘 밸리의 회사 분포는, Network OSI 7 layer를 닮았다. 
San Francisco 
Mountain View 
San 
Jose 
Redwood City
모델 수립 / 실험 
1.실리콘 밸리를 남~북 순으로 네개의 지역으로 나눔 
2.각 지역별로 IT회사들을 정리 
3.회사 직원들의 링크드인 프로필상 스킬을 모음 
4.각 지역별로 가장 빈번히 보이는 스킬들은, 북쪽 지역일수록 
Application layer, 남쪽 지역일수록 Physical layer의 스킬 일 것이다.
San Francisco 
San Jose 
Redwood City 
Mountain View 
Application 
Presentation 
Network & 
Transport 
Data Link & 
Physical
오늘의 발표 
1. Big Data의 3요소 + 2목표 
2. Data Science란? 
3. Data Science @ Linkedin 
- Data Product: People You May Know 
- Data Analytics: Skills 
4.결론
가상의 그분의 대사 - Before 
유저 로그 데이터도 전부 모으고 있고, 
하둡 클러스터도 다 구축 했습니다. 
이제 빅데이터로 뭐 그럴듯 한 거 하기만 하면 됩니다. 
-어떤 데이터 팀 팀장
가상의 그분의 대사 - After 
유저 로그 데이터도 전부 모으고 있고, 
하둡 클러스터도 다 구축 했습니다. 
이제 데이터에 대한 가설을 설정하고 이를 입/반증하는 과정을 통해서, 
로그 데이터 분석을 통해 사용자에 대한 이해도를 높이고 
사용자들에게 더 좋은 반응을 이끌어 낼 수 있는 데이터 프로덕트를 
만들고자 합니다. 
-어떤 데이터 팀 팀장
가상의 그분의 대사 - After 
유저 로그 데이터도 전부 모으고 있고, 
하둡 클러스터도 다 구축 했습니다. 
이제 데이터에 대한 가설을 설정하고 이를 입/반증하는 과정을 통해서, 
로그 데이터 분석을 통해 사용자에 대한 이해도를 높이고 
사용자들에게 더 좋은 반응을 이끌어 낼 수 있는 데이터 프로덕트를 
만들고자 합니다. 
-어떤 데이터 팀 팀장
+ 결론(1) 빅데이터의 3 요소와 2 목표 
툴 
3 요소 2 목표 
큰 데이터 
셋 
이해: 
Data Analytics 
사용: 
Data Products 
방법론
+ 결론(2): 데이터 사이언스 = 과학 
과학적 방법론을 사용하기 때문 
가설 설정: 
Hypothesis 
모델 수립: 
Model 
실험: 
A/B Testing 
입증 / 반증
+ 그렇다면 무엇을 해야하나 
1. 가설 설정은 인간의 몫임을 잊지 말라 
http://www.portaloko.hr/slika/76532/0/800/69/576/1046/0/terminator.jpg
+ 그렇다면 무엇을 해야하나 
2. 데이터 프로덕트는 수많은 앱/사이트의 곳곳에 숨어있다.
+ 그렇다면 무엇을 해야하나 
3. 기존의 통계적 방법론을 공부하라 
http://image.kyobobook.co.kr/images/book/large/231/l9788988399231.jpg
+ 그렇다면 무엇을 해야하나 
4. 끊임없이 삽질해보라 
http://cfile10.uf.tistory.com/image/146891404E0BC492379C1C
data.linkedin.com

Contenu connexe

Tendances

집단지성 프로그래밍 01-데이터마이닝 개요
집단지성 프로그래밍 01-데이터마이닝 개요집단지성 프로그래밍 01-데이터마이닝 개요
집단지성 프로그래밍 01-데이터마이닝 개요Kwang Woo NAM
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드kosena
 
실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루Jaimie Kwon (권재명)
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data AnalysisMyunggoon Choi
 
빅데이터_ISP수업
빅데이터_ISP수업빅데이터_ISP수업
빅데이터_ISP수업jrim Choi
 
오픈 데이터와 인공지능
오픈 데이터와 인공지능오픈 데이터와 인공지능
오픈 데이터와 인공지능Myungjin Lee
 
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410Peter Woo
 
데이터 사이언스 소개 - 정준호
데이터 사이언스 소개 -  정준호데이터 사이언스 소개 -  정준호
데이터 사이언스 소개 - 정준호준호 정
 
Big Data 대충 알아보기
Big Data 대충 알아보기Big Data 대충 알아보기
Big Data 대충 알아보기iron han
 
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...Chanjin Park
 
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?Yongho Ha
 
전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)
전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)
전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)Saltlux zinyus
 
빅데이터 기본개념
빅데이터 기본개념빅데이터 기본개념
빅데이터 기본개념현주 유
 
Meetup history
Meetup historyMeetup history
Meetup historyMk Kim
 
빅데이터의 활용
빅데이터의 활용빅데이터의 활용
빅데이터의 활용수보 김
 
데이터 분석 프로세스
데이터 분석 프로세스데이터 분석 프로세스
데이터 분석 프로세스Lee Seungeun
 
빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향atelier t*h
 
UNUS BEANs 소개서 20141015
UNUS BEANs 소개서 20141015UNUS BEANs 소개서 20141015
UNUS BEANs 소개서 20141015YoungMin Jeon
 
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강Donghan Kim
 
빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향Webometrics Class
 

Tendances (20)

집단지성 프로그래밍 01-데이터마이닝 개요
집단지성 프로그래밍 01-데이터마이닝 개요집단지성 프로그래밍 01-데이터마이닝 개요
집단지성 프로그래밍 01-데이터마이닝 개요
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드
 
실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
 
빅데이터_ISP수업
빅데이터_ISP수업빅데이터_ISP수업
빅데이터_ISP수업
 
오픈 데이터와 인공지능
오픈 데이터와 인공지능오픈 데이터와 인공지능
오픈 데이터와 인공지능
 
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
 
데이터 사이언스 소개 - 정준호
데이터 사이언스 소개 -  정준호데이터 사이언스 소개 -  정준호
데이터 사이언스 소개 - 정준호
 
Big Data 대충 알아보기
Big Data 대충 알아보기Big Data 대충 알아보기
Big Data 대충 알아보기
 
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...KCSE 2015 Tutorial 빅데이터 분석 기술의  소프트웨어 공학 분야 활용 (...
KCSE 2015 Tutorial 빅데이터 분석 기술의 소프트웨어 공학 분야 활용 (...
 
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?어떻게 하면 데이터 사이언티스트가 될 수 있나요?
어떻게 하면 데이터 사이언티스트가 될 수 있나요?
 
전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)
전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)
전문가토크릴레이 2탄 빅데이터와 빅데이터 분석 (이경일 대표)
 
빅데이터 기본개념
빅데이터 기본개념빅데이터 기본개념
빅데이터 기본개념
 
Meetup history
Meetup historyMeetup history
Meetup history
 
빅데이터의 활용
빅데이터의 활용빅데이터의 활용
빅데이터의 활용
 
데이터 분석 프로세스
데이터 분석 프로세스데이터 분석 프로세스
데이터 분석 프로세스
 
빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향
 
UNUS BEANs 소개서 20141015
UNUS BEANs 소개서 20141015UNUS BEANs 소개서 20141015
UNUS BEANs 소개서 20141015
 
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
Big data infra core technology 빅데이터 전문인력-양성사업_분석과정-특강
 
빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향
 

En vedette

빅데이터분석실습 농산물중급분야 V0.9
빅데이터분석실습 농산물중급분야 V0.9빅데이터분석실습 농산물중급분야 V0.9
빅데이터분석실습 농산물중급분야 V0.9Han Woo PARK
 
빅데이터실습교육 소비분야 영남대_언론정보_20141117
빅데이터실습교육 소비분야 영남대_언론정보_20141117빅데이터실습교육 소비분야 영남대_언론정보_20141117
빅데이터실습교육 소비분야 영남대_언론정보_20141117Han Woo PARK
 
하둡 좋은약이지만 만병통치약은 아니다
하둡 좋은약이지만 만병통치약은 아니다하둡 좋은약이지만 만병통치약은 아니다
하둡 좋은약이지만 만병통치약은 아니다민철 정민철
 
하둡 HDFS 훑어보기
하둡 HDFS 훑어보기하둡 HDFS 훑어보기
하둡 HDFS 훑어보기beom kyun choi
 
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for HadoopSeungYong Baek
 
Zeppelin(Spark)으로 데이터 분석하기
Zeppelin(Spark)으로 데이터 분석하기Zeppelin(Spark)으로 데이터 분석하기
Zeppelin(Spark)으로 데이터 분석하기SangWoo Kim
 
Apache spark 소개 및 실습
Apache spark 소개 및 실습Apache spark 소개 및 실습
Apache spark 소개 및 실습동현 강
 

En vedette (8)

빅데이터분석실습 농산물중급분야 V0.9
빅데이터분석실습 농산물중급분야 V0.9빅데이터분석실습 농산물중급분야 V0.9
빅데이터분석실습 농산물중급분야 V0.9
 
빅데이터실습교육 소비분야 영남대_언론정보_20141117
빅데이터실습교육 소비분야 영남대_언론정보_20141117빅데이터실습교육 소비분야 영남대_언론정보_20141117
빅데이터실습교육 소비분야 영남대_언론정보_20141117
 
하둡 좋은약이지만 만병통치약은 아니다
하둡 좋은약이지만 만병통치약은 아니다하둡 좋은약이지만 만병통치약은 아니다
하둡 좋은약이지만 만병통치약은 아니다
 
하둡 HDFS 훑어보기
하둡 HDFS 훑어보기하둡 HDFS 훑어보기
하둡 HDFS 훑어보기
 
Zookeeper 소개
Zookeeper 소개Zookeeper 소개
Zookeeper 소개
 
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
하둡 알아보기(Learn about Hadoop basic), NetApp FAS NFS Connector for Hadoop
 
Zeppelin(Spark)으로 데이터 분석하기
Zeppelin(Spark)으로 데이터 분석하기Zeppelin(Spark)으로 데이터 분석하기
Zeppelin(Spark)으로 데이터 분석하기
 
Apache spark 소개 및 실습
Apache spark 소개 및 실습Apache spark 소개 및 실습
Apache spark 소개 및 실습
 

Similaire à [2A7]Linkedin'sDataScienceWhyIsItScience

빅 데이터 개요 및 활용
빅 데이터 개요 및 활용빅 데이터 개요 및 활용
빅 데이터 개요 및 활용Jin wook
 
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)Treasure Data, Inc.
 
전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)
전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)
전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)Yan So
 
학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)
학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)
학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)Lab80
 
Big Data Overview
Big Data OverviewBig Data Overview
Big Data OverviewKeeyong Han
 
고대8 9주 빅데이터
고대8 9주 빅데이터고대8 9주 빅데이터
고대8 9주 빅데이터JM code group
 
딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투Ubuntu Korea Community
 
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)Amazon Web Services Korea
 
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다Evion Kim
 
How to Make Money from Data - Global Cases
How to Make Money from Data - Global CasesHow to Make Money from Data - Global Cases
How to Make Money from Data - Global CasesDataya Nolja
 
인공지능, 머신러닝의 이해 강의자료 2019.12.20
인공지능, 머신러닝의 이해 강의자료 2019.12.20인공지능, 머신러닝의 이해 강의자료 2019.12.20
인공지능, 머신러닝의 이해 강의자료 2019.12.20KYOYOON JUNG
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요Hosung Lee
 
100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning Systemhoondong kim
 
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Amazon Web Services Korea
 
2018 tech trends_and_present_report
2018 tech trends_and_present_report2018 tech trends_and_present_report
2018 tech trends_and_present_reportJUNHEEKIM27
 
20160707 2016연구지원설명회 서울시_빅데이터캠퍼스
20160707 2016연구지원설명회 서울시_빅데이터캠퍼스20160707 2016연구지원설명회 서울시_빅데이터캠퍼스
20160707 2016연구지원설명회 서울시_빅데이터캠퍼스bigdatacampus
 
건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안메가트렌드랩 megatrendlab
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망Open Cyber University of Korea
 
빅데이터캠퍼스 소개및데이터설명 최종
빅데이터캠퍼스 소개및데이터설명 최종빅데이터캠퍼스 소개및데이터설명 최종
빅데이터캠퍼스 소개및데이터설명 최종bigdatacampus
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)Metatron
 

Similaire à [2A7]Linkedin'sDataScienceWhyIsItScience (20)

빅 데이터 개요 및 활용
빅 데이터 개요 및 활용빅 데이터 개요 및 활용
빅 데이터 개요 및 활용
 
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
 
전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)
전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)
전혀 새로운 방법의 데이터 탐색 - 김민수 (Tableau)
 
학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)
학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)
학교에서는 배울 수 없는 스타트업 엔지니어링 (연세대 특강)
 
Big Data Overview
Big Data OverviewBig Data Overview
Big Data Overview
 
고대8 9주 빅데이터
고대8 9주 빅데이터고대8 9주 빅데이터
고대8 9주 빅데이터
 
딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투딥러닝 세계에 입문하기 위반 분투
딥러닝 세계에 입문하기 위반 분투
 
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
 
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
 
How to Make Money from Data - Global Cases
How to Make Money from Data - Global CasesHow to Make Money from Data - Global Cases
How to Make Money from Data - Global Cases
 
인공지능, 머신러닝의 이해 강의자료 2019.12.20
인공지능, 머신러닝의 이해 강의자료 2019.12.20인공지능, 머신러닝의 이해 강의자료 2019.12.20
인공지능, 머신러닝의 이해 강의자료 2019.12.20
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요
 
100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System
 
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
Case Study를 통해 본 데이터사이언스 협업 플랫폼의 필요성 (옥주영 컨설턴트, Hancom MDS) :: AWS Techforum ...
 
2018 tech trends_and_present_report
2018 tech trends_and_present_report2018 tech trends_and_present_report
2018 tech trends_and_present_report
 
20160707 2016연구지원설명회 서울시_빅데이터캠퍼스
20160707 2016연구지원설명회 서울시_빅데이터캠퍼스20160707 2016연구지원설명회 서울시_빅데이터캠퍼스
20160707 2016연구지원설명회 서울시_빅데이터캠퍼스
 
건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안건설분야에서의 빅데이터 활용의 잠재적 가치제안
건설분야에서의 빅데이터 활용의 잠재적 가치제안
 
학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망학습분석(Learning Analytics) 활용 가능성 및 전망
학습분석(Learning Analytics) 활용 가능성 및 전망
 
빅데이터캠퍼스 소개및데이터설명 최종
빅데이터캠퍼스 소개및데이터설명 최종빅데이터캠퍼스 소개및데이터설명 최종
빅데이터캠퍼스 소개및데이터설명 최종
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
 

Plus de NAVER D2

[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다NAVER D2
 
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...NAVER D2
 
[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기NAVER D2
 
[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발NAVER D2
 
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈NAVER D2
 
[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&A[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&ANAVER D2
 
[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기NAVER D2
 
[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep Learning[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep LearningNAVER D2
 
[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applications[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applicationsNAVER D2
 
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load BalancingOld version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load BalancingNAVER D2
 
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지NAVER D2
 
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기NAVER D2
 
[224]네이버 검색과 개인화
[224]네이버 검색과 개인화[224]네이버 검색과 개인화
[224]네이버 검색과 개인화NAVER D2
 
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)NAVER D2
 
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기NAVER D2
 
[213] Fashion Visual Search
[213] Fashion Visual Search[213] Fashion Visual Search
[213] Fashion Visual SearchNAVER D2
 
[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화NAVER D2
 
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지NAVER D2
 
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터NAVER D2
 
[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?NAVER D2
 

Plus de NAVER D2 (20)

[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다[211] 인공지능이 인공지능 챗봇을 만든다
[211] 인공지능이 인공지능 챗봇을 만든다
 
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
[233] 대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing: Maglev Hashing Scheduler i...
 
[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기[215] Druid로 쉽고 빠르게 데이터 분석하기
[215] Druid로 쉽고 빠르게 데이터 분석하기
 
[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발[245]Papago Internals: 모델분석과 응용기술 개발
[245]Papago Internals: 모델분석과 응용기술 개발
 
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
[236] 스트림 저장소 최적화 이야기: 아파치 드루이드로부터 얻은 교훈
 
[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&A[235]Wikipedia-scale Q&A
[235]Wikipedia-scale Q&A
 
[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기[244]로봇이 현실 세계에 대해 학습하도록 만들기
[244]로봇이 현실 세계에 대해 학습하도록 만들기
 
[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep Learning[243] Deep Learning to help student’s Deep Learning
[243] Deep Learning to help student’s Deep Learning
 
[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applications[234]Fast & Accurate Data Annotation Pipeline for AI applications
[234]Fast & Accurate Data Annotation Pipeline for AI applications
 
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load BalancingOld version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
Old version: [233]대형 컨테이너 클러스터에서의 고가용성 Network Load Balancing
 
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
[226]NAVER 광고 deep click prediction: 모델링부터 서빙까지
 
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
[225]NSML: 머신러닝 플랫폼 서비스하기 & 모델 튜닝 자동화하기
 
[224]네이버 검색과 개인화
[224]네이버 검색과 개인화[224]네이버 검색과 개인화
[224]네이버 검색과 개인화
 
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
[216]Search Reliability Engineering (부제: 지진에도 흔들리지 않는 네이버 검색시스템)
 
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
[214] Ai Serving Platform: 하루 수 억 건의 인퍼런스를 처리하기 위한 고군분투기
 
[213] Fashion Visual Search
[213] Fashion Visual Search[213] Fashion Visual Search
[213] Fashion Visual Search
 
[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화[232] TensorRT를 활용한 딥러닝 Inference 최적화
[232] TensorRT를 활용한 딥러닝 Inference 최적화
 
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
[242]컴퓨터 비전을 이용한 실내 지도 자동 업데이트 방법: 딥러닝을 통한 POI 변화 탐지
 
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
[212]C3, 데이터 처리에서 서빙까지 가능한 하둡 클러스터
 
[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?
 

[2A7]Linkedin'sDataScienceWhyIsItScience

  • 1. Data Science – 왜 ‘과학’ 인가? 김형진(Evion Kim)
  • 2. 가상의 그분의 대사 유저 로그 데이터도 전부 모으고 있고, 하둡 클러스터도 다 구축 했습니다. 이제 빅데이터로 뭐 그럴듯 한 거 하기만 하면 됩니다. -어떤 데이터 팀 팀장 http://www.resumeexamplesweb.com/images/combination-resume.jpg
  • 3. 가상의 그분의 대사 유저 로그 데이터도 전부 모으고 있고, 하둡 클러스터도 다 구축 했습니다. 이제 빅데이터로 뭐 그럴듯 한 거 하기만 하면 됩니다. -어떤 데이터 팀 팀장
  • 4. 뭐 그럴 듯 한거 뭐, 어떻게 하실건가요? What, How
  • 5. 본 발표는 공개되어있는 링크드인의 연구/발표자료등을 토대로 만들어졌습니다. 하지만 발표에서 제시되는 의견들은 저 개인의 것이며, 링크드인의 공식적인 입장과는 상이할 수 있습니다.
  • 6. 오늘의 발표 1. Big Data의 3요소 + 2목표 2. Data Science란? 3. Data Science @ Linkedin - Data Product: People You May Know - Data Analytics: Skills 4.결론
  • 7. 빅데이터의 정의 인터넷을 사용하는 사람들에 의해 발생하는 굉장히 큰 데이터 셋을 지칭하며 특별한 툴과 방법론을 이용해서만 저장,이해 및 사용 될 수 있다 – 캠브리지 사전
  • 8. + 빅데이터의 – 3 요소와 2 목표 툴 3 요소 2 목표 큰 데이터 셋 이해: Data Analytics 방법론 사용: Data Products http://icons.iconarchive.com/icons/icons8/ios7/128/Data-Mind-Map-icon.png, http://www.clker.com/clipart-white-tool-box.html, http://www.publicdomainpictures.net/pictures/40000/nahled/question-mark.jpg, http://www.flaticon.com/free-icon/data-analytics-graphic-on-a-presentation-screen_38897, https://www.iconfinder.com/icons/198841/box_bundle_cargo_freight_gift_load_loading_package_parcel_product_icon
  • 9. + 목표 1. 이해 – Data Analytics 기존 데이터를 분석하여 새로운 인사이트를 찾아내는 것 http://en.wikipedia.org/wiki/File:Google_Analytics_Sample_Dashboard.jpg
  • 10. + 목표 2. 사용 – Data Product 추천, 검색, 개인화 등 사용자에게 보여지는 제품에 데이터를 기반으로 한 알고리즘이 깊이 녹아들어가 있는 제품. 데이터를 통해 유저의 만족을 극대화하는 것이 목표.
  • 11. + 요소 1. 굉장히 큰 데이터 set 인류문명이 시작된 이래 2003년까지 만들어진 데이터양은 통틀어 5엑사바이트에 불과했습니다. 지금은 이틀마다 그만큼씩의 데이터가 새로 추가되고 있으며, 이 속도는 점점 빨라지고 있습니다. –에릭 슈미트, Technomy 2010 기회&도전 http://en.wikipedia.org/wiki/File:Google_Analytics_Sample_Dashboard.jpg
  • 12. + 요소 2.
  • 13. + 요소 3. 방법론 빅데이터를 다룰 수 있는 새로운 방법론의 필요
  • 14. 가상의 그분의 대사 유저 로그 데이터도 전부 모으고 있고, 하둡 클러스터도 다 구축 했습니다. 이제 빅데이터로 뭐 그럴듯 한 거 하기만 하면 됩니다.
  • 15. 가상의 그분의 대사 – version 2 유저 로그 데이터도 전부 모으고 있고, 하둡 클러스터도 다 구축 했습니다. 이제 빅데이터를 분석도 하고, 데이터 프로덕트도 만들고자 합니다.
  • 16. 남은 질문: 어떻게 하실건가요?? How
  • 17. Missing Piece 방법론 http://static.wixstatic.com/media/779878_d6071e23f5a2fab184116f2fda8e9a6f.jpg_srz_p_398_181_75_22_0.50_1.20_0.00_jpg_srz
  • 18. 오늘의 발표 1. Big Data의 3요소 + 2목표 2. Data Science란? 3. Data Science @ Linkedin - Data Product: People You May Know - Data Analytics: Skills 4.결론
  • 19. + 데이터 사이언스란? 데이터 사이언스 방법론 hhttp://www.iconpng.com/icon/58699
  • 20. + 데이터 사이언스란? Data Science 는 데이터로부터 일반화 가능한 지식을 추출하는 학문으로써, 키워드는 “Science”이다. Data Science는 signal processing, mathematics, probability models, machine learning, statistical learning, computer programming, data engineering, pattern recognition and learning, visualization, uncertainty modeling, data warehousing, and high performance computing 등 다양한 분야의 학문을 접목시켜서, 데이터로부터 의미를 추출하거나 데이터 프로덕트를 만드는 것을 목표로 한다. … -en.wikipedia.org, “data science”
  • 21. + 데이터 사이언스란? http://www.jumpgate.io/assets/img/datascience.jpg
  • 22. + 빅데이터의 – 3 요소와 2 목표 툴 3 요소 2 목표 큰 데이터 셋 이해: Data Analytics 방법론 사용: Data Products
  • 23. + 빅데이터의 – 3 요소와 2 목표 툴 3 요소 2 목표 큰 데이터 셋 이해: Data Analytics 사용: Data Products 데이터 사이언스
  • 24. + 왜 과학인가? 과학적 방법론을 사용하기 때문 가설 설정: Hypothesis 모델 수립: Model 실험: A/B Testing 입증 / 반증
  • 25. + 과학적 방법론: 가설 설정 / 모델 수립 유저의 행동을 잘 설명할 수 있는 가설을 설정: 한국인일수록 LOL 실력이 좋다? 코딩을 한 기간이 길수록 연봉이 높다? 가설을 바탕으로 수학적 모델을 수립: P(LOL 플래티넘 랭크) = 0.5 + if(한국인 == true) 0.2, else -0.2 연봉 = 평균 연봉 * (1 + (코딩 한 년수 / 100년))
  • 26. + 과학적 방법론: 실험 – A/B Testing 서로 다른 모델을 통해 만들어진 결과물을 서로 다른 유저 그룹에게 동시에 보여주며 반응을 측정. 변인통제가 중요 – 실험하고자 하는 모델의 결과물(조작변인) 이외에 다른 변인들은 일치해야한다. => 랜덤하게 유저 그룹을 선택 http://cartytrax.com/split-testing-for-e-commerce
  • 27. + 과학적 방법론: 실험 – A/B Testing 버락 오바마 미국 대통령의 선거 캠페인
  • 28. + 과학적 방법론: 실험 – A/B Testing A/B/C/D/E/F …… Testing? 야후의 CEO 마리사 메이어는 구글 재직 시절 여러가지로 유명하지만, “40 shades of blue” 는 그녀의 성향을 특히 더 잘 설명합니다. Google Mail 과 Google page에서 보여지는 파란색을 결정하기 위해서, 그녀는 서로 다른 음영의 40가지의 파란색이 각각 2.5%의 사용자에게 보여지게 하였습니다.가장 많은 클릭을 받은 파란색이 여러분들이 오늘날 Google 과 Google Mail에서 보는 파란색입니다. - http://www.theguardian.com/ http://commons.wikimedia.org/wiki/File:Color_gradient_map_(blue)_palette.png
  • 29. + 과학적 방법론: 입증/반증 입증된 모델의 경우: 가설을 받아들임 and 데이터 프로덕트에 적용 반증된 모델의 경우: 가설/모델/실험 단계에서 잘못된 점을 검토
  • 30. 오늘의 발표 1. Big Data의 3요소 + 2목표 2. Data Science란? 3. Data Science @ Linkedin - Data Product: People You May Know - Data Analytics: Skills 4.결론
  • 31. + LinkedIn: 프로페셔널 소셜 네트워크 3억 1천 3백만 사용자
  • 32. + 링크드인의 데이터 프로덕트들 People You May Know – 친구 추천
  • 33. + 링크드인의 데이터 프로덕트들 Skills and Endorsements – 누구의 어떤 스킬을 승인(like)할 것인가?
  • 34. + 링크드인의 데이터 프로덕트들 Jobs You May be Interested In – 어떤 새 직장에 관심이 있을 것인가? News Recommendation – 어떤 뉴스를 읽고 싶은가? Feed – 유저가 관심가질만한 정보로 이루어진 메인 페이지
  • 35. + 특징 1. Big Data Ecosystem 하둡 클러스터 Key/Value Storage 유저 인터랙션 데이터
  • 36. + 특징 2. 오픈소스의 활용 Apache Hadoop: 분산 처리 시스템 Apache Kafka: 분산 메세징 시스템 Azkaban: 웹 기반 하둡 scheduler Voldemort: Key/Value Storage Apache Pig: 하둡 쿼리 언어 DataFu: 피그용 UDF 모음
  • 37. + 특징 3. Encapsulation 시스템에 대해 잘 모르는 데이터 사이언티스트가 Recommendation Algorithm을 만들고 싶다면? Analytics/Modeling Layer R, Linkedin’s Azkaban(Hadoop workflow management), Apache Pig, LinkedIn’s DataFu Infrastructure Layer Hadoop, LinkedIn’s Voldemort(Key/Value storage) 데이터 모델링, 분석 레벨의 지식과 인프라스트럭쳐 레벨의 지식이 분리됨.
  • 38. 오늘의 발표 1. Big Data의 3요소 + 2목표 2. Data Science란? 3. Data Science @ Linkedin - Data Product: People You May Know - Data Analytics: Skills 4.결론
  • 39. + People You May Know (PYMK) 39
  • 40. + People You May Know? 소셜 네트워크 그래프 상에서의 Link Prediction 문제 ?
  • 41. + People You May Know - HowTo 1. 기존의 유저 데이터를 활용, 머신 러닝 모델을 Train Model Training http://www.vorterix.com/malditosnerds/notas/4918/los-creadores-de-siri-preparan-algo-especial.html
  • 42. + People You May Know - HowTo 2. Hadoop Flow 를 통해, 추천 데이터 생성
  • 43. + People You May Know - HowTo 3. 유저에게 추천.
  • 44. + People You May Know - HowTo 4. 새로운 데이터 생성 ? !
  • 45. + PYMK – 2008 vs 2014 2008 2014  3천만 유저  Single node fully offline (Oracle) then MPP database  3억 유저  Distributed offline (Hadoop) w/ online adjustments
  • 46. + PYMK 새 input 추가: 조직 오버랩 어떤 두 링크드인 유저가 같은 회사, 같은 학교에 함께 있었던 기간을 People You May Know에 활용 할 수 있을까? Can we compute edge affinity based on organizational overlap?
  • 47. + People You May Know 조직 오버랩: 과학적 방법론 가설 설정: Hypothesis 모델 수립: Model 실험: A/B Testing 입증 / 반증
  • 48. + 조직 오버랩 : 가설 설정 가설 1. 시간 같은 직장/학교에 함께 있었던 시간이 길수록, 서로 알 확률이 높을 것이다.
  • 49. + 조직 오버랩 : 가설 설정 가설 2. 조직의 크기 직장/학교가 클 수록, 서로 알 확률은 낮아질 것이다
  • 50. + 조직 오버랩 : 모델 수립 모델 1. 시간 t시간동안 함께 한 회사에 있었던 유저 둘이 서로를 알 확률: P(t) = μ(1 - e-λt) => 함께 조직에 있었던 시간 t가 길어질수록, 서로 알 확률이 높아진다
  • 51. + 조직 오버랩 : 모델 수립 모델 2. 조직의 크기 λ: 각 조직별로 달라지는 변수. 조직의 크기(|S|)에 따라 달라짐: log(λ) = -0.8 log (|S|) => 조직의 크기가 클수록 서로 알 확률이 낮아진다
  • 52. + 조직 오버랩 : 실험 A/B Testing 기존 모델 vs. 조직 오버랩을 활용한 모델 어떤 모델이 유저들에게 더 반응이 좋은가? A 그룹: 기존 모델 B 그룹: 기존 모델 + 조직 오버랩 More Clicks!
  • 53. + 조직 오버랩: 입증/반증 입증!
  • 54. 오늘의 발표 1. Big Data의 3요소 + 2목표 2. Data Science란? 3. Data Science @ Linkedin - Data Product: People You May Know - Data Analytics: Skills 4.결론
  • 55. + Skills & Endorsements
  • 56. 가설 : 실리콘 밸리에 쿨한 회사는 모두 북쪽에, 지루한 회사는 모두 남쪽에 있다? San Francisco Mountain View San Jose Redwood City
  • 57. 가설 : 실리콘 밸리에 쿨한 회사는 모두 북쪽에, 지루한 회사는 모두 남쪽에 있다? San Francisco Mountain View San Jose Redwood City
  • 58. 진짜 가설 : 실리콘 밸리의 회사 분포는, Network OSI 7 layer를 닮았다. San Francisco Mountain View San Jose Redwood City
  • 59. 모델 수립 / 실험 1.실리콘 밸리를 남~북 순으로 네개의 지역으로 나눔 2.각 지역별로 IT회사들을 정리 3.회사 직원들의 링크드인 프로필상 스킬을 모음 4.각 지역별로 가장 빈번히 보이는 스킬들은, 북쪽 지역일수록 Application layer, 남쪽 지역일수록 Physical layer의 스킬 일 것이다.
  • 60. San Francisco San Jose Redwood City Mountain View Application Presentation Network & Transport Data Link & Physical
  • 61. 오늘의 발표 1. Big Data의 3요소 + 2목표 2. Data Science란? 3. Data Science @ Linkedin - Data Product: People You May Know - Data Analytics: Skills 4.결론
  • 62. 가상의 그분의 대사 - Before 유저 로그 데이터도 전부 모으고 있고, 하둡 클러스터도 다 구축 했습니다. 이제 빅데이터로 뭐 그럴듯 한 거 하기만 하면 됩니다. -어떤 데이터 팀 팀장
  • 63. 가상의 그분의 대사 - After 유저 로그 데이터도 전부 모으고 있고, 하둡 클러스터도 다 구축 했습니다. 이제 데이터에 대한 가설을 설정하고 이를 입/반증하는 과정을 통해서, 로그 데이터 분석을 통해 사용자에 대한 이해도를 높이고 사용자들에게 더 좋은 반응을 이끌어 낼 수 있는 데이터 프로덕트를 만들고자 합니다. -어떤 데이터 팀 팀장
  • 64. 가상의 그분의 대사 - After 유저 로그 데이터도 전부 모으고 있고, 하둡 클러스터도 다 구축 했습니다. 이제 데이터에 대한 가설을 설정하고 이를 입/반증하는 과정을 통해서, 로그 데이터 분석을 통해 사용자에 대한 이해도를 높이고 사용자들에게 더 좋은 반응을 이끌어 낼 수 있는 데이터 프로덕트를 만들고자 합니다. -어떤 데이터 팀 팀장
  • 65. + 결론(1) 빅데이터의 3 요소와 2 목표 툴 3 요소 2 목표 큰 데이터 셋 이해: Data Analytics 사용: Data Products 방법론
  • 66. + 결론(2): 데이터 사이언스 = 과학 과학적 방법론을 사용하기 때문 가설 설정: Hypothesis 모델 수립: Model 실험: A/B Testing 입증 / 반증
  • 67. + 그렇다면 무엇을 해야하나 1. 가설 설정은 인간의 몫임을 잊지 말라 http://www.portaloko.hr/slika/76532/0/800/69/576/1046/0/terminator.jpg
  • 68. + 그렇다면 무엇을 해야하나 2. 데이터 프로덕트는 수많은 앱/사이트의 곳곳에 숨어있다.
  • 69. + 그렇다면 무엇을 해야하나 3. 기존의 통계적 방법론을 공부하라 http://image.kyobobook.co.kr/images/book/large/231/l9788988399231.jpg
  • 70. + 그렇다면 무엇을 해야하나 4. 끊임없이 삽질해보라 http://cfile10.uf.tistory.com/image/146891404E0BC492379C1C

Notes de l'éditeur

  1. Data Science : Why is it “science?
  2. Imaginary conversation: I’m collecting user log data, I finished setting up hadoop cluster. Now I just want to do “something interesting” with big data
  3. Imaginary conversation: I’m collecting user log data, I finished setting up hadoop cluster. Now I just want to do “something interesting” with big data
  4. How can u do “something interesting” with big data?
  5. Disclaimer: This presentation is based on public research/presentations of LinkedIn. However, opinions presented here is mine, and can be differ from official stance of Linkedin. 2:05
  6. Definition of Big Data Very large sets of data that are produced by people using the internet, and that can only be stored, understood, and used with the help of special tools and methods – Cambridge Dictionary
  7. 3 elements of big data 각각의 요소에 대해 자세히 말할 필요는 없음(다음슬라이드들에서 할것이기 때문에)
  8. Element 1: very large data set
  9. Element 2: Tools 기하급수적
  10. Element 3: Methodology = Data Science
  11. Imaginary conversation: I’m collecting user log data, I finished setting up hadoop cluster. Now I just want to do “something interesting” with big data
  12. Imaginary conversation: I’m collecting user log data, I finished setting up hadoop cluster. Now I just want to do “something interesting” with big data
  13. How can u do “something interesting” with big data?
  14. Methodology is missing! 7:08
  15. What is data science?
  16. 3 elements of big data 각각의 요소에 대해 자세히 말할 필요는 없음(다음슬라이드들에서 할것이기 때문에)
  17. 3 elements of big data 각각의 요소에 대해 자세히 말할 필요는 없음(다음슬라이드들에서 할것이기 때문에)
  18. Why is it science?
  19. Hypothesis & Model building
  20. A/B Testing 오프라인 테스트도 언급?
  21. A/B Testing : Obama election campaign
  22. A/B Testing : Google “40shades of blue”
  23. Accept or decline the hypothesis 14:17
  24. 313million linkedin users
  25. Linkedin’s Data Products
  26. Linkedin’s Data Products
  27. Linkedin’s Data Products
  28. Big Data Ecosystem : Big data Product -> User Interaction Data -> Hadoop Cluster -> Key/Value Storage
  29. Open source projects used in Linkedin Data team.
  30. Analytics/Modeling layer’s knowledge is separated from infrastructure layer’s knowledge 18:17
  31. PYMK: Link Prediction On Social Network
  32. PYMK: Train the machine learning model using existing connection data
  33. PYMK: Hadoop workflow
  34. PYMK: serving data to users
  35. User’s reaction will be the new input data
  36. How PYMK has been changed from 2008 21:19
  37. Can we use organizational overlap on PYMK?
  38. Using scientific method
  39. The longer two users were on same organization, the higher the probability for them to know each other
  40. The larger the size of organization, the lower the probability for members within it to know each other
  41. Model of organizational overlap
  42. Model of organizational overlap
  43. Experiment of Organizational overlap: A/B Testing
  44. Organizational overlap: Hypothesis accepted
  45. Hypothesis: All cool companies are at north of silicon valley, while companies at south of silicon valley are boring?(joke)
  46. Hypothesis: All cool companies are at north of silicon valley, while companies at south of silicon valley are boring?(joke)
  47. Real Hypothesis: Silicon Valley’s distribution of the company resembles that of Network OSI 7 layer
  48. Methodology we used to extract skills by the region of silicon valley
  49. 31:00
  50. Imaginary conversation: I’m collecting user log data, I finished setting up hadoop cluster. Now I just want to do “something interesting” with big data
  51. Imaginary conversation: I’m collecting user log data, I finished setting up hadoop cluster. Now I just want to do “something interesting” with big data
  52. Imaginary conversation: I’m collecting user log data, I finished setting up hadoop cluster. Now I just want to do “something interesting” with big data
  53. 3 elements of big data 각각의 요소에 대해 자세히 말할 필요는 없음(다음슬라이드들에서 할것이기 때문에)
  54. Why is it science?
  55. Action Item 1: Don’t forget Hypothesis setup must be done by human
  56. Action Item 3: Be aware that data product is everywhere
  57. Action Item 2: Review statistics
  58. Action Item 4: Trial & Error – lots of iteration is the key
  59. 38:46