SlideShare une entreprise Scribd logo
1  sur  41
2013.10.10
전략사업팀/빅데이터사업부
송원문
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
빅데이터가 아닌 빅앤서
I. 빅데이터 분석 – 데이터 마이닝과 사례
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
빅데이터와 데이터 마이닝
I. 빅데이터 분석 – 데이터 마이닝과 사례
SYSTEM / MANAGEMENT ANALYSIS / APPLICATION
Hadoop and Ecosystem
/ MapReduce
Data Mining and
Machine Learning
빅데이터 분석
 MapReduce 기반의 데이터 분석
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
데이터 마이닝
I. 빅데이터 분석 – 데이터 마이닝과 사례
• Description
• 대량의 데이터로부터 그 안에 숨어있는(implicit) 새롭고(previously unknown), 가치 있고(non-
trivial), 의사결정에 유용한(potentially useful) 정보를 찾는 작업
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
데이터 마이닝을 위한 접근
I. 빅데이터 분석 – 데이터 마이닝과 사례
Data
Data
Mining
질문 어떤 사람들이 신용불량자(잠재)일까?
[ 가설의 생성 ]
* 직업이 자영업,무직 등에 속한 사람들
* 수입이 233만원 이하이고,
지역이 A지역에 거주하는 경우
신용불량 확률 높음
학습
(가설)
검증 모델 저장소
가설
Data
검증
고객의 직업과 수입 정도가
신용불량 여부와 관련이 많다.
질의도구
시각화도구
OLAP도구
기존 – 가설 확인 중심 데이터 분석
데이터 마이닝 - 가설 발견 중심 프로세스
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
데이터 마이닝 수행 방법
I. 빅데이터 분석 – 데이터 마이닝과 사례
Mining /
Training
Test/Evaluation/
Verification
Prediction/
Application
Data Set (DB, DW)
Training Data
Test(Evaluation)
Data
New Data
Training Model
Data Mining Process
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
데이터 마이닝 기법의 분류
I. 빅데이터 분석 – 데이터 마이닝과 사례
Data Mining
Predictive
Classification
(Supervised)
Descriptive
Clustering
(Unsupervised)
Association
Recommendation
k-NN
Decision Tree
Neural Networks
SVM
Regression
Bayes Network
k-means
EM
Density Based
SOM
Hierarchical
Apriori
FP-Growth
Collaborative Filtering
Contents Based
Association Rule Based
Machine
Learning
Text Mining
Social Analysis, ….
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
분류 및 군집 문제의 예
I. 빅데이터 분석 – 데이터 마이닝과 사례
Classification (분류) Clustering (군집)
• Supervised Learning (Predictive DM)
• 데이터(레코드)들을 미리 지정된 부류나 등급으
로 나누는 작업
• 예) 신용 등급에 따라 고객을
분류 하는 모델을 구축하고,
신규 고객의 정보에 따라 신용 등급을 예측
• Unsupervised Learning (Descriptive DM)
• 데이터(레코드)들을 유사한 성격을 가지는 그룹
으로 분할하는 작업
• 예) 고객을 특징이 유사한
그룹으로 분할하고 그룹별
특징을 분석
• 스팸 메일 자동 분류
• 문서의 카테고리 자동 분류
• 인터넷 중독 진단 시스템
• 학업 성취도/능력에 따른 학생 특징 분석
• 특정 질병에 대한 유전자 발현 특징 분석
• 구매 패턴 유사 고객 특징 분석
ID 월소득 직업 나이 학력 지역 기대출금 연체여부 … 신용등급
1 500 개발 45 대졸 강남 2,000 No … A
2 300 영업 30 고졸 은평 0 No … B
.. .. .. .. .. .. .. .. .. ..
특징(features)/속성(attributes) 목표 클래스 (target class)
- 350 영업 40 대졸 구로 1,000 No .. ?
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
연관 분석
I. 빅데이터 분석 – 데이터 마이닝과 사례
• 장바구니 분석 (마트 등에서의 구매 상품 목록)
• 금융 상품 구매 분석
• 영화/VOD 등 디지털 콘텐츠 구매 분석
Walmart
• Association
• 거래(구매) 데이터에서 자주 함께 판매되는 상품들간의 연관성에 대한 규칙을 찾아내는 분석
vs.
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
추천 분석
I. 빅데이터 분석 – 데이터 마이닝과 사례
• Recommendation (Personalization)
• 사용자가 좋아할 만한 콘텐츠/아이템을 선별해 내어 사용자에게 권유/소비를 유도 하는 것
[ 협력적 추천 – 사용자 기반 ]
나와 선호(시청) 성향이 유사한 사용자들이 좋다고 한 아이템(영화)를 나에게 추천한다.
Amazon, Netflix, MovieLens, Watcha
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
공공데이터 분석의 주요 사례 분류
I. 빅데이터 분석 – 데이터 마이닝과 사례
해외 사례 국내 사례
도로/교통
기상/교통 예측 (브라질)
심야버스 노선 결정 (서울시)
기상/재해/재난
치안 범죄 예방 시스템 (미국)
복지 맞춤형 복지 사회 (싱가포르) 수요자 중심 복지 서비스 (보건복지부)
기타 탈세 방지 시스템 (미국) 민원 정보 분석 (국민권익위원회)
• 국내 및 해외의 공공 부분 (지자체 및 정부 기관 등) 빅데이터 분석 활용 주요 사례
• 다양한 사례들 중 공공 분야별로 비교적 잘 알려졌거나 성공적으로 운영된 사례 중심
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
범죄 예방 시스템 / 미국 샌프란시스코
I. 빅데이터 분석 – 데이터 마이닝과 사례
• 범죄 발생 지역 및 발생 시각을 예측하여 범죄를 미연에 방지하기 위한 시스템
• 범죄 발생 지역 및 시각을 예측하여 필요한 곳에 경찰 인력을 배치, 범죄를 예방
• 과거 발생한 범죄 패턴을 분석하여 후속 범죄 가능성 예측
• 과거 데이터에서 범죄자 행동을 분석하여 사건 예방을 위한 해법 제시
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
탈세 방지 시스템 / 미국 국세청
I. 빅데이터 분석 – 데이터 마이닝과 사례
• 빅데이터 분석을 활용하여 탈세 및 사기 범죄 예방 시스템 구축
• 사기 방지 솔루션, 소셜 네트워크 분석, 데이터 통합 및 마이닝 등 활용
• 방대한 데이터로부터 탈세/사기 징후를 찾아내어 감시
• 연간 3,450억 달러의 세금 누락 및 불필요한 세금 환급 절감 효과 발생
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
맞춤형 복지사회 / 싱가포르
I. 빅데이터 분석 – 데이터 마이닝과 사례
• 데이터 분석을 통한 지역사회의 화합 및 맞춤형 복지사회 구현
• 다양한 인종, 나이, 문화, 소득, 연령에 따른 주민의 데이터를 수집/분석하여 맞춤형 서비스 제공 가
능한 플랫폼 구현
• 1,800개 이상의 주민위원회 센터를 네트워크로 연결하고 서비스 수요와 경험 데이터를 분석
• 주요 서비스 니즈별(인종, 문화, 소득, 연령을 고려한) 세분화를 통한 맞춤식 서비스 및 캠페인
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
기상 및 교통 예측 / 브라질 리우데자네이루
I. 빅데이터 분석 – 데이터 마이닝과 사례
• 환경, 교통, 치안 등 도시에서 발생하는 모든 정보를 통합한 똑똑해지는 도시 구현
• 강 유역의 지형 측량 자료, 강수량 통계, 레이더 사진 등의 데이터와 교통 체증, 정전 사태 등 30여
개의 시/정부 산하 부서 및 기관 공유 자료를 통합하여 도시에 영향을 미치는 데이터를 분석
• 48시간 전에 기상(폭우 및 홍수) 및 교통 상황을 예측하는 지능형 운영 센터 운영
• 정보를 시민들에게 제공하고 공무원 및 관련 팀에 내용 전달
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
심야버스 노선 결정 / 서울시
I. 빅데이터 분석 – 데이터 마이닝과 사례
• 이통사의 콜로그를 바탕으로 한 유동인구 정보를 기반으로 최적의 심야 버스 노선 결정
• 심야 시간대에 발생하는 콜 로그와 청구지 주소 등의 연관 분석을 통한 유동인구와 출발/목적지 예
측
• 구역별 유동인구 밀집도 및 노선/시간/요일별 패턴을 분석하여 최적 노선 정보를 추출
• 정류장 단위 통행량 추정과 요일별 배차 간격 조정을 통한 최적 노선 운영
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
민원정보분석 / 국민권익위원회
I. 빅데이터 분석 – 데이터 마이닝과 사례
• 월별, 지역별, 주요 민원을 캘린더로 제작하여 민원의 사전 예방과 대책 마련이 가능하도록 중앙 행정 기
관 및 지방 자치 단체 등에 제공
• 주요 민원 캘린더와 주요 민원 지도를 토대로 민원 사전 예방과 대책 마련
• 지역별, 계절별 주요 민원을 체계적으로 분석
• 불필요한 행정력 낭비 방지와 신뢰 행정 구현이 가능한 시스템으로 발전
• 온라인국민소통시스템의 홈페이지를 통한 민원 제안 콜센터 상당 등 분석
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
수요자 중심 복지 서비스 / 보건복지부
I. 빅데이터 분석 – 데이터 마이닝과 사례
• 지자체 공무원들의 복지 행정 처리를 지원하는 정보 시스템
• 지방 자치 단체에서 집행하는 120여가지 복지 급여 및 서비스 이력 데이터 이용
• 복지대상자 선정이 정확하고 효율적으로 이루어져 복지 행정의 획기적인 변화 기대
• 다양한 복지 사업별 유사/중복 서식을 통합하고 데이터를 공유하여 행정 효율 및 민원 편의 증대
• 지자체의 복지급여 및 서비스 이력을 통합 관리하여 복지 대상자 선정, 사후 관리 등의 업무를 지원
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
빅데이터 처리를 위한 분산 프로세스 구조
II. 빅데이터 분석 기술: MapReduce
• In Wikipedia
• MapReduce is a programming model for processing large data sets with a parallel, distributed
algorithm on a cluster.
• A MapReduce program comprises a Map() procedure that performs filtering and sorting and a
Reduce() procedure that performs a summary operation.
• Hadoop으로 대표되는 빅데이터 플랫폼에서의 데
이터 처리 프로세스
• Map/Reduce : Key, Value 구조를 기반으로
하는 데이터 분산 처리 구조
(프레임워크)
• Google에서 2004년 최초 발표
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
MapReduce 프레임워크의 프로세스 예시
II. 빅데이터 분석 기술: MapReduce
< Map >
라인 단위입력 내용을
Key와 Value로 구분하여 표기
< Reduce >
동일 Key의 Value를
List로 전달받아 일괄 처리
파일 내 출현 단어들의 횟수를 확인하는 Map/Reduce 프레임워크 구조
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
MapReduce 프레임워크의 프로세스 예시: Mapper
II. 빅데이터 분석 기술: MapReduce
Deer Beer River
Car Car River
Mapper Key (Line Offset) Value (String)
Mapper – 1 ?????? Deer Beer River
Mapper - 2 ?????? Car Car River
Data File Mapper Input from Data File
ex) Split Words
Set Word as “Key”
Set 1 as “Value” for count
Mapper
Value Processing
: Key Value Setting
Mapper Key Value
Mapper – 1
Deer 1
Beer 1
River 1
Mapper - 2
Car 1
Car 1
River 1
Mapper Output for Reducer
6 Key-Value Pairs
the number of mappers
= the number of lines
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
MapReduce 프레임워크의 프로세스 예시: Reducer
II. 빅데이터 분석 기술: MapReduce
Key Value
Deer 1
Beer 1
River 1
Car 1
Car 1
River 1
Input from Mapper
(6 key-Value Pair)
Key Value
Deer 1
Sort / Shuffle
Key Value
River 1
River 1
Key Value
Beer 1
Key Value
Car 1
Car 1
Reducer Key Value (List)
Reducer-1 Beer {1}
Reducer-2 Car {1, 1}
Reducer-3 Deer {1}
Reducer-4 River {1, 1}
Reducer Input
Reducer
Value Processing (Iterative)
: Key Value Writing
ex) Compute Value Sum
Set Key as “Key”
Set Sum as “Value”
Beer 1
Car 2
Deer 1
River 2Result File
the number of reducers
= the number of distinct keys
Reducer Output
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
K-means 군집 분석의 개념
III. 빅데이터 분석 예 – 1. 군집 분석
• 군집 분석 – 데이터를 속성이 유사한 데이터들끼리 그룹을 만드는 것
• K-means – 데이터를 가장 가까운 군집에 할당 시키고, 동일 소속 데이터들의 정보에 따라
군집의 중심을 업데이트 해 가는 과정을 반복하여 군집을 형성 하는 것
(a) 초기 군집 중심 설정 (b) 데이터에 군집 할당 (c) 군집 중심 업데이트
(b 반복) 데이터에 군집 할당
(c 반복) 군집 중심이
변경되지 않을
때 까지 b와 c
를 반복 수행
 군집 중심이 변경
되지 않으면 종료
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
K-means 군집 분석의 MapReduce 수행 설계
III. 빅데이터 분석 예 – 1. 군집 분석
1. 군집의 초기 중심을 설정 한다.
2. 모든 데이터에 대해 다음을 수행 (반복)
- 데이터 자신과 각 군집 중심과의 거리를 측정한다.
- 가장 가까운 군집 중심에 데이터 자신을 할당한다.
3. 모든 군집에 대해 다음을 수행 (반복)
- 군집에 할당된 모든 데이터의 평균을 계산한다.
- 계산된 평균을 군집의 중심 정보로 업데이트 한다.
4. 업데이트 된 군집 중심 정보와 업데이트 이전의 군집 중심을 비교 한다
- 만약, 군집 중심이 달라졌다면, 다시 2번 과정부터 반복 한다.
- 만약 군집 중심이 변경되지 않았다면, 군집을 종료 한다.
K-means 군집 프로세스와 MapReduce 변환
모든 데이터에 대해
동일 과정 반복 수행
 Mapper
각 군집별 데이터를
이용하여 군집별로
수행  Reducer
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
K-means 군집 분석의 MapReduce 수행 설계: MapReduce
III. 빅데이터 분석 예 – 1. 군집 분석
Map
1, 1 1, (1, 1)
2, 2 2, (2, 2)
9, 9 2, (9, 9)
10, 10 2, (10, 10)
Reduce
1, {(1, 1)} (1, 1)
2, {(2, 2),
(9, 9),
(10, 10)}
(7, 7)동일 Key로
셔플/정렬
Cluster ID Cluster Info
1 1, 1
2 2, 2
X
X
X
X
Map
1, 1 1, (1, 1)
2, 2 1, (2, 2)
9, 9 2, (9, 9)
10, 10 2, (10, 10)
MapReduce 반복
Reduce
1, {(1, 1),
(2, 2)}
(1.5, 1.5)
2, {(9, 9),
(10, 10)}
(9.5, 9.5)
X
X
X
X
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
추천 분석 – 협력적 추천 (Collaborative Filtering based Recommendation)
IV. 빅데이터 분석 예 – 2. 추천 분석
Process - 1 Users Extraction having Similar Preference
Process - 2
Recommendation
based on Similar
User’s Preferences
[ 협력적 추천
– 사용자 기반 ]
나와 선호(시청) 성향이
유사한 사용자들이 좋다고
한 아이템(영화)를 나에게 추
천
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
유사 사용자 정보와 협력적 추천
IV. 빅데이터 분석 예 – 2. 추천 분석
Ii
wiw
Ii
uiu
Ii
wiwuiu
RRRR
RRRR
wuPCC
2
,
2
,
,,
)()(
))((
),(
U2 = {I2=1, I3=-1, I4=-1}
U5 = {I1=1, I2=1, I3=-1}
 PCC(U2, U5) = 1
PCC (Pearson Correlation Coefficient): 두 벡터간 공통 항목 값의 상관 관계, -1~1사이의 실수
- 1인 경우 두 벡터는 음의 상관관계, 1인 경우 양의 상관관계, 0인 경우 특별한 관계가 없음
U1
U2
U3
U4
U5
I1 I2 I3 I4
U2와 U5의 pcc가 1  양의 상관 관계
 U2의 I4 값이 -1이므로
U5의 I4 값 또한 -1일 것
협력적 추천의 핵심
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
실제 데이터에 PCC 계산을 적용한 예
IV. 빅데이터 분석 예 – 2. 추천 분석
uid item-1 item-2 item-3 item-4 item-5 item-6 item-7 item-8
u 5 3 1 2 1 4 5 3
w 4 3 2 1 2 5 4 3
Ii
wiw
Ii
uiu
Ii
wiwuiu
RRRR
RRRR
wuPCC
2
,
2
,
,,
)()(
))((
),(
82.0),( wuPCC
uid item-100
u 5
w ?  4 or 5
서로 동일한 성향인 정도가 0.82(최대값 1)
• Netflix(DVD 대여 회사) 평가 데이터의 PCC 계산 예
• 사용자들이 대여한 DVD에 대해 1~5점 사이로 평점을 표기한 데이터
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
Netflix 데이터의 MapReduce 기반의 PCC 계산
IV. 빅데이터 분석 예 – 2. 추천 분석
Alice, Matrix, 5
Alice, Alien, 1
Alice, Inception, 4
Bob, Alien, 2
Bob, Inception, 5
Peter, Matrix, 4
Peter, Alien, 3
Peter, Inception, 2
Netflix 데이터 예 (사용자, 영화, 평점)
PCC(Alice, Bob) = ?
PCC(Alice, Peter) = ?
PCC(Bob, Peter) = ?
Matrix Alien Inception
Alice 5 1 4
Bob 2 5
Peter 4 3 2
2번의 Map/Reduce 작업을 통해 사용자간의 PCC 계산 가능
Sequential 프로그래밍이 아닌
Map/Reduce 구조에 기반한 PCC 계산 로직 설계/개발 필요
• 1단계 Map/Reduce – 동일 영화를 본 사용자 쌍 정보를 추출
• 2단계 Map/Reduce – 사용자 쌍(동일 영화에 대한 평점 목록)에 대하여 PCC를 계산
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
Netflix 데이터의 MapReduce 기반의 PCC 계산 – 1st MapReduce
IV. 빅데이터 분석 예 – 2. 추천 분석
Map
Alice, Matrix, 5 Matrix (Alice, 5)
Alice, Alien, 1 Alien (Alice, 1)
Alice, Inception, 4 Inception (Alice, 4)
Bob, Alien, 2 Alien (Bob, 2)
Bob, Inception, 5 Inception (Bob, 5)
Peter, Matrix, 4 Matrix (Peter, 4)
Peter, Alien, 3 Alien (Peter, 3)
Peter, Inception, 2 Inception (Peter, 2)
Reduce
Matrix {(Alice, 5)
, (Peter, 4)}
(Alice, Peter) (Matrix) (5, 4)
Alien {(Alice, 1)
, (Bob, 2)
, (Peter, 3)}
(Alice, Bob) (Alien) (1, 2)
(Alice, Peter) (Alien) (1, 3)
(Bob, Peter) (Alien) (2, 3)
Inception {(Alice, 4)
, (Bob, 5)
, (Peter, 2)}
(Alice, Bob) (Inception) (4, 5)
(Alice, Peter) (Inception) (4, 2)
(Bob, Peter) (Inception) (5, 2)
동일 Key로 셔플/정렬
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
Netflix 데이터의 MapReduce 기반의 PCC 계산 – 2nd MapReduce
IV. 빅데이터 분석 예 – 2. 추천 분석
Map
Alice, Peter, Matrix, 5, 4 (Alice, Peter) (5, 4)
Alice, Bob, Alien, 1, 2 (Alice, Bob) (1, 2)
Alice, Peter, Alien, 1, 3 (Alice, Peter) (1, 3)
Bob, Peter, Alien, 2, 3 (Bob, Peter) (2, 3)
Alice, Bob, Inception, 4, 5 (Alice, Bob) (4, 5)
Alice, Peter, Inception, 4, 2 (Alice, Peter) (4, 2)
Bob, Peter, Inception, 5, 2 (Bob, Peter) (5, 2)
Reduce
(Alice, Peter) {(5, 4)
, (1, 3)
, (4, 2)}
(Alice, Peter) (0.24)
(Alice, Bob) {(1, 2)
, (4, 5)}
(Alice, Bob) (1.00)
(Bob, Peter) {(2, 3)
, (5, 2)}
(Bob, Peter) (-1.00)
Matrix Alien Inception
Alice 5 1 4
Bob 2 5
Peter 4 3 2
동일 Key로 셔플/정렬
Ii
wiw
Ii
uiu
Ii
wiwuiu
RRRR
RRRR
wuPCC
2
,
2
,
,,
)()(
))((
),(
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
Netflix 데이터의 MapReduce 기반의 PCC 계산 – Summary
IV. 빅데이터 분석 예 – 2. 추천 분석
Alice, Matrix, 5
Alice, Alien, 1
Alice, Inception, 4
Bob, Alien, 2
Bob, Inception, 5
Peter, Matrix, 4
Peter, Alien, 3
Peter, Inception, 2
PCC(Alice, Bob) = 0.24
PCC(Alice, Peter) = 1.00
PCC(Bob, Peter) = -1.00
Mapper
Reducer
Mapper
Reducer
영화를 키로, 사용자와 점수를 추출
동일 영화를 함께 본 사용자 점수 쌍을 생성
사용자 쌍을 키로, 함께 본 영화의 점수 쌍을 추출
동일 사용자 쌍에 대해 함께 본 영화의 점수 쌍을
취합하여 PCC를 계산
MapReduce based Data Mining and Machine Learning Algorithms
for Intelligent Big Data Analysis in Hadoop Framework
http://www.openankus.org
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
지능형 빅데이터 분석 라이브러리
V. 빅데이터 분석 도구 - Ankus
• Ankus: Intelligent Big Data Analyzer
• 빅 데이터 분석/활용 통합 프레임워크 환경을 제공을 위한 Hadoop 기반 분산 빅데이터 환경에서의
데이터 마이닝 및 기계학습 기반의 데이터 분석 라이브러리
• 오픈 소스 기반의 SW 이며, Java 라이브러리 형태로 배포됨
Ankus 와 통합 프레임워크 Flamingo Hadoop Manager & Appliance
지능형 분석을 위한
Ankus의 요소 기술
 기초 통계 분석 및 데이터
전처리
 데이터 유사/상관 분석
 분류/군집 등 기계학습 분석
 맞춤형 콘텐츠 추천 분석
Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
지능형 빅데이터 분석 라이브러리
V. 빅데이터 분석 도구 - Ankus
• Ankus: Intelligent Big Data Analyzer
빅데이터 기반 의사 결정 지원을
위한 데이터 마이닝 및 기계학습
기반 분석
Apache Hadoop과의 연동을 통한
Mahout 대체 국내 공개 SW 기술
활용 분야
분산 빅데이터 환경을 위한 MapReduce 기반의 분산 분석 알고리즘 제공
기초 통계 및 전처리 등 패턴 분석과 분류/군집 분석 등의 기계학습 기반 분석 제공
기업 실무 적용/활용을 위한 개인 맞춤형 추천 분석 모듈 제공
빅데이터 활용 통합을 위한 Flamingo Hadoop Manager/Appliance와의 연동 제공 예정
주요 특징
개발 마일스톤
Big Data Analytics and Data Mining

Contenu connexe

Tendances

[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with data
[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with data[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with data
[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with dataK data
 
빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향atelier t*h
 
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아K data
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드kosena
 
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410Peter Woo
 
Neural stream
Neural streamNeural stream
Neural streamMk Kim
 
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big dataK data
 
빅데이터 이용 사례 분석
빅데이터 이용 사례 분석빅데이터 이용 사례 분석
빅데이터 이용 사례 분석ko donghwi
 
집단지성 프로그래밍 01-데이터마이닝 개요
집단지성 프로그래밍 01-데이터마이닝 개요집단지성 프로그래밍 01-데이터마이닝 개요
집단지성 프로그래밍 01-데이터마이닝 개요Kwang Woo NAM
 
빅데이터 활용사례 by GoldenWired INC.
빅데이터 활용사례 by GoldenWired INC.빅데이터 활용사례 by GoldenWired INC.
빅데이터 활용사례 by GoldenWired INC.Byounghee Kim
 
빅 데이터 개요 및 활용
빅 데이터 개요 및 활용빅 데이터 개요 및 활용
빅 데이터 개요 및 활용Jin wook
 
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21Donghan Kim
 
빅데이터_ISP수업
빅데이터_ISP수업빅데이터_ISP수업
빅데이터_ISP수업jrim Choi
 
[2016 데이터 그랜드 컨퍼런스] 2 5(빅데이터). 유비원 비정형데이터 중심의 big data 활용방안
[2016 데이터 그랜드 컨퍼런스] 2 5(빅데이터). 유비원 비정형데이터 중심의 big data 활용방안[2016 데이터 그랜드 컨퍼런스] 2 5(빅데이터). 유비원 비정형데이터 중심의 big data 활용방안
[2016 데이터 그랜드 컨퍼런스] 2 5(빅데이터). 유비원 비정형데이터 중심의 big data 활용방안K data
 
20120924134035 빅데이터시대,ai의새로운의미와가치
20120924134035 빅데이터시대,ai의새로운의미와가치20120924134035 빅데이터시대,ai의새로운의미와가치
20120924134035 빅데이터시대,ai의새로운의미와가치Webometrics Class
 
실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루Jaimie Kwon (권재명)
 
빅데이터 윈윈 컨퍼런스-지능형 보험 부당청구탐지와 예측
빅데이터 윈윈 컨퍼런스-지능형 보험 부당청구탐지와 예측빅데이터 윈윈 컨퍼런스-지능형 보험 부당청구탐지와 예측
빅데이터 윈윈 컨퍼런스-지능형 보험 부당청구탐지와 예측ABRC_DATA
 

Tendances (20)

[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with data
[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with data[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with data
[2016 데이터 그랜드 컨퍼런스] 6 5(전략, 솔루션). 뉴스젤리 social innovation with data
 
Bigdata
BigdataBigdata
Bigdata
 
빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향
 
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
[2016 데이터 그랜드 컨퍼런스] 1 3. bk3(엔코아)데이터그랜드컨퍼런스 4차산업혁명의 핵심-데이터경제-엔코아
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드
 
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
빅데이터미래전략세미나발표자료 빅데이터기술현황및전망-황승구-20120410
 
Neural stream
Neural streamNeural stream
Neural stream
 
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big data
 
빅데이터
빅데이터빅데이터
빅데이터
 
빅데이터 이용 사례 분석
빅데이터 이용 사례 분석빅데이터 이용 사례 분석
빅데이터 이용 사례 분석
 
집단지성 프로그래밍 01-데이터마이닝 개요
집단지성 프로그래밍 01-데이터마이닝 개요집단지성 프로그래밍 01-데이터마이닝 개요
집단지성 프로그래밍 01-데이터마이닝 개요
 
빅데이터 활용사례 by GoldenWired INC.
빅데이터 활용사례 by GoldenWired INC.빅데이터 활용사례 by GoldenWired INC.
빅데이터 활용사례 by GoldenWired INC.
 
빅 데이터 개요 및 활용
빅 데이터 개요 및 활용빅 데이터 개요 및 활용
빅 데이터 개요 및 활용
 
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
시나리오로 알아보는 빅데이터 대응전략(배포용) Dh kim-2013-3-21
 
빅데이터 개요
빅데이터 개요빅데이터 개요
빅데이터 개요
 
빅데이터_ISP수업
빅데이터_ISP수업빅데이터_ISP수업
빅데이터_ISP수업
 
[2016 데이터 그랜드 컨퍼런스] 2 5(빅데이터). 유비원 비정형데이터 중심의 big data 활용방안
[2016 데이터 그랜드 컨퍼런스] 2 5(빅데이터). 유비원 비정형데이터 중심의 big data 활용방안[2016 데이터 그랜드 컨퍼런스] 2 5(빅데이터). 유비원 비정형데이터 중심의 big data 활용방안
[2016 데이터 그랜드 컨퍼런스] 2 5(빅데이터). 유비원 비정형데이터 중심의 big data 활용방안
 
20120924134035 빅데이터시대,ai의새로운의미와가치
20120924134035 빅데이터시대,ai의새로운의미와가치20120924134035 빅데이터시대,ai의새로운의미와가치
20120924134035 빅데이터시대,ai의새로운의미와가치
 
실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루실리콘 밸리 데이터 사이언티스트의 하루
실리콘 밸리 데이터 사이언티스트의 하루
 
빅데이터 윈윈 컨퍼런스-지능형 보험 부당청구탐지와 예측
빅데이터 윈윈 컨퍼런스-지능형 보험 부당청구탐지와 예측빅데이터 윈윈 컨퍼런스-지능형 보험 부당청구탐지와 예측
빅데이터 윈윈 컨퍼런스-지능형 보험 부당청구탐지와 예측
 

Similaire à Big Data Analytics and Data Mining

[Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining [Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining SuHyun Jeon
 
빅데이터의 활용
빅데이터의 활용빅데이터의 활용
빅데이터의 활용수보 김
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdfYunjeong Susan Hong
 
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)Amazon Web Services Korea
 
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례Amazon Web Services Korea
 
LH Smartcity for osgeo
LH Smartcity for osgeoLH Smartcity for osgeo
LH Smartcity for osgeossuser3b2776
 
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기Amazon Web Services Korea
 
[발표자료] 190401 논문 정보 수집과 연구 동향 분석 세미나
[발표자료] 190401 논문 정보 수집과 연구 동향 분석 세미나[발표자료] 190401 논문 정보 수집과 연구 동향 분석 세미나
[발표자료] 190401 논문 정보 수집과 연구 동향 분석 세미나Cyram Inc
 
DLAB company info and big data case studies
DLAB company info and big data case studiesDLAB company info and big data case studies
DLAB company info and big data case studiesDLAB
 
공공데이터 개방현황 및 포털 발전방향
공공데이터 개방현황 및 포털 발전방향공공데이터 개방현황 및 포털 발전방향
공공데이터 개방현황 및 포털 발전방향Haklae Kim
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요Hosung Lee
 
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...Amazon Web Services Korea
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
 
빅데이터와 로봇 (Big Data in Robotics)
빅데이터와 로봇 (Big Data in Robotics)빅데이터와 로봇 (Big Data in Robotics)
빅데이터와 로봇 (Big Data in Robotics)Hong-Seok Kim
 
빅재미(BigZAMi), 빅데이터 분석 플랫폼(AutoML포함) 소개해 드립니다.
빅재미(BigZAMi), 빅데이터 분석 플랫폼(AutoML포함) 소개해 드립니다.빅재미(BigZAMi), 빅데이터 분석 플랫폼(AutoML포함) 소개해 드립니다.
빅재미(BigZAMi), 빅데이터 분석 플랫폼(AutoML포함) 소개해 드립니다.kosena
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)Metatron
 
Lh smartcity for_osgeo
Lh smartcity for_osgeoLh smartcity for_osgeo
Lh smartcity for_osgeossuser3b2776
 
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)Treasure Data, Inc.
 
1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)
1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)
1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)doo rip choi
 
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장eungjin cho
 

Similaire à Big Data Analytics and Data Mining (20)

[Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining [Ankus Open Source Conference 2013] Introduction to Ankus / data mining
[Ankus Open Source Conference 2013] Introduction to Ankus / data mining
 
빅데이터의 활용
빅데이터의 활용빅데이터의 활용
빅데이터의 활용
 
데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf데이터드리븐 DX 추진방안_202306.pdf
데이터드리븐 DX 추진방안_202306.pdf
 
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
AWS Partner Techshift - (SaaS) 사업을 위한 데이터 기반 세일즈/마케팅 전략과 노하우 (트레져데이터 고영혁 수석)
 
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
[Partner TechForum] 고객을 360도로 이해하고 수익으로 연결하는 글로벌 선도 금융 기업들의 데이터 플랫폼 활용 사례
 
LH Smartcity for osgeo
LH Smartcity for osgeoLH Smartcity for osgeo
LH Smartcity for osgeo
 
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
AWS Finance Symposum_AWS 로 빅데이터 분석을 쉽고 간단하게 시작하기
 
[발표자료] 190401 논문 정보 수집과 연구 동향 분석 세미나
[발표자료] 190401 논문 정보 수집과 연구 동향 분석 세미나[발표자료] 190401 논문 정보 수집과 연구 동향 분석 세미나
[발표자료] 190401 논문 정보 수집과 연구 동향 분석 세미나
 
DLAB company info and big data case studies
DLAB company info and big data case studiesDLAB company info and big data case studies
DLAB company info and big data case studies
 
공공데이터 개방현황 및 포털 발전방향
공공데이터 개방현황 및 포털 발전방향공공데이터 개방현황 및 포털 발전방향
공공데이터 개방현황 및 포털 발전방향
 
2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요2017 주요 기술 흐름 및 개요
2017 주요 기술 흐름 및 개요
 
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...
 
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)
 
빅데이터와 로봇 (Big Data in Robotics)
빅데이터와 로봇 (Big Data in Robotics)빅데이터와 로봇 (Big Data in Robotics)
빅데이터와 로봇 (Big Data in Robotics)
 
빅재미(BigZAMi), 빅데이터 분석 플랫폼(AutoML포함) 소개해 드립니다.
빅재미(BigZAMi), 빅데이터 분석 플랫폼(AutoML포함) 소개해 드립니다.빅재미(BigZAMi), 빅데이터 분석 플랫폼(AutoML포함) 소개해 드립니다.
빅재미(BigZAMi), 빅데이터 분석 플랫폼(AutoML포함) 소개해 드립니다.
 
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
[DDC 2018] Metatron 오픈소스화 및 생태계 구축 (SKT 이정룡, 김지호)
 
Lh smartcity for_osgeo
Lh smartcity for_osgeoLh smartcity for_osgeo
Lh smartcity for_osgeo
 
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
글로벌 사례로 보는 데이터로 돈 버는 법 - 트레저데이터 (Treasure Data)
 
1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)
1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)
1.고객을 이해하는 빅데이터 (4차산업혁명: 고객과의 소통 신기술의 진화)
 
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
 

Big Data Analytics and Data Mining

  • 2.
  • 3.
  • 4. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 빅데이터가 아닌 빅앤서 I. 빅데이터 분석 – 데이터 마이닝과 사례
  • 5. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 빅데이터와 데이터 마이닝 I. 빅데이터 분석 – 데이터 마이닝과 사례 SYSTEM / MANAGEMENT ANALYSIS / APPLICATION Hadoop and Ecosystem / MapReduce Data Mining and Machine Learning 빅데이터 분석  MapReduce 기반의 데이터 분석
  • 6. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 데이터 마이닝 I. 빅데이터 분석 – 데이터 마이닝과 사례 • Description • 대량의 데이터로부터 그 안에 숨어있는(implicit) 새롭고(previously unknown), 가치 있고(non- trivial), 의사결정에 유용한(potentially useful) 정보를 찾는 작업
  • 7. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 데이터 마이닝을 위한 접근 I. 빅데이터 분석 – 데이터 마이닝과 사례 Data Data Mining 질문 어떤 사람들이 신용불량자(잠재)일까? [ 가설의 생성 ] * 직업이 자영업,무직 등에 속한 사람들 * 수입이 233만원 이하이고, 지역이 A지역에 거주하는 경우 신용불량 확률 높음 학습 (가설) 검증 모델 저장소 가설 Data 검증 고객의 직업과 수입 정도가 신용불량 여부와 관련이 많다. 질의도구 시각화도구 OLAP도구 기존 – 가설 확인 중심 데이터 분석 데이터 마이닝 - 가설 발견 중심 프로세스
  • 8. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 데이터 마이닝 수행 방법 I. 빅데이터 분석 – 데이터 마이닝과 사례 Mining / Training Test/Evaluation/ Verification Prediction/ Application Data Set (DB, DW) Training Data Test(Evaluation) Data New Data Training Model Data Mining Process
  • 9. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 데이터 마이닝 기법의 분류 I. 빅데이터 분석 – 데이터 마이닝과 사례 Data Mining Predictive Classification (Supervised) Descriptive Clustering (Unsupervised) Association Recommendation k-NN Decision Tree Neural Networks SVM Regression Bayes Network k-means EM Density Based SOM Hierarchical Apriori FP-Growth Collaborative Filtering Contents Based Association Rule Based Machine Learning Text Mining Social Analysis, ….
  • 10. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 분류 및 군집 문제의 예 I. 빅데이터 분석 – 데이터 마이닝과 사례 Classification (분류) Clustering (군집) • Supervised Learning (Predictive DM) • 데이터(레코드)들을 미리 지정된 부류나 등급으 로 나누는 작업 • 예) 신용 등급에 따라 고객을 분류 하는 모델을 구축하고, 신규 고객의 정보에 따라 신용 등급을 예측 • Unsupervised Learning (Descriptive DM) • 데이터(레코드)들을 유사한 성격을 가지는 그룹 으로 분할하는 작업 • 예) 고객을 특징이 유사한 그룹으로 분할하고 그룹별 특징을 분석 • 스팸 메일 자동 분류 • 문서의 카테고리 자동 분류 • 인터넷 중독 진단 시스템 • 학업 성취도/능력에 따른 학생 특징 분석 • 특정 질병에 대한 유전자 발현 특징 분석 • 구매 패턴 유사 고객 특징 분석 ID 월소득 직업 나이 학력 지역 기대출금 연체여부 … 신용등급 1 500 개발 45 대졸 강남 2,000 No … A 2 300 영업 30 고졸 은평 0 No … B .. .. .. .. .. .. .. .. .. .. 특징(features)/속성(attributes) 목표 클래스 (target class) - 350 영업 40 대졸 구로 1,000 No .. ?
  • 11. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 연관 분석 I. 빅데이터 분석 – 데이터 마이닝과 사례 • 장바구니 분석 (마트 등에서의 구매 상품 목록) • 금융 상품 구매 분석 • 영화/VOD 등 디지털 콘텐츠 구매 분석 Walmart • Association • 거래(구매) 데이터에서 자주 함께 판매되는 상품들간의 연관성에 대한 규칙을 찾아내는 분석 vs.
  • 12. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 추천 분석 I. 빅데이터 분석 – 데이터 마이닝과 사례 • Recommendation (Personalization) • 사용자가 좋아할 만한 콘텐츠/아이템을 선별해 내어 사용자에게 권유/소비를 유도 하는 것 [ 협력적 추천 – 사용자 기반 ] 나와 선호(시청) 성향이 유사한 사용자들이 좋다고 한 아이템(영화)를 나에게 추천한다. Amazon, Netflix, MovieLens, Watcha
  • 13. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 공공데이터 분석의 주요 사례 분류 I. 빅데이터 분석 – 데이터 마이닝과 사례 해외 사례 국내 사례 도로/교통 기상/교통 예측 (브라질) 심야버스 노선 결정 (서울시) 기상/재해/재난 치안 범죄 예방 시스템 (미국) 복지 맞춤형 복지 사회 (싱가포르) 수요자 중심 복지 서비스 (보건복지부) 기타 탈세 방지 시스템 (미국) 민원 정보 분석 (국민권익위원회) • 국내 및 해외의 공공 부분 (지자체 및 정부 기관 등) 빅데이터 분석 활용 주요 사례 • 다양한 사례들 중 공공 분야별로 비교적 잘 알려졌거나 성공적으로 운영된 사례 중심
  • 14. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 범죄 예방 시스템 / 미국 샌프란시스코 I. 빅데이터 분석 – 데이터 마이닝과 사례 • 범죄 발생 지역 및 발생 시각을 예측하여 범죄를 미연에 방지하기 위한 시스템 • 범죄 발생 지역 및 시각을 예측하여 필요한 곳에 경찰 인력을 배치, 범죄를 예방 • 과거 발생한 범죄 패턴을 분석하여 후속 범죄 가능성 예측 • 과거 데이터에서 범죄자 행동을 분석하여 사건 예방을 위한 해법 제시
  • 15. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 탈세 방지 시스템 / 미국 국세청 I. 빅데이터 분석 – 데이터 마이닝과 사례 • 빅데이터 분석을 활용하여 탈세 및 사기 범죄 예방 시스템 구축 • 사기 방지 솔루션, 소셜 네트워크 분석, 데이터 통합 및 마이닝 등 활용 • 방대한 데이터로부터 탈세/사기 징후를 찾아내어 감시 • 연간 3,450억 달러의 세금 누락 및 불필요한 세금 환급 절감 효과 발생
  • 16. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 맞춤형 복지사회 / 싱가포르 I. 빅데이터 분석 – 데이터 마이닝과 사례 • 데이터 분석을 통한 지역사회의 화합 및 맞춤형 복지사회 구현 • 다양한 인종, 나이, 문화, 소득, 연령에 따른 주민의 데이터를 수집/분석하여 맞춤형 서비스 제공 가 능한 플랫폼 구현 • 1,800개 이상의 주민위원회 센터를 네트워크로 연결하고 서비스 수요와 경험 데이터를 분석 • 주요 서비스 니즈별(인종, 문화, 소득, 연령을 고려한) 세분화를 통한 맞춤식 서비스 및 캠페인
  • 17. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 기상 및 교통 예측 / 브라질 리우데자네이루 I. 빅데이터 분석 – 데이터 마이닝과 사례 • 환경, 교통, 치안 등 도시에서 발생하는 모든 정보를 통합한 똑똑해지는 도시 구현 • 강 유역의 지형 측량 자료, 강수량 통계, 레이더 사진 등의 데이터와 교통 체증, 정전 사태 등 30여 개의 시/정부 산하 부서 및 기관 공유 자료를 통합하여 도시에 영향을 미치는 데이터를 분석 • 48시간 전에 기상(폭우 및 홍수) 및 교통 상황을 예측하는 지능형 운영 센터 운영 • 정보를 시민들에게 제공하고 공무원 및 관련 팀에 내용 전달
  • 18. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 심야버스 노선 결정 / 서울시 I. 빅데이터 분석 – 데이터 마이닝과 사례 • 이통사의 콜로그를 바탕으로 한 유동인구 정보를 기반으로 최적의 심야 버스 노선 결정 • 심야 시간대에 발생하는 콜 로그와 청구지 주소 등의 연관 분석을 통한 유동인구와 출발/목적지 예 측 • 구역별 유동인구 밀집도 및 노선/시간/요일별 패턴을 분석하여 최적 노선 정보를 추출 • 정류장 단위 통행량 추정과 요일별 배차 간격 조정을 통한 최적 노선 운영
  • 19. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 민원정보분석 / 국민권익위원회 I. 빅데이터 분석 – 데이터 마이닝과 사례 • 월별, 지역별, 주요 민원을 캘린더로 제작하여 민원의 사전 예방과 대책 마련이 가능하도록 중앙 행정 기 관 및 지방 자치 단체 등에 제공 • 주요 민원 캘린더와 주요 민원 지도를 토대로 민원 사전 예방과 대책 마련 • 지역별, 계절별 주요 민원을 체계적으로 분석 • 불필요한 행정력 낭비 방지와 신뢰 행정 구현이 가능한 시스템으로 발전 • 온라인국민소통시스템의 홈페이지를 통한 민원 제안 콜센터 상당 등 분석
  • 20. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 수요자 중심 복지 서비스 / 보건복지부 I. 빅데이터 분석 – 데이터 마이닝과 사례 • 지자체 공무원들의 복지 행정 처리를 지원하는 정보 시스템 • 지방 자치 단체에서 집행하는 120여가지 복지 급여 및 서비스 이력 데이터 이용 • 복지대상자 선정이 정확하고 효율적으로 이루어져 복지 행정의 획기적인 변화 기대 • 다양한 복지 사업별 유사/중복 서식을 통합하고 데이터를 공유하여 행정 효율 및 민원 편의 증대 • 지자체의 복지급여 및 서비스 이력을 통합 관리하여 복지 대상자 선정, 사후 관리 등의 업무를 지원
  • 21.
  • 22. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 빅데이터 처리를 위한 분산 프로세스 구조 II. 빅데이터 분석 기술: MapReduce • In Wikipedia • MapReduce is a programming model for processing large data sets with a parallel, distributed algorithm on a cluster. • A MapReduce program comprises a Map() procedure that performs filtering and sorting and a Reduce() procedure that performs a summary operation. • Hadoop으로 대표되는 빅데이터 플랫폼에서의 데 이터 처리 프로세스 • Map/Reduce : Key, Value 구조를 기반으로 하는 데이터 분산 처리 구조 (프레임워크) • Google에서 2004년 최초 발표
  • 23. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. MapReduce 프레임워크의 프로세스 예시 II. 빅데이터 분석 기술: MapReduce < Map > 라인 단위입력 내용을 Key와 Value로 구분하여 표기 < Reduce > 동일 Key의 Value를 List로 전달받아 일괄 처리 파일 내 출현 단어들의 횟수를 확인하는 Map/Reduce 프레임워크 구조
  • 24. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. MapReduce 프레임워크의 프로세스 예시: Mapper II. 빅데이터 분석 기술: MapReduce Deer Beer River Car Car River Mapper Key (Line Offset) Value (String) Mapper – 1 ?????? Deer Beer River Mapper - 2 ?????? Car Car River Data File Mapper Input from Data File ex) Split Words Set Word as “Key” Set 1 as “Value” for count Mapper Value Processing : Key Value Setting Mapper Key Value Mapper – 1 Deer 1 Beer 1 River 1 Mapper - 2 Car 1 Car 1 River 1 Mapper Output for Reducer 6 Key-Value Pairs the number of mappers = the number of lines
  • 25. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. MapReduce 프레임워크의 프로세스 예시: Reducer II. 빅데이터 분석 기술: MapReduce Key Value Deer 1 Beer 1 River 1 Car 1 Car 1 River 1 Input from Mapper (6 key-Value Pair) Key Value Deer 1 Sort / Shuffle Key Value River 1 River 1 Key Value Beer 1 Key Value Car 1 Car 1 Reducer Key Value (List) Reducer-1 Beer {1} Reducer-2 Car {1, 1} Reducer-3 Deer {1} Reducer-4 River {1, 1} Reducer Input Reducer Value Processing (Iterative) : Key Value Writing ex) Compute Value Sum Set Key as “Key” Set Sum as “Value” Beer 1 Car 2 Deer 1 River 2Result File the number of reducers = the number of distinct keys Reducer Output
  • 26.
  • 27. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. K-means 군집 분석의 개념 III. 빅데이터 분석 예 – 1. 군집 분석 • 군집 분석 – 데이터를 속성이 유사한 데이터들끼리 그룹을 만드는 것 • K-means – 데이터를 가장 가까운 군집에 할당 시키고, 동일 소속 데이터들의 정보에 따라 군집의 중심을 업데이트 해 가는 과정을 반복하여 군집을 형성 하는 것 (a) 초기 군집 중심 설정 (b) 데이터에 군집 할당 (c) 군집 중심 업데이트 (b 반복) 데이터에 군집 할당 (c 반복) 군집 중심이 변경되지 않을 때 까지 b와 c 를 반복 수행  군집 중심이 변경 되지 않으면 종료
  • 28. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. K-means 군집 분석의 MapReduce 수행 설계 III. 빅데이터 분석 예 – 1. 군집 분석 1. 군집의 초기 중심을 설정 한다. 2. 모든 데이터에 대해 다음을 수행 (반복) - 데이터 자신과 각 군집 중심과의 거리를 측정한다. - 가장 가까운 군집 중심에 데이터 자신을 할당한다. 3. 모든 군집에 대해 다음을 수행 (반복) - 군집에 할당된 모든 데이터의 평균을 계산한다. - 계산된 평균을 군집의 중심 정보로 업데이트 한다. 4. 업데이트 된 군집 중심 정보와 업데이트 이전의 군집 중심을 비교 한다 - 만약, 군집 중심이 달라졌다면, 다시 2번 과정부터 반복 한다. - 만약 군집 중심이 변경되지 않았다면, 군집을 종료 한다. K-means 군집 프로세스와 MapReduce 변환 모든 데이터에 대해 동일 과정 반복 수행  Mapper 각 군집별 데이터를 이용하여 군집별로 수행  Reducer
  • 29. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. K-means 군집 분석의 MapReduce 수행 설계: MapReduce III. 빅데이터 분석 예 – 1. 군집 분석 Map 1, 1 1, (1, 1) 2, 2 2, (2, 2) 9, 9 2, (9, 9) 10, 10 2, (10, 10) Reduce 1, {(1, 1)} (1, 1) 2, {(2, 2), (9, 9), (10, 10)} (7, 7)동일 Key로 셔플/정렬 Cluster ID Cluster Info 1 1, 1 2 2, 2 X X X X Map 1, 1 1, (1, 1) 2, 2 1, (2, 2) 9, 9 2, (9, 9) 10, 10 2, (10, 10) MapReduce 반복 Reduce 1, {(1, 1), (2, 2)} (1.5, 1.5) 2, {(9, 9), (10, 10)} (9.5, 9.5) X X X X
  • 30.
  • 31. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 추천 분석 – 협력적 추천 (Collaborative Filtering based Recommendation) IV. 빅데이터 분석 예 – 2. 추천 분석 Process - 1 Users Extraction having Similar Preference Process - 2 Recommendation based on Similar User’s Preferences [ 협력적 추천 – 사용자 기반 ] 나와 선호(시청) 성향이 유사한 사용자들이 좋다고 한 아이템(영화)를 나에게 추 천
  • 32. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 유사 사용자 정보와 협력적 추천 IV. 빅데이터 분석 예 – 2. 추천 분석 Ii wiw Ii uiu Ii wiwuiu RRRR RRRR wuPCC 2 , 2 , ,, )()( ))(( ),( U2 = {I2=1, I3=-1, I4=-1} U5 = {I1=1, I2=1, I3=-1}  PCC(U2, U5) = 1 PCC (Pearson Correlation Coefficient): 두 벡터간 공통 항목 값의 상관 관계, -1~1사이의 실수 - 1인 경우 두 벡터는 음의 상관관계, 1인 경우 양의 상관관계, 0인 경우 특별한 관계가 없음 U1 U2 U3 U4 U5 I1 I2 I3 I4 U2와 U5의 pcc가 1  양의 상관 관계  U2의 I4 값이 -1이므로 U5의 I4 값 또한 -1일 것 협력적 추천의 핵심
  • 33. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 실제 데이터에 PCC 계산을 적용한 예 IV. 빅데이터 분석 예 – 2. 추천 분석 uid item-1 item-2 item-3 item-4 item-5 item-6 item-7 item-8 u 5 3 1 2 1 4 5 3 w 4 3 2 1 2 5 4 3 Ii wiw Ii uiu Ii wiwuiu RRRR RRRR wuPCC 2 , 2 , ,, )()( ))(( ),( 82.0),( wuPCC uid item-100 u 5 w ?  4 or 5 서로 동일한 성향인 정도가 0.82(최대값 1) • Netflix(DVD 대여 회사) 평가 데이터의 PCC 계산 예 • 사용자들이 대여한 DVD에 대해 1~5점 사이로 평점을 표기한 데이터
  • 34. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. Netflix 데이터의 MapReduce 기반의 PCC 계산 IV. 빅데이터 분석 예 – 2. 추천 분석 Alice, Matrix, 5 Alice, Alien, 1 Alice, Inception, 4 Bob, Alien, 2 Bob, Inception, 5 Peter, Matrix, 4 Peter, Alien, 3 Peter, Inception, 2 Netflix 데이터 예 (사용자, 영화, 평점) PCC(Alice, Bob) = ? PCC(Alice, Peter) = ? PCC(Bob, Peter) = ? Matrix Alien Inception Alice 5 1 4 Bob 2 5 Peter 4 3 2 2번의 Map/Reduce 작업을 통해 사용자간의 PCC 계산 가능 Sequential 프로그래밍이 아닌 Map/Reduce 구조에 기반한 PCC 계산 로직 설계/개발 필요 • 1단계 Map/Reduce – 동일 영화를 본 사용자 쌍 정보를 추출 • 2단계 Map/Reduce – 사용자 쌍(동일 영화에 대한 평점 목록)에 대하여 PCC를 계산
  • 35. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. Netflix 데이터의 MapReduce 기반의 PCC 계산 – 1st MapReduce IV. 빅데이터 분석 예 – 2. 추천 분석 Map Alice, Matrix, 5 Matrix (Alice, 5) Alice, Alien, 1 Alien (Alice, 1) Alice, Inception, 4 Inception (Alice, 4) Bob, Alien, 2 Alien (Bob, 2) Bob, Inception, 5 Inception (Bob, 5) Peter, Matrix, 4 Matrix (Peter, 4) Peter, Alien, 3 Alien (Peter, 3) Peter, Inception, 2 Inception (Peter, 2) Reduce Matrix {(Alice, 5) , (Peter, 4)} (Alice, Peter) (Matrix) (5, 4) Alien {(Alice, 1) , (Bob, 2) , (Peter, 3)} (Alice, Bob) (Alien) (1, 2) (Alice, Peter) (Alien) (1, 3) (Bob, Peter) (Alien) (2, 3) Inception {(Alice, 4) , (Bob, 5) , (Peter, 2)} (Alice, Bob) (Inception) (4, 5) (Alice, Peter) (Inception) (4, 2) (Bob, Peter) (Inception) (5, 2) 동일 Key로 셔플/정렬
  • 36. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. Netflix 데이터의 MapReduce 기반의 PCC 계산 – 2nd MapReduce IV. 빅데이터 분석 예 – 2. 추천 분석 Map Alice, Peter, Matrix, 5, 4 (Alice, Peter) (5, 4) Alice, Bob, Alien, 1, 2 (Alice, Bob) (1, 2) Alice, Peter, Alien, 1, 3 (Alice, Peter) (1, 3) Bob, Peter, Alien, 2, 3 (Bob, Peter) (2, 3) Alice, Bob, Inception, 4, 5 (Alice, Bob) (4, 5) Alice, Peter, Inception, 4, 2 (Alice, Peter) (4, 2) Bob, Peter, Inception, 5, 2 (Bob, Peter) (5, 2) Reduce (Alice, Peter) {(5, 4) , (1, 3) , (4, 2)} (Alice, Peter) (0.24) (Alice, Bob) {(1, 2) , (4, 5)} (Alice, Bob) (1.00) (Bob, Peter) {(2, 3) , (5, 2)} (Bob, Peter) (-1.00) Matrix Alien Inception Alice 5 1 4 Bob 2 5 Peter 4 3 2 동일 Key로 셔플/정렬 Ii wiw Ii uiu Ii wiwuiu RRRR RRRR wuPCC 2 , 2 , ,, )()( ))(( ),(
  • 37. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. Netflix 데이터의 MapReduce 기반의 PCC 계산 – Summary IV. 빅데이터 분석 예 – 2. 추천 분석 Alice, Matrix, 5 Alice, Alien, 1 Alice, Inception, 4 Bob, Alien, 2 Bob, Inception, 5 Peter, Matrix, 4 Peter, Alien, 3 Peter, Inception, 2 PCC(Alice, Bob) = 0.24 PCC(Alice, Peter) = 1.00 PCC(Bob, Peter) = -1.00 Mapper Reducer Mapper Reducer 영화를 키로, 사용자와 점수를 추출 동일 영화를 함께 본 사용자 점수 쌍을 생성 사용자 쌍을 키로, 함께 본 영화의 점수 쌍을 추출 동일 사용자 쌍에 대해 함께 본 영화의 점수 쌍을 취합하여 PCC를 계산
  • 38. MapReduce based Data Mining and Machine Learning Algorithms for Intelligent Big Data Analysis in Hadoop Framework http://www.openankus.org
  • 39. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 지능형 빅데이터 분석 라이브러리 V. 빅데이터 분석 도구 - Ankus • Ankus: Intelligent Big Data Analyzer • 빅 데이터 분석/활용 통합 프레임워크 환경을 제공을 위한 Hadoop 기반 분산 빅데이터 환경에서의 데이터 마이닝 및 기계학습 기반의 데이터 분석 라이브러리 • 오픈 소스 기반의 SW 이며, Java 라이브러리 형태로 배포됨 Ankus 와 통합 프레임워크 Flamingo Hadoop Manager & Appliance 지능형 분석을 위한 Ankus의 요소 기술  기초 통계 분석 및 데이터 전처리  데이터 유사/상관 분석  분류/군집 등 기계학습 분석  맞춤형 콘텐츠 추천 분석
  • 40. Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved. 지능형 빅데이터 분석 라이브러리 V. 빅데이터 분석 도구 - Ankus • Ankus: Intelligent Big Data Analyzer 빅데이터 기반 의사 결정 지원을 위한 데이터 마이닝 및 기계학습 기반 분석 Apache Hadoop과의 연동을 통한 Mahout 대체 국내 공개 SW 기술 활용 분야 분산 빅데이터 환경을 위한 MapReduce 기반의 분산 분석 알고리즘 제공 기초 통계 및 전처리 등 패턴 분석과 분류/군집 분석 등의 기계학습 기반 분석 제공 기업 실무 적용/활용을 위한 개인 맞춤형 추천 분석 모듈 제공 빅데이터 활용 통합을 위한 Flamingo Hadoop Manager/Appliance와의 연동 제공 예정 주요 특징 개발 마일스톤