Big Data Analytics and Data Mining

2013.10.10
전략사업팀/빅데이터사업부
송원문

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.
빅데이터가 아닌 빅앤서
I. 빅데이터 분석 – 데이터 마이닝과 사례

빅데이터와 데이터 마이닝
SYSTEM / MANAGEMENT ANALYSIS / APPLICATION
Hadoop and Ecosystem
/ MapReduce
Data Mining and
Machine Learning
빅데이터 분석
 MapReduce 기반의 데이터 분석

데이터 마이닝
• Description
• 대량의 데이터로부터 그 안에 숨어있는(implicit) 새롭고(previously unknown), 가치 있고(non-
trivial), 의사결정에 유용한(potentially useful) 정보를 찾는 작업

데이터 마이닝을 위한 접근
Data
Data
Mining
질문 어떤 사람들이 신용불량자(잠재)일까?
[ 가설의 생성 ]
* 직업이 자영업,무직 등에 속한 사람들
* 수입이 233만원 이하이고,
지역이 A지역에 거주하는 경우
신용불량 확률 높음
학습
(가설)
검증 모델 저장소
가설
Data
검증
고객의 직업과 수입 정도가
신용불량 여부와 관련이 많다.
질의도구
시각화도구
OLAP도구
기존 – 가설 확인 중심 데이터 분석
데이터 마이닝 - 가설 발견 중심 프로세스

데이터 마이닝 수행 방법
Mining /
Training
Test/Evaluation/
Verification
Prediction/
Application
Data Set (DB, DW)
Training Data
Test(Evaluation)
Data
New Data
Training Model
Data Mining Process

데이터 마이닝 기법의 분류
Data Mining
Predictive
Classification
(Supervised)
Descriptive
Clustering
(Unsupervised)
Association
Recommendation
k-NN
Decision Tree
Neural Networks
SVM
Regression
Bayes Network
k-means
EM
Density Based
SOM
Hierarchical
Apriori
FP-Growth
Collaborative Filtering
Contents Based
Association Rule Based
Machine
Learning
Text Mining
Social Analysis, ….

분류 및 군집 문제의 예
Classification (분류) Clustering (군집)
• Supervised Learning (Predictive DM)
• 데이터(레코드)들을 미리 지정된 부류나 등급으
로 나누는 작업
• 예) 신용 등급에 따라 고객을
분류 하는 모델을 구축하고,
신규 고객의 정보에 따라 신용 등급을 예측
• Unsupervised Learning (Descriptive DM)
• 데이터(레코드)들을 유사한 성격을 가지는 그룹
으로 분할하는 작업
• 예) 고객을 특징이 유사한
그룹으로 분할하고 그룹별
특징을 분석
• 스팸 메일 자동 분류
• 문서의 카테고리 자동 분류
• 인터넷 중독 진단 시스템
• 학업 성취도/능력에 따른 학생 특징 분석
• 특정 질병에 대한 유전자 발현 특징 분석
• 구매 패턴 유사 고객 특징 분석
ID 월소득 직업 나이 학력 지역 기대출금 연체여부 … 신용등급
1 500 개발 45 대졸 강남 2,000 No … A
2 300 영업 30 고졸 은평 0 No … B
.. .. .. .. .. .. .. .. .. ..
특징(features)/속성(attributes) 목표 클래스 (target class)
- 350 영업 40 대졸 구로 1,000 No .. ?

연관 분석
• 장바구니 분석 (마트 등에서의 구매 상품 목록)
• 금융 상품 구매 분석
• 영화/VOD 등 디지털 콘텐츠 구매 분석
Walmart
• Association
• 거래(구매) 데이터에서 자주 함께 판매되는 상품들간의 연관성에 대한 규칙을 찾아내는 분석
vs.

추천 분석
• Recommendation (Personalization)
• 사용자가 좋아할 만한 콘텐츠/아이템을 선별해 내어 사용자에게 권유/소비를 유도 하는 것
[ 협력적 추천 – 사용자 기반 ]
나와 선호(시청) 성향이 유사한 사용자들이 좋다고 한 아이템(영화)를 나에게 추천한다.
Amazon, Netflix, MovieLens, Watcha

공공데이터 분석의 주요 사례 분류
해외 사례 국내 사례
도로/교통
기상/교통 예측 (브라질)
심야버스 노선 결정 (서울시)
기상/재해/재난
치안 범죄 예방 시스템 (미국)
복지 맞춤형 복지 사회 (싱가포르) 수요자 중심 복지 서비스 (보건복지부)
기타 탈세 방지 시스템 (미국) 민원 정보 분석 (국민권익위원회)
• 국내 및 해외의 공공 부분 (지자체 및 정부 기관 등) 빅데이터 분석 활용 주요 사례
• 다양한 사례들 중 공공 분야별로 비교적 잘 알려졌거나 성공적으로 운영된 사례 중심

범죄 예방 시스템 / 미국 샌프란시스코
• 범죄 발생 지역 및 발생 시각을 예측하여 범죄를 미연에 방지하기 위한 시스템
• 범죄 발생 지역 및 시각을 예측하여 필요한 곳에 경찰 인력을 배치, 범죄를 예방
• 과거 발생한 범죄 패턴을 분석하여 후속 범죄 가능성 예측
• 과거 데이터에서 범죄자 행동을 분석하여 사건 예방을 위한 해법 제시

탈세 방지 시스템 / 미국 국세청
• 빅데이터 분석을 활용하여 탈세 및 사기 범죄 예방 시스템 구축
• 사기 방지 솔루션, 소셜 네트워크 분석, 데이터 통합 및 마이닝 등 활용
• 방대한 데이터로부터 탈세/사기 징후를 찾아내어 감시
• 연간 3,450억 달러의 세금 누락 및 불필요한 세금 환급 절감 효과 발생

맞춤형 복지사회 / 싱가포르
• 데이터 분석을 통한 지역사회의 화합 및 맞춤형 복지사회 구현
• 다양한 인종, 나이, 문화, 소득, 연령에 따른 주민의 데이터를 수집/분석하여 맞춤형 서비스 제공 가
능한 플랫폼 구현
• 1,800개 이상의 주민위원회 센터를 네트워크로 연결하고 서비스 수요와 경험 데이터를 분석
• 주요 서비스 니즈별(인종, 문화, 소득, 연령을 고려한) 세분화를 통한 맞춤식 서비스 및 캠페인

기상 및 교통 예측 / 브라질 리우데자네이루
• 환경, 교통, 치안 등 도시에서 발생하는 모든 정보를 통합한 똑똑해지는 도시 구현
• 강 유역의 지형 측량 자료, 강수량 통계, 레이더 사진 등의 데이터와 교통 체증, 정전 사태 등 30여
개의 시/정부 산하 부서 및 기관 공유 자료를 통합하여 도시에 영향을 미치는 데이터를 분석
• 48시간 전에 기상(폭우 및 홍수) 및 교통 상황을 예측하는 지능형 운영 센터 운영
• 정보를 시민들에게 제공하고 공무원 및 관련 팀에 내용 전달

심야버스 노선 결정 / 서울시
• 이통사의 콜로그를 바탕으로 한 유동인구 정보를 기반으로 최적의 심야 버스 노선 결정
• 심야 시간대에 발생하는 콜 로그와 청구지 주소 등의 연관 분석을 통한 유동인구와 출발/목적지 예
측
• 구역별 유동인구 밀집도 및 노선/시간/요일별 패턴을 분석하여 최적 노선 정보를 추출
• 정류장 단위 통행량 추정과 요일별 배차 간격 조정을 통한 최적 노선 운영

민원정보분석 / 국민권익위원회
• 월별, 지역별, 주요 민원을 캘린더로 제작하여 민원의 사전 예방과 대책 마련이 가능하도록 중앙 행정 기
관 및 지방 자치 단체 등에 제공
• 주요 민원 캘린더와 주요 민원 지도를 토대로 민원 사전 예방과 대책 마련
• 지역별, 계절별 주요 민원을 체계적으로 분석
• 불필요한 행정력 낭비 방지와 신뢰 행정 구현이 가능한 시스템으로 발전
• 온라인국민소통시스템의 홈페이지를 통한 민원 제안 콜센터 상당 등 분석

수요자 중심 복지 서비스 / 보건복지부
• 지자체 공무원들의 복지 행정 처리를 지원하는 정보 시스템
• 지방 자치 단체에서 집행하는 120여가지 복지 급여 및 서비스 이력 데이터 이용
• 복지대상자 선정이 정확하고 효율적으로 이루어져 복지 행정의 획기적인 변화 기대
• 다양한 복지 사업별 유사/중복 서식을 통합하고 데이터를 공유하여 행정 효율 및 민원 편의 증대
• 지자체의 복지급여 및 서비스 이력을 통합 관리하여 복지 대상자 선정, 사후 관리 등의 업무를 지원

빅데이터 처리를 위한 분산 프로세스 구조
II. 빅데이터 분석 기술: MapReduce
• In Wikipedia
• MapReduce is a programming model for processing large data sets with a parallel, distributed
algorithm on a cluster.
• A MapReduce program comprises a Map() procedure that performs filtering and sorting and a
Reduce() procedure that performs a summary operation.
• Hadoop으로 대표되는 빅데이터 플랫폼에서의 데
이터 처리 프로세스
• Map/Reduce : Key, Value 구조를 기반으로
하는 데이터 분산 처리 구조
(프레임워크)
• Google에서 2004년 최초 발표

MapReduce 프레임워크의 프로세스 예시
< Map >
라인 단위입력 내용을
Key와 Value로 구분하여 표기
< Reduce >
동일 Key의 Value를
List로 전달받아 일괄 처리
파일 내 출현 단어들의 횟수를 확인하는 Map/Reduce 프레임워크 구조

MapReduce 프레임워크의 프로세스 예시: Mapper
Deer Beer River
Car Car River
Mapper Key (Line Offset) Value (String)
Mapper – 1 ?????? Deer Beer River
Mapper - 2 ?????? Car Car River
Data File Mapper Input from Data File
ex) Split Words
Set Word as “Key”
Set 1 as “Value” for count
Mapper
Value Processing
: Key Value Setting
Mapper Key Value
Mapper – 1
Deer 1
Beer 1
River 1
Mapper - 2
Car 1
Car 1
River 1
Mapper Output for Reducer
6 Key-Value Pairs
the number of mappers
= the number of lines

MapReduce 프레임워크의 프로세스 예시: Reducer
Key Value
Deer 1
Beer 1
River 1
Car 1
Car 1
River 1
Input from Mapper
(6 key-Value Pair)
Key Value
Deer 1
Sort / Shuffle
Key Value
River 1
River 1
Key Value
Beer 1
Key Value
Car 1
Car 1
Reducer Key Value (List)
Reducer-1 Beer {1}
Reducer-2 Car {1, 1}
Reducer-3 Deer {1}
Reducer-4 River {1, 1}
Reducer Input
Reducer
Value Processing (Iterative)
: Key Value Writing
ex) Compute Value Sum
Set Key as “Key”
Set Sum as “Value”
Beer 1
Car 2
Deer 1
River 2Result File
the number of reducers
= the number of distinct keys
Reducer Output

K-means 군집 분석의 개념
III. 빅데이터 분석 예 – 1. 군집 분석
• 군집 분석 – 데이터를 속성이 유사한 데이터들끼리 그룹을 만드는 것
• K-means – 데이터를 가장 가까운 군집에 할당 시키고, 동일 소속 데이터들의 정보에 따라
군집의 중심을 업데이트 해 가는 과정을 반복하여 군집을 형성 하는 것
(a) 초기 군집 중심 설정 (b) 데이터에 군집 할당 (c) 군집 중심 업데이트
(b 반복) 데이터에 군집 할당
(c 반복) 군집 중심이
변경되지 않을
때 까지 b와 c
를 반복 수행
 군집 중심이 변경
되지 않으면 종료

K-means 군집 분석의 MapReduce 수행 설계
1. 군집의 초기 중심을 설정 한다.
2. 모든 데이터에 대해 다음을 수행 (반복)
- 데이터 자신과 각 군집 중심과의 거리를 측정한다.
- 가장 가까운 군집 중심에 데이터 자신을 할당한다.
3. 모든 군집에 대해 다음을 수행 (반복)
- 군집에 할당된 모든 데이터의 평균을 계산한다.
- 계산된 평균을 군집의 중심 정보로 업데이트 한다.
4. 업데이트 된 군집 중심 정보와 업데이트 이전의 군집 중심을 비교 한다
- 만약, 군집 중심이 달라졌다면, 다시 2번 과정부터 반복 한다.
- 만약 군집 중심이 변경되지 않았다면, 군집을 종료 한다.
K-means 군집 프로세스와 MapReduce 변환
모든 데이터에 대해
동일 과정 반복 수행
 Mapper
각 군집별 데이터를
이용하여 군집별로
수행  Reducer

K-means 군집 분석의 MapReduce 수행 설계: MapReduce
Map
1, 1 1, (1, 1)
2, 2 2, (2, 2)
9, 9 2, (9, 9)
10, 10 2, (10, 10)
Reduce
1, {(1, 1)} (1, 1)
2, {(2, 2),
(9, 9),
(10, 10)}
(7, 7)동일 Key로
셔플/정렬
Cluster ID Cluster Info
1 1, 1
2 2, 2
X
X
X
X
Map
1, 1 1, (1, 1)
2, 2 1, (2, 2)
9, 9 2, (9, 9)
10, 10 2, (10, 10)
MapReduce 반복
Reduce
1, {(1, 1),
(2, 2)}
(1.5, 1.5)
2, {(9, 9),
(10, 10)}
(9.5, 9.5)
X
X
X
X

추천 분석 – 협력적 추천 (Collaborative Filtering based Recommendation)
IV. 빅데이터 분석 예 – 2. 추천 분석
Process - 1 Users Extraction having Similar Preference
Process - 2
Recommendation
based on Similar
User’s Preferences
[ 협력적 추천
– 사용자 기반 ]
나와 선호(시청) 성향이
유사한 사용자들이 좋다고
한 아이템(영화)를 나에게 추
천

유사 사용자 정보와 협력적 추천
Ii
wiw
Ii
uiu
Ii
wiwuiu
RRRR
RRRR
wuPCC
2
,
2
,
,,
)()(
))((
),(
U2 = {I2=1, I3=-1, I4=-1}
U5 = {I1=1, I2=1, I3=-1}
 PCC(U2, U5) = 1
PCC (Pearson Correlation Coefficient): 두 벡터간 공통 항목 값의 상관 관계, -1~1사이의 실수
- 1인 경우 두 벡터는 음의 상관관계, 1인 경우 양의 상관관계, 0인 경우 특별한 관계가 없음
U1
U2
U3
U4
U5
I1 I2 I3 I4
U2와 U5의 pcc가 1  양의 상관 관계
 U2의 I4 값이 -1이므로
U5의 I4 값 또한 -1일 것
협력적 추천의 핵심

실제 데이터에 PCC 계산을 적용한 예
uid item-1 item-2 item-3 item-4 item-5 item-6 item-7 item-8
u 5 3 1 2 1 4 5 3
w 4 3 2 1 2 5 4 3
Ii
wiw
Ii
uiu
Ii
wiwuiu
RRRR
RRRR
wuPCC
2
,
2
,
,,
)()(
))((
),(
82.0),( wuPCC
uid item-100
u 5
w ?  4 or 5
서로 동일한 성향인 정도가 0.82(최대값 1)
• Netflix(DVD 대여 회사) 평가 데이터의 PCC 계산 예
• 사용자들이 대여한 DVD에 대해 1~5점 사이로 평점을 표기한 데이터

Netflix 데이터의 MapReduce 기반의 PCC 계산
Alice, Matrix, 5
Alice, Alien, 1
Alice, Inception, 4
Bob, Alien, 2
Bob, Inception, 5
Peter, Matrix, 4
Peter, Alien, 3
Peter, Inception, 2
Netflix 데이터 예 (사용자, 영화, 평점)
PCC(Alice, Bob) = ?
PCC(Alice, Peter) = ?
PCC(Bob, Peter) = ?
Matrix Alien Inception
Alice 5 1 4
Bob 2 5
Peter 4 3 2
2번의 Map/Reduce 작업을 통해 사용자간의 PCC 계산 가능
Sequential 프로그래밍이 아닌
Map/Reduce 구조에 기반한 PCC 계산 로직 설계/개발 필요
• 1단계 Map/Reduce – 동일 영화를 본 사용자 쌍 정보를 추출
• 2단계 Map/Reduce – 사용자 쌍(동일 영화에 대한 평점 목록)에 대하여 PCC를 계산

Netflix 데이터의 MapReduce 기반의 PCC 계산 – 1st MapReduce
Map
Alice, Matrix, 5 Matrix (Alice, 5)
Alice, Alien, 1 Alien (Alice, 1)
Alice, Inception, 4 Inception (Alice, 4)
Bob, Alien, 2 Alien (Bob, 2)
Bob, Inception, 5 Inception (Bob, 5)
Peter, Matrix, 4 Matrix (Peter, 4)
Peter, Alien, 3 Alien (Peter, 3)
Peter, Inception, 2 Inception (Peter, 2)
Reduce
Matrix {(Alice, 5)
, (Peter, 4)}
(Alice, Peter) (Matrix) (5, 4)
Alien {(Alice, 1)
, (Bob, 2)
, (Peter, 3)}
(Alice, Bob) (Alien) (1, 2)
(Alice, Peter) (Alien) (1, 3)
(Bob, Peter) (Alien) (2, 3)
Inception {(Alice, 4)
, (Bob, 5)
, (Peter, 2)}
(Alice, Bob) (Inception) (4, 5)
(Alice, Peter) (Inception) (4, 2)
(Bob, Peter) (Inception) (5, 2)
동일 Key로 셔플/정렬

Netflix 데이터의 MapReduce 기반의 PCC 계산 – 2nd MapReduce
Map
Alice, Peter, Matrix, 5, 4 (Alice, Peter) (5, 4)
Alice, Bob, Alien, 1, 2 (Alice, Bob) (1, 2)
Alice, Peter, Alien, 1, 3 (Alice, Peter) (1, 3)
Bob, Peter, Alien, 2, 3 (Bob, Peter) (2, 3)
Alice, Bob, Inception, 4, 5 (Alice, Bob) (4, 5)
Alice, Peter, Inception, 4, 2 (Alice, Peter) (4, 2)
Bob, Peter, Inception, 5, 2 (Bob, Peter) (5, 2)
Reduce
(Alice, Peter) {(5, 4)
, (1, 3)
, (4, 2)}
(Alice, Peter) (0.24)
(Alice, Bob) {(1, 2)
, (4, 5)}
(Alice, Bob) (1.00)
(Bob, Peter) {(2, 3)
, (5, 2)}
(Bob, Peter) (-1.00)
Matrix Alien Inception
Alice 5 1 4
Bob 2 5
Peter 4 3 2
동일 Key로 셔플/정렬
Ii
wiw
Ii
uiu
Ii
wiwuiu
RRRR
RRRR
wuPCC
2
,
2
,
,,
)()(
))((
),(

Netflix 데이터의 MapReduce 기반의 PCC 계산 – Summary
Alice, Matrix, 5
Alice, Alien, 1
Alice, Inception, 4
Bob, Alien, 2
Bob, Inception, 5
Peter, Matrix, 4
Peter, Alien, 3
Peter, Inception, 2
PCC(Alice, Bob) = 0.24
PCC(Alice, Peter) = 1.00
PCC(Bob, Peter) = -1.00
Mapper
Reducer
Mapper
Reducer
영화를 키로, 사용자와 점수를 추출
동일 영화를 함께 본 사용자 점수 쌍을 생성
사용자 쌍을 키로, 함께 본 영화의 점수 쌍을 추출
동일 사용자 쌍에 대해 함께 본 영화의 점수 쌍을
취합하여 PCC를 계산

MapReduce based Data Mining and Machine Learning Algorithms
for Intelligent Big Data Analysis in Hadoop Framework
http://www.openankus.org

지능형 빅데이터 분석 라이브러리
V. 빅데이터 분석 도구 - Ankus
• Ankus: Intelligent Big Data Analyzer
• 빅 데이터 분석/활용 통합 프레임워크 환경을 제공을 위한 Hadoop 기반 분산 빅데이터 환경에서의
데이터 마이닝 및 기계학습 기반의 데이터 분석 라이브러리
• 오픈 소스 기반의 SW 이며, Java 라이브러리 형태로 배포됨
Ankus 와 통합 프레임워크 Flamingo Hadoop Manager & Appliance
지능형 분석을 위한
Ankus의 요소 기술
 기초 통계 분석 및 데이터
전처리
 데이터 유사/상관 분석
 분류/군집 등 기계학습 분석
 맞춤형 콘텐츠 추천 분석

지능형 빅데이터 분석 라이브러리
V. 빅데이터 분석 도구 - Ankus
• Ankus: Intelligent Big Data Analyzer
빅데이터 기반 의사 결정 지원을
위한 데이터 마이닝 및 기계학습
기반 분석
Apache Hadoop과의 연동을 통한
Mahout 대체 국내 공개 SW 기술
활용 분야
분산 빅데이터 환경을 위한 MapReduce 기반의 분산 분석 알고리즘 제공
기초 통계 및 전처리 등 패턴 분석과 분류/군집 분석 등의 기계학습 기반 분석 제공
기업 실무 적용/활용을 위한 개인 맞춤형 추천 분석 모듈 제공
빅데이터 활용 통합을 위한 Flamingo Hadoop Manager/Appliance와의 연동 제공 예정
주요 특징
개발 마일스톤

Big Data Analytics and Data Mining

Big Data Analytics and Data Mining

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Big Data Analytics and Data Mining

Similaire à Big Data Analytics and Data Mining (20)

Big Data Analytics and Data Mining