SlideShare une entreprise Scribd logo
1  sur  33
Real-time Big Data Analytics Practice
with Unstructured Data
tedwon
iamtedwon@gmail.com

Apache Hadoop
소개
• 

Real-time CEP(Complex Event Processing) Platform Engineer

• 

Hadoop기반 Big Data 플랫폼 개발

• 

Software Architect, Development, Testing, Operation

• 

Performance Management

• 

Korea JBoss User Group 커뮤니티 부운영자

• 

한국자바개발자협의회(JCO) 회원

• 

Redhat JBoss RHQ Contributor - 한글화 작업

Apache Hadoop
Big Data의 세 가지 속성

Apache Hadoop

3
Big Data 활용 분야

Apache Hadoop

4
Big Data Technology & Hadoop Ecosystem

Apache Hadoop
Big Data Platform Software Stack

Apache Hadoop

출처: http://www.slideshare.net/babokim/big-data-20111203
Real Time Big Data 서비스 요건
• 

쇼핑몰 사이트의 사용자 클릭 스트림을 통해 실시간 개인화

• 

E-mart 고객이 끌고 다니는 카트를 통해 실시간 개인화 (RFID)

• 

대용량 이메일 서버의 스팸 탐지 및 필터링

• 

위치 정보 기반 광고 서비스

• 

사용자 및 시스템 이벤트를 이용한 실시간 보안 감시

• 

시스템 정보 수집을 통한 장비 고장 예측

• 

ETL(Extract, Transform, Load)

Apache Hadoop
Real Time Big Data 구현을 위한 기술

실시간 로그 수집 및 분배 기술
실시간 이벤트 처리 기술
대용량 데이터의 배치 처리 및 분석 기술
통합 기술

Apache Hadoop
Real Time Big Data 구현을 위한 기술

Real-time Distributed Log Aggregator
Complex Event Processing
Distributed Computing
Developer's Engineering

Apache Hadoop
Real Time Big Data 구현을 위한 기술

Scribe, Flume 로그 수집기
CEP Esper, S4, Storm 이벤트 처리기
Hadoop 분산 파일 처리 시스템
개발자의 기술력

Apache Hadoop
Use-Case: Dispenser

Apache Hadoop
Use-Case: Dispenser

Apache Hadoop
Facebook Real Time Analytics System

Apache Hadoop
Unstructured Data
• 

데이터는 유형, 특성 등으로 잘 저장해야 잘 사용할 수 있다!

• 

데이터의 약 20%는 정형 데이터, 80%는 비정형 데이터

• 

Blog, SNS, Mobile 등을 통해 비정형 데이터는 더욱더 빠르게 증가 추세

• 

80%의 비정형 데이터를 어떻게 분석할 것인가?

• 

비정형 데이터를 이용하여 의미 있는 정보를 찾아내는 것은 정형 데이터를 분석하는 것보
다 훨씬 복잡

• 

비정형 데이터를 정형화 구조로 변환 작업 필요

• 

전체 아키텍쳐에서 가장 적절한 변환 작업 위치 선정 필요

Apache Hadoop
Unstructured Data

Apache Hadoop
Unstructured Data - NMON Log
NMON Log
하나의 정보가 구조화되지 않은 형태로 불규칙적으로 생성
TOP,+PID,Time,%CPU,%Usr,%Sys,Size,ResSet,ResText,ResData,ShdLib,MinorFau
lt,MajorFault,Command
BBBP,000,/etc/release
BBBP,001,/etc/release,"CentOS release 5.7 (Final)"
BBBP,002,lsb_release
BBBP,003,lsb_release,"LSB Version:

:core-4.0-amd64:core-4.0-

ia32:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-ia32:graphics-4.0noarch:printing-4.0-amd64:printing-4.0-ia32:printing-4.0-noarch"
BBBP,004,lsb_release,"Distributor ID: CentOS"
BBBP,005,lsb_release,"Description:

CentOS release 5.7 (Final)"

BBBP,006,lsb_release,"Release:
BBBP,007,lsb_release,"Codename:

5.7"
Final"

...

다수의 라인으로 구성된 불규칙 로그를
Apache Hadoop

정형화된 로그로 변형하는 것이 관건
Log Aggregator – Cloudera Flume

Apache Hadoop
Log Aggregator – Apache Flume NG

Apache Hadoop
Complex Event Processing?
• 

CEP는 실시간 대용량 Event 처리 기술

• 

CEP는 EDA(Event-driven architecture) 기반 시스템

• 

Mutliple event stream에서 발생하는 패턴 감지 기술

Apache Hadoop
Complex Event Processing?
• 

교회에서...

• 

벨이 울린다.

• 

턱시도를 입은 남자와 꽃을 든 여자가 함께 걷는다.

• 

두 사람 위로 꽃 잎이 날리고 폭죽이 터진다.

Apache Hadoop
Complex Event Processing?

CEP 기술은 이러한 Complex한 Event를 참조하여
결혼식이라는 것을 알아 차린다.

Apache Hadoop
Complex Event Processing?
• 

Algorithmic Stock-Trading

• 

Real-time analytics

• 

Predictive analytics

• 

BAM - Business Activity Monitoring

• 

BI - Business intelligence

Apache Hadoop
Complex Event Processing?
• 

Core Concept 용어 정리
용어

정의

이벤트

실제로 발생한 사건, 일, 메시지
상태의 변경
특정한 액션 또는 상태의 변화를 통해 발생하는 변경이 불가
능한 과거의 기록

이벤트 스트림

시간의 순서대로 연속되는 이벤트의 흐름
시작과 끝이 없는 이벤트의 연속된 흐름

실시간의 특징

현저하게 낮은 수준의 지연
일정한 응답속도
예측 가능한 성능

Apache Hadoop
OpenSource CEP : Esper
• 

GPL v2 라이선스, Oracle CEP의 엔진

• 

경량의 Complex Event Processing Implementation

Apache Hadoop
OpenSource CEP : Esper
• 

GPL v2 라이선스, Oracle CEP의 엔진

• 

경량의 Complex Event Processing Implementation

Apache Hadoop
OpenSource CEP : Esper
// Java Object
public static class StockTick {
String symbol;
Double price;
Date timeStamp;
}
// Esper Event Query (EPL)
// Apple의 Tick이 평균 6이상, 2건 발생한 경우
select * from StockTick(symbol='AAPL').win:length(2) having
avg(price) > 6.0

Apache Hadoop
OpenSource CEP : Esper
EPServiceProvider epService = EPServiceProviderManager.getDefaultProvider();
String expression = "select avg(price) from
org.myapp.event.OrderEvent.win:time(30 sec)";
EPStatement statement = epService.getEPAdministrator().createEPL(expression);
public class MyListener implements UpdateListener {
public void update(EventBean[] newEvents, EventBean[] oldEvents) {
EventBean event = newEvents[0];
System.out.println("avg=" + event.get("avg(price)"));
}
}
MyListener listener = new MyListener();
statement.addListener(listener);
Apache Hadoop
OpenSource CEP : Esper
• 

최근 30분내 시청 근처에 있었던 급여가 10M 이상이며 나이가 30~35세
이상이고 집이 강남이면서 취미가 쇼핑인 여성

select * from customer(age=’30~35’,gender='female',salary>10M,
location='city hall',
home='gangnam',hobby='shopping').win:time(30 min)

Volume : Analytics
(Apache Hadoop)

Apache Hadoop

Velocity : Real-Time
(CEP; Esper)
로그 수집기와 CEP를 이용한 실시간 처리 아키텍처

Apache Hadoop
로그 수집기와 CEP를 이용한 실시간 처리 아키텍처

Apache Hadoop

30
Summary
• 

Real-Time Big Data는
•  Real-Time과 Analytics의 Convergence
•  High Technology

• 

아직까지 Real-Time 이벤트 처리 기술인 CEP에 대한 이해 부족으로 인
하여 시장에서 적용 사례 부족

• 

향후 Big Data 시장에서 강력한 폭풍이 될 것

Apache Hadoop
References
• 

Big Data Use-Case: Real-time Dispenser Maintenance
•  http://jameskaskade.com/?p=2177

• 

Real Time analytics for Big Data: Facebook's New Realtime
Analytics System
•  http://tinyurl.com/3cgg6yr

• 

Esper Documentation
•  http://esper.codehaus.org/esper-4.5.0/doc/reference/en/
html_single/index.html

Apache Hadoop
Thanks!!

Apache Hadoop

Contenu connexe

Tendances

[D2 COMMUNITY] Open Container Seoul Meetup - 마이크로 서비스 아키텍쳐와 Docker kubernetes
[D2 COMMUNITY] Open Container Seoul Meetup -  마이크로 서비스 아키텍쳐와 Docker kubernetes[D2 COMMUNITY] Open Container Seoul Meetup -  마이크로 서비스 아키텍쳐와 Docker kubernetes
[D2 COMMUNITY] Open Container Seoul Meetup - 마이크로 서비스 아키텍쳐와 Docker kubernetesNAVER D2
 
Streaming platform Kafka in SK planet
Streaming platform Kafka in SK planetStreaming platform Kafka in SK planet
Streaming platform Kafka in SK planetByeongsu Kang
 
[243]kaleido 노현걸
[243]kaleido 노현걸[243]kaleido 노현걸
[243]kaleido 노현걸NAVER D2
 
[215]네이버콘텐츠통계서비스소개 김기영
[215]네이버콘텐츠통계서비스소개 김기영[215]네이버콘텐츠통계서비스소개 김기영
[215]네이버콘텐츠통계서비스소개 김기영NAVER D2
 
Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안
Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안
Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안SANG WON PARK
 
Apache kafka performance(latency)_benchmark_v0.3
Apache kafka performance(latency)_benchmark_v0.3Apache kafka performance(latency)_benchmark_v0.3
Apache kafka performance(latency)_benchmark_v0.3SANG WON PARK
 
[오픈소스컨설팅] ARM & OpenStack Community
[오픈소스컨설팅] ARM & OpenStack Community[오픈소스컨설팅] ARM & OpenStack Community
[오픈소스컨설팅] ARM & OpenStack CommunityOpen Source Consulting
 
검색로그시스템 with Python
검색로그시스템 with Python검색로그시스템 with Python
검색로그시스템 with Pythonitproman35
 
Source To URL Without Dockerfile
Source To URL Without DockerfileSource To URL Without Dockerfile
Source To URL Without DockerfileWon-Chon Jung
 
Krnet2018 kakao container cloud dkos
Krnet2018 kakao container cloud dkosKrnet2018 kakao container cloud dkos
Krnet2018 kakao container cloud dkosWon-Chon Jung
 
[124]네이버에서 사용되는 여러가지 Data Platform, 그리고 MongoDB
[124]네이버에서 사용되는 여러가지 Data Platform, 그리고 MongoDB[124]네이버에서 사용되는 여러가지 Data Platform, 그리고 MongoDB
[124]네이버에서 사용되는 여러가지 Data Platform, 그리고 MongoDBNAVER D2
 
카카오에서의 Trove 운영사례
카카오에서의 Trove 운영사례카카오에서의 Trove 운영사례
카카오에서의 Trove 운영사례Won-Chon Jung
 
Open stack 세미나자료_장현정
Open stack 세미나자료_장현정Open stack 세미나자료_장현정
Open stack 세미나자료_장현정Nalee Jang
 
해외 사례로 보는 Billing for OpenStack Solution
해외 사례로 보는 Billing for OpenStack Solution해외 사례로 보는 Billing for OpenStack Solution
해외 사례로 보는 Billing for OpenStack SolutionNalee Jang
 
Cloud for Kubernetes : Session1
Cloud for Kubernetes : Session1Cloud for Kubernetes : Session1
Cloud for Kubernetes : Session1WhaTap Labs
 
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)SANG WON PARK
 
[224]nsml 상상하는 모든 것이 이루어지는 클라우드 머신러닝 플랫폼
[224]nsml 상상하는 모든 것이 이루어지는 클라우드 머신러닝 플랫폼[224]nsml 상상하는 모든 것이 이루어지는 클라우드 머신러닝 플랫폼
[224]nsml 상상하는 모든 것이 이루어지는 클라우드 머신러닝 플랫폼NAVER D2
 
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWSMatthew (정재화)
 
[211]대규모 시스템 시각화 현동석김광림
[211]대규모 시스템 시각화 현동석김광림[211]대규모 시스템 시각화 현동석김광림
[211]대규모 시스템 시각화 현동석김광림NAVER D2
 

Tendances (20)

[D2 COMMUNITY] Open Container Seoul Meetup - 마이크로 서비스 아키텍쳐와 Docker kubernetes
[D2 COMMUNITY] Open Container Seoul Meetup -  마이크로 서비스 아키텍쳐와 Docker kubernetes[D2 COMMUNITY] Open Container Seoul Meetup -  마이크로 서비스 아키텍쳐와 Docker kubernetes
[D2 COMMUNITY] Open Container Seoul Meetup - 마이크로 서비스 아키텍쳐와 Docker kubernetes
 
Streaming platform Kafka in SK planet
Streaming platform Kafka in SK planetStreaming platform Kafka in SK planet
Streaming platform Kafka in SK planet
 
[243]kaleido 노현걸
[243]kaleido 노현걸[243]kaleido 노현걸
[243]kaleido 노현걸
 
[215]네이버콘텐츠통계서비스소개 김기영
[215]네이버콘텐츠통계서비스소개 김기영[215]네이버콘텐츠통계서비스소개 김기영
[215]네이버콘텐츠통계서비스소개 김기영
 
Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안
Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안
Apache kafka 모니터링을 위한 Metrics 이해 및 최적화 방안
 
Apache kafka performance(latency)_benchmark_v0.3
Apache kafka performance(latency)_benchmark_v0.3Apache kafka performance(latency)_benchmark_v0.3
Apache kafka performance(latency)_benchmark_v0.3
 
[오픈소스컨설팅] ARM & OpenStack Community
[오픈소스컨설팅] ARM & OpenStack Community[오픈소스컨설팅] ARM & OpenStack Community
[오픈소스컨설팅] ARM & OpenStack Community
 
검색로그시스템 with Python
검색로그시스템 with Python검색로그시스템 with Python
검색로그시스템 with Python
 
Source To URL Without Dockerfile
Source To URL Without DockerfileSource To URL Without Dockerfile
Source To URL Without Dockerfile
 
Krnet2018 kakao container cloud dkos
Krnet2018 kakao container cloud dkosKrnet2018 kakao container cloud dkos
Krnet2018 kakao container cloud dkos
 
[124]네이버에서 사용되는 여러가지 Data Platform, 그리고 MongoDB
[124]네이버에서 사용되는 여러가지 Data Platform, 그리고 MongoDB[124]네이버에서 사용되는 여러가지 Data Platform, 그리고 MongoDB
[124]네이버에서 사용되는 여러가지 Data Platform, 그리고 MongoDB
 
카카오에서의 Trove 운영사례
카카오에서의 Trove 운영사례카카오에서의 Trove 운영사례
카카오에서의 Trove 운영사례
 
Open stack 세미나자료_장현정
Open stack 세미나자료_장현정Open stack 세미나자료_장현정
Open stack 세미나자료_장현정
 
해외 사례로 보는 Billing for OpenStack Solution
해외 사례로 보는 Billing for OpenStack Solution해외 사례로 보는 Billing for OpenStack Solution
해외 사례로 보는 Billing for OpenStack Solution
 
Cloud for Kubernetes : Session1
Cloud for Kubernetes : Session1Cloud for Kubernetes : Session1
Cloud for Kubernetes : Session1
 
Kubernetes
Kubernetes Kubernetes
Kubernetes
 
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
OLAP for Big Data (Druid vs Apache Kylin vs Apache Lens)
 
[224]nsml 상상하는 모든 것이 이루어지는 클라우드 머신러닝 플랫폼
[224]nsml 상상하는 모든 것이 이루어지는 클라우드 머신러닝 플랫폼[224]nsml 상상하는 모든 것이 이루어지는 클라우드 머신러닝 플랫폼
[224]nsml 상상하는 모든 것이 이루어지는 클라우드 머신러닝 플랫폼
 
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
스타트업 사례로 본 로그 데이터 분석 : Tajo on AWS
 
[211]대규모 시스템 시각화 현동석김광림
[211]대규모 시스템 시각화 현동석김광림[211]대규모 시스템 시각화 현동석김광림
[211]대규모 시스템 시각화 현동석김광림
 

En vedette

ウェブ日本語(2015年度第1学期)_3~7週目_講義資料
ウェブ日本語(2015年度第1学期)_3~7週目_講義資料ウェブ日本語(2015年度第1学期)_3~7週目_講義資料
ウェブ日本語(2015年度第1学期)_3~7週目_講義資料希先 張
 
RHQ 공감 Seminar 6th
RHQ 공감 Seminar 6thRHQ 공감 Seminar 6th
RHQ 공감 Seminar 6thTed Won
 
35 양지선 a graphic tool to help consumers determine when to replace a toothbrus...
35 양지선 a graphic tool to help consumers determine when to replace a toothbrus...35 양지선 a graphic tool to help consumers determine when to replace a toothbrus...
35 양지선 a graphic tool to help consumers determine when to replace a toothbrus...dlawogud
 
JBoss Community's Application Monitoring Platform
JBoss Community's Application Monitoring PlatformJBoss Community's Application Monitoring Platform
JBoss Community's Application Monitoring PlatformTed Won
 
JCO 11th 클라우드 환경에서 Java EE 운영 환경 구축하기
JCO 11th 클라우드 환경에서 Java EE 운영 환경 구축하기JCO 11th 클라우드 환경에서 Java EE 운영 환경 구축하기
JCO 11th 클라우드 환경에서 Java EE 운영 환경 구축하기Ted Won
 
Red Hat Forum 2012 - JBoss RHQ - Java Application Monitoring & Management Pla...
Red Hat Forum 2012 - JBoss RHQ - Java Application Monitoring & Management Pla...Red Hat Forum 2012 - JBoss RHQ - Java Application Monitoring & Management Pla...
Red Hat Forum 2012 - JBoss RHQ - Java Application Monitoring & Management Pla...Ted Won
 
Nara - Personalized Web Recommendation Service Quick Review
Nara - Personalized Web Recommendation Service Quick ReviewNara - Personalized Web Recommendation Service Quick Review
Nara - Personalized Web Recommendation Service Quick ReviewTed Won
 
[CLP] Game industry Day 2 - 3
[CLP] Game industry  Day 2 - 3[CLP] Game industry  Day 2 - 3
[CLP] Game industry Day 2 - 3Junhyuk Lee
 
Hadoop for the Data Scientist: Spark in Cloudera 5.5
Hadoop for the Data Scientist: Spark in Cloudera 5.5Hadoop for the Data Scientist: Spark in Cloudera 5.5
Hadoop for the Data Scientist: Spark in Cloudera 5.5Cloudera, Inc.
 
Abyne Words Game Design Postmortem
Abyne Words Game Design PostmortemAbyne Words Game Design Postmortem
Abyne Words Game Design PostmortemSuyeong Park
 
Storm - understand by coding
Storm - understand by codingStorm - understand by coding
Storm - understand by codingTaewoo Kim
 
Gdc 세미나
Gdc 세미나Gdc 세미나
Gdc 세미나snugdc
 
Big data 20111203_배포판
Big data 20111203_배포판Big data 20111203_배포판
Big data 20111203_배포판Hyoungjun Kim
 
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimDeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimGruter
 
스톰 미리보기
스톰 미리보기스톰 미리보기
스톰 미리보기June Yi
 
Storm - parallel and distributed
Storm - parallel and distributedStorm - parallel and distributed
Storm - parallel and distributedTaewoo Kim
 
Unite 2015 Seoul : 인디에게 어디가 한계인지는 해봐야 알잖아?
Unite 2015 Seoul : 인디에게 어디가 한계인지는 해봐야 알잖아?Unite 2015 Seoul : 인디에게 어디가 한계인지는 해봐야 알잖아?
Unite 2015 Seoul : 인디에게 어디가 한계인지는 해봐야 알잖아?KwangSam Kim
 
JDG 7 & Spark Integration
JDG 7 & Spark IntegrationJDG 7 & Spark Integration
JDG 7 & Spark IntegrationTed Won
 
Complex Event Processing with Esper
Complex Event Processing with EsperComplex Event Processing with Esper
Complex Event Processing with EsperTed Won
 

En vedette (20)

ウェブ日本語(2015年度第1学期)_3~7週目_講義資料
ウェブ日本語(2015年度第1学期)_3~7週目_講義資料ウェブ日本語(2015年度第1学期)_3~7週目_講義資料
ウェブ日本語(2015年度第1学期)_3~7週目_講義資料
 
RHQ 공감 Seminar 6th
RHQ 공감 Seminar 6thRHQ 공감 Seminar 6th
RHQ 공감 Seminar 6th
 
35 양지선 a graphic tool to help consumers determine when to replace a toothbrus...
35 양지선 a graphic tool to help consumers determine when to replace a toothbrus...35 양지선 a graphic tool to help consumers determine when to replace a toothbrus...
35 양지선 a graphic tool to help consumers determine when to replace a toothbrus...
 
JBoss Community's Application Monitoring Platform
JBoss Community's Application Monitoring PlatformJBoss Community's Application Monitoring Platform
JBoss Community's Application Monitoring Platform
 
JCO 11th 클라우드 환경에서 Java EE 운영 환경 구축하기
JCO 11th 클라우드 환경에서 Java EE 운영 환경 구축하기JCO 11th 클라우드 환경에서 Java EE 운영 환경 구축하기
JCO 11th 클라우드 환경에서 Java EE 운영 환경 구축하기
 
Red Hat Forum 2012 - JBoss RHQ - Java Application Monitoring & Management Pla...
Red Hat Forum 2012 - JBoss RHQ - Java Application Monitoring & Management Pla...Red Hat Forum 2012 - JBoss RHQ - Java Application Monitoring & Management Pla...
Red Hat Forum 2012 - JBoss RHQ - Java Application Monitoring & Management Pla...
 
Nara - Personalized Web Recommendation Service Quick Review
Nara - Personalized Web Recommendation Service Quick ReviewNara - Personalized Web Recommendation Service Quick Review
Nara - Personalized Web Recommendation Service Quick Review
 
[CLP] Game industry Day 2 - 3
[CLP] Game industry  Day 2 - 3[CLP] Game industry  Day 2 - 3
[CLP] Game industry Day 2 - 3
 
Hadoop for the Data Scientist: Spark in Cloudera 5.5
Hadoop for the Data Scientist: Spark in Cloudera 5.5Hadoop for the Data Scientist: Spark in Cloudera 5.5
Hadoop for the Data Scientist: Spark in Cloudera 5.5
 
Abyne Words Game Design Postmortem
Abyne Words Game Design PostmortemAbyne Words Game Design Postmortem
Abyne Words Game Design Postmortem
 
Storm - understand by coding
Storm - understand by codingStorm - understand by coding
Storm - understand by coding
 
Gdc 세미나
Gdc 세미나Gdc 세미나
Gdc 세미나
 
Big data 20111203_배포판
Big data 20111203_배포판Big data 20111203_배포판
Big data 20111203_배포판
 
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimDeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
 
스톰 미리보기
스톰 미리보기스톰 미리보기
스톰 미리보기
 
Storm - parallel and distributed
Storm - parallel and distributedStorm - parallel and distributed
Storm - parallel and distributed
 
Unite 2015 Seoul : 인디에게 어디가 한계인지는 해봐야 알잖아?
Unite 2015 Seoul : 인디에게 어디가 한계인지는 해봐야 알잖아?Unite 2015 Seoul : 인디에게 어디가 한계인지는 해봐야 알잖아?
Unite 2015 Seoul : 인디에게 어디가 한계인지는 해봐야 알잖아?
 
JDG 7 & Spark Integration
JDG 7 & Spark IntegrationJDG 7 & Spark Integration
JDG 7 & Spark Integration
 
기술6기 3조
기술6기 3조기술6기 3조
기술6기 3조
 
Complex Event Processing with Esper
Complex Event Processing with EsperComplex Event Processing with Esper
Complex Event Processing with Esper
 

Similaire à Real-time Big Data Analytics Practice with Unstructured Data

3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석Saltlux Inc.
 
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)Sang Don Kim
 
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장eungjin cho
 
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제NAVER D2
 
[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영NAVER D2
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Hyoungjun Kim
 
2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료Wooseung Kim
 
Amazon EMR 고급 활용 기법 - AWS Summit Seoul 2017
Amazon EMR 고급 활용 기법 - AWS Summit Seoul 2017Amazon EMR 고급 활용 기법 - AWS Summit Seoul 2017
Amazon EMR 고급 활용 기법 - AWS Summit Seoul 2017Amazon Web Services Korea
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Channy Yun
 
Spark_Overview_qna
Spark_Overview_qnaSpark_Overview_qna
Spark_Overview_qna현철 박
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud informationstartupkorea
 
100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning Systemhoondong kim
 
IoT Web App - 수집된 정보의 가공, 처리, 융합
IoT Web App - 수집된 정보의 가공, 처리, 융합IoT Web App - 수집된 정보의 가공, 처리, 융합
IoT Web App - 수집된 정보의 가공, 처리, 융합Hyunghun Cho
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)Channy Yun
 
Open standard open cloud engine (3)
Open standard open cloud engine (3)Open standard open cloud engine (3)
Open standard open cloud engine (3)uEngine Solutions
 
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬Channy Yun
 
성공적인 게임 런칭을 위한 비밀의 레시피 #3
성공적인 게임 런칭을 위한 비밀의 레시피 #3성공적인 게임 런칭을 위한 비밀의 레시피 #3
성공적인 게임 런칭을 위한 비밀의 레시피 #3Amazon Web Services Korea
 
Python & Spark
Python & SparkPython & Spark
Python & Sparkitproman35
 
Cloud life seminar open shift,이준영(배포용)
Cloud life seminar   open shift,이준영(배포용)Cloud life seminar   open shift,이준영(배포용)
Cloud life seminar open shift,이준영(배포용)Software in Life
 

Similaire à Real-time Big Data Analytics Practice with Unstructured Data (20)

3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석3 빅데이터기반비정형데이터의실시간처리방법 원종석
3 빅데이터기반비정형데이터의실시간처리방법 원종석
 
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
[Td 2015]microsoft 개발자들을 위한 달콤한 hadoop, hd insight(최종욱)
 
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
 
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제
 
[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영[236] 카카오의데이터파이프라인 윤도영
[236] 카카오의데이터파이프라인 윤도영
 
Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218Jco 소셜 빅데이터_20120218
Jco 소셜 빅데이터_20120218
 
INFRASTRUCTURE
INFRASTRUCTUREINFRASTRUCTURE
INFRASTRUCTURE
 
2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료2012 빅데이터 big data 발표자료
2012 빅데이터 big data 발표자료
 
Amazon EMR 고급 활용 기법 - AWS Summit Seoul 2017
Amazon EMR 고급 활용 기법 - AWS Summit Seoul 2017Amazon EMR 고급 활용 기법 - AWS Summit Seoul 2017
Amazon EMR 고급 활용 기법 - AWS Summit Seoul 2017
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)
 
Spark_Overview_qna
Spark_Overview_qnaSpark_Overview_qna
Spark_Overview_qna
 
[경북] I'mcloud information
[경북] I'mcloud information[경북] I'mcloud information
[경북] I'mcloud information
 
100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System
 
IoT Web App - 수집된 정보의 가공, 처리, 융합
IoT Web App - 수집된 정보의 가공, 처리, 융합IoT Web App - 수집된 정보의 가공, 처리, 융합
IoT Web App - 수집된 정보의 가공, 처리, 융합
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)
 
Open standard open cloud engine (3)
Open standard open cloud engine (3)Open standard open cloud engine (3)
Open standard open cloud engine (3)
 
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
2013 빅데이터 및 API 기술 현황과 전망- 윤석찬
 
성공적인 게임 런칭을 위한 비밀의 레시피 #3
성공적인 게임 런칭을 위한 비밀의 레시피 #3성공적인 게임 런칭을 위한 비밀의 레시피 #3
성공적인 게임 런칭을 위한 비밀의 레시피 #3
 
Python & Spark
Python & SparkPython & Spark
Python & Spark
 
Cloud life seminar open shift,이준영(배포용)
Cloud life seminar   open shift,이준영(배포용)Cloud life seminar   open shift,이준영(배포용)
Cloud life seminar open shift,이준영(배포용)
 

Plus de Ted Won

Undertow RequestBufferingHandler 소개
Undertow RequestBufferingHandler 소개Undertow RequestBufferingHandler 소개
Undertow RequestBufferingHandler 소개Ted Won
 
JBoss EAP 7 & JDG 7 최신 기술 소개
JBoss EAP 7 & JDG 7 최신 기술 소개JBoss EAP 7 & JDG 7 최신 기술 소개
JBoss EAP 7 & JDG 7 최신 기술 소개Ted Won
 
JBoss Modules Internal
JBoss Modules InternalJBoss Modules Internal
JBoss Modules InternalTed Won
 
오픈 소스 컨트리뷰션 가이드
오픈 소스 컨트리뷰션 가이드오픈 소스 컨트리뷰션 가이드
오픈 소스 컨트리뷰션 가이드Ted Won
 
Jenkins X Hands-on - automated CI/CD solution for cloud native applications o...
Jenkins X Hands-on - automated CI/CD solution for cloud native applications o...Jenkins X Hands-on - automated CI/CD solution for cloud native applications o...
Jenkins X Hands-on - automated CI/CD solution for cloud native applications o...Ted Won
 
Jenkins X - automated CI/CD solution for cloud native applications on Kubernetes
Jenkins X - automated CI/CD solution for cloud native applications on KubernetesJenkins X - automated CI/CD solution for cloud native applications on Kubernetes
Jenkins X - automated CI/CD solution for cloud native applications on KubernetesTed Won
 
Hawkular overview
Hawkular overviewHawkular overview
Hawkular overviewTed Won
 
Complex Event Processing with Esper
Complex Event Processing with EsperComplex Event Processing with Esper
Complex Event Processing with EsperTed Won
 
Building Real-time CEP Application with Open Source Projects
Building Real-time CEP Application with Open Source Projects Building Real-time CEP Application with Open Source Projects
Building Real-time CEP Application with Open Source Projects Ted Won
 
JBoss RHQ와 Byteman을 이용한 오픈소스 자바 애플리케이션 모니터링
JBoss RHQ와 Byteman을 이용한 오픈소스 자바 애플리케이션 모니터링JBoss RHQ와 Byteman을 이용한 오픈소스 자바 애플리케이션 모니터링
JBoss RHQ와 Byteman을 이용한 오픈소스 자바 애플리케이션 모니터링Ted Won
 

Plus de Ted Won (10)

Undertow RequestBufferingHandler 소개
Undertow RequestBufferingHandler 소개Undertow RequestBufferingHandler 소개
Undertow RequestBufferingHandler 소개
 
JBoss EAP 7 & JDG 7 최신 기술 소개
JBoss EAP 7 & JDG 7 최신 기술 소개JBoss EAP 7 & JDG 7 최신 기술 소개
JBoss EAP 7 & JDG 7 최신 기술 소개
 
JBoss Modules Internal
JBoss Modules InternalJBoss Modules Internal
JBoss Modules Internal
 
오픈 소스 컨트리뷰션 가이드
오픈 소스 컨트리뷰션 가이드오픈 소스 컨트리뷰션 가이드
오픈 소스 컨트리뷰션 가이드
 
Jenkins X Hands-on - automated CI/CD solution for cloud native applications o...
Jenkins X Hands-on - automated CI/CD solution for cloud native applications o...Jenkins X Hands-on - automated CI/CD solution for cloud native applications o...
Jenkins X Hands-on - automated CI/CD solution for cloud native applications o...
 
Jenkins X - automated CI/CD solution for cloud native applications on Kubernetes
Jenkins X - automated CI/CD solution for cloud native applications on KubernetesJenkins X - automated CI/CD solution for cloud native applications on Kubernetes
Jenkins X - automated CI/CD solution for cloud native applications on Kubernetes
 
Hawkular overview
Hawkular overviewHawkular overview
Hawkular overview
 
Complex Event Processing with Esper
Complex Event Processing with EsperComplex Event Processing with Esper
Complex Event Processing with Esper
 
Building Real-time CEP Application with Open Source Projects
Building Real-time CEP Application with Open Source Projects Building Real-time CEP Application with Open Source Projects
Building Real-time CEP Application with Open Source Projects
 
JBoss RHQ와 Byteman을 이용한 오픈소스 자바 애플리케이션 모니터링
JBoss RHQ와 Byteman을 이용한 오픈소스 자바 애플리케이션 모니터링JBoss RHQ와 Byteman을 이용한 오픈소스 자바 애플리케이션 모니터링
JBoss RHQ와 Byteman을 이용한 오픈소스 자바 애플리케이션 모니터링
 

Real-time Big Data Analytics Practice with Unstructured Data

  • 1. Real-time Big Data Analytics Practice with Unstructured Data tedwon iamtedwon@gmail.com Apache Hadoop
  • 2. 소개 •  Real-time CEP(Complex Event Processing) Platform Engineer •  Hadoop기반 Big Data 플랫폼 개발 •  Software Architect, Development, Testing, Operation •  Performance Management •  Korea JBoss User Group 커뮤니티 부운영자 •  한국자바개발자협의회(JCO) 회원 •  Redhat JBoss RHQ Contributor - 한글화 작업 Apache Hadoop
  • 3. Big Data의 세 가지 속성 Apache Hadoop 3
  • 4. Big Data 활용 분야 Apache Hadoop 4
  • 5. Big Data Technology & Hadoop Ecosystem Apache Hadoop
  • 6. Big Data Platform Software Stack Apache Hadoop 출처: http://www.slideshare.net/babokim/big-data-20111203
  • 7. Real Time Big Data 서비스 요건 •  쇼핑몰 사이트의 사용자 클릭 스트림을 통해 실시간 개인화 •  E-mart 고객이 끌고 다니는 카트를 통해 실시간 개인화 (RFID) •  대용량 이메일 서버의 스팸 탐지 및 필터링 •  위치 정보 기반 광고 서비스 •  사용자 및 시스템 이벤트를 이용한 실시간 보안 감시 •  시스템 정보 수집을 통한 장비 고장 예측 •  ETL(Extract, Transform, Load) Apache Hadoop
  • 8. Real Time Big Data 구현을 위한 기술 실시간 로그 수집 및 분배 기술 실시간 이벤트 처리 기술 대용량 데이터의 배치 처리 및 분석 기술 통합 기술 Apache Hadoop
  • 9. Real Time Big Data 구현을 위한 기술 Real-time Distributed Log Aggregator Complex Event Processing Distributed Computing Developer's Engineering Apache Hadoop
  • 10. Real Time Big Data 구현을 위한 기술 Scribe, Flume 로그 수집기 CEP Esper, S4, Storm 이벤트 처리기 Hadoop 분산 파일 처리 시스템 개발자의 기술력 Apache Hadoop
  • 13. Facebook Real Time Analytics System Apache Hadoop
  • 14. Unstructured Data •  데이터는 유형, 특성 등으로 잘 저장해야 잘 사용할 수 있다! •  데이터의 약 20%는 정형 데이터, 80%는 비정형 데이터 •  Blog, SNS, Mobile 등을 통해 비정형 데이터는 더욱더 빠르게 증가 추세 •  80%의 비정형 데이터를 어떻게 분석할 것인가? •  비정형 데이터를 이용하여 의미 있는 정보를 찾아내는 것은 정형 데이터를 분석하는 것보 다 훨씬 복잡 •  비정형 데이터를 정형화 구조로 변환 작업 필요 •  전체 아키텍쳐에서 가장 적절한 변환 작업 위치 선정 필요 Apache Hadoop
  • 16. Unstructured Data - NMON Log NMON Log 하나의 정보가 구조화되지 않은 형태로 불규칙적으로 생성 TOP,+PID,Time,%CPU,%Usr,%Sys,Size,ResSet,ResText,ResData,ShdLib,MinorFau lt,MajorFault,Command BBBP,000,/etc/release BBBP,001,/etc/release,"CentOS release 5.7 (Final)" BBBP,002,lsb_release BBBP,003,lsb_release,"LSB Version: :core-4.0-amd64:core-4.0- ia32:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-ia32:graphics-4.0noarch:printing-4.0-amd64:printing-4.0-ia32:printing-4.0-noarch" BBBP,004,lsb_release,"Distributor ID: CentOS" BBBP,005,lsb_release,"Description: CentOS release 5.7 (Final)" BBBP,006,lsb_release,"Release: BBBP,007,lsb_release,"Codename: 5.7" Final" ... 다수의 라인으로 구성된 불규칙 로그를 Apache Hadoop 정형화된 로그로 변형하는 것이 관건
  • 17. Log Aggregator – Cloudera Flume Apache Hadoop
  • 18. Log Aggregator – Apache Flume NG Apache Hadoop
  • 19. Complex Event Processing? •  CEP는 실시간 대용량 Event 처리 기술 •  CEP는 EDA(Event-driven architecture) 기반 시스템 •  Mutliple event stream에서 발생하는 패턴 감지 기술 Apache Hadoop
  • 20. Complex Event Processing? •  교회에서... •  벨이 울린다. •  턱시도를 입은 남자와 꽃을 든 여자가 함께 걷는다. •  두 사람 위로 꽃 잎이 날리고 폭죽이 터진다. Apache Hadoop
  • 21. Complex Event Processing? CEP 기술은 이러한 Complex한 Event를 참조하여 결혼식이라는 것을 알아 차린다. Apache Hadoop
  • 22. Complex Event Processing? •  Algorithmic Stock-Trading •  Real-time analytics •  Predictive analytics •  BAM - Business Activity Monitoring •  BI - Business intelligence Apache Hadoop
  • 23. Complex Event Processing? •  Core Concept 용어 정리 용어 정의 이벤트 실제로 발생한 사건, 일, 메시지 상태의 변경 특정한 액션 또는 상태의 변화를 통해 발생하는 변경이 불가 능한 과거의 기록 이벤트 스트림 시간의 순서대로 연속되는 이벤트의 흐름 시작과 끝이 없는 이벤트의 연속된 흐름 실시간의 특징 현저하게 낮은 수준의 지연 일정한 응답속도 예측 가능한 성능 Apache Hadoop
  • 24. OpenSource CEP : Esper •  GPL v2 라이선스, Oracle CEP의 엔진 •  경량의 Complex Event Processing Implementation Apache Hadoop
  • 25. OpenSource CEP : Esper •  GPL v2 라이선스, Oracle CEP의 엔진 •  경량의 Complex Event Processing Implementation Apache Hadoop
  • 26. OpenSource CEP : Esper // Java Object public static class StockTick { String symbol; Double price; Date timeStamp; } // Esper Event Query (EPL) // Apple의 Tick이 평균 6이상, 2건 발생한 경우 select * from StockTick(symbol='AAPL').win:length(2) having avg(price) > 6.0 Apache Hadoop
  • 27. OpenSource CEP : Esper EPServiceProvider epService = EPServiceProviderManager.getDefaultProvider(); String expression = "select avg(price) from org.myapp.event.OrderEvent.win:time(30 sec)"; EPStatement statement = epService.getEPAdministrator().createEPL(expression); public class MyListener implements UpdateListener { public void update(EventBean[] newEvents, EventBean[] oldEvents) { EventBean event = newEvents[0]; System.out.println("avg=" + event.get("avg(price)")); } } MyListener listener = new MyListener(); statement.addListener(listener); Apache Hadoop
  • 28. OpenSource CEP : Esper •  최근 30분내 시청 근처에 있었던 급여가 10M 이상이며 나이가 30~35세 이상이고 집이 강남이면서 취미가 쇼핑인 여성 select * from customer(age=’30~35’,gender='female',salary>10M, location='city hall', home='gangnam',hobby='shopping').win:time(30 min) Volume : Analytics (Apache Hadoop) Apache Hadoop Velocity : Real-Time (CEP; Esper)
  • 29. 로그 수집기와 CEP를 이용한 실시간 처리 아키텍처 Apache Hadoop
  • 30. 로그 수집기와 CEP를 이용한 실시간 처리 아키텍처 Apache Hadoop 30
  • 31. Summary •  Real-Time Big Data는 •  Real-Time과 Analytics의 Convergence •  High Technology •  아직까지 Real-Time 이벤트 처리 기술인 CEP에 대한 이해 부족으로 인 하여 시장에서 적용 사례 부족 •  향후 Big Data 시장에서 강력한 폭풍이 될 것 Apache Hadoop
  • 32. References •  Big Data Use-Case: Real-time Dispenser Maintenance •  http://jameskaskade.com/?p=2177 •  Real Time analytics for Big Data: Facebook's New Realtime Analytics System •  http://tinyurl.com/3cgg6yr •  Esper Documentation •  http://esper.codehaus.org/esper-4.5.0/doc/reference/en/ html_single/index.html Apache Hadoop