SlideShare une entreprise Scribd logo
1  sur  27
Télécharger pour lire hors ligne
개인 데이터 기반 활용
인공지능 기반
서비스 융합 기반
데이터 산업
생태계 변화
데이터 산업
생태계 변화
실시간 빅데이터 분석 솔루션
데이터의
이해
데이터
처리 기술의
이해
데이터
분석 기획
데이터 분석
데이터
시각화
•병렬 분산 처리 구조
•신속하고 최적화된 검색
다양한
분석 기능
효율적인
데이터 관리
대용량 처리
고성능 및
고 가용성
•다양한 사용자 인터페이스 제공
•한글 형태소 분석
•인덱싱 데이터의 Materializing
• 사용자 직관적이고 강력한 분석
언어
•대용량 데이터 수명 관리
•강력한 보안 아키텍처
• Index Sharding 및
Parallel Query
•Mirroring 및 Fail Over
빅데이터 플랫폼
부정사용 감시, 보안관제
정책 발굴, 관리 기술,학술정보 분석
비정형성
1w
1d
1h
1m
1s
정형 반정형 비정형
실시간 상품 추천
도시 관제, 재난 대응
의료, 헬스케어 서비스
소셜 미디어 분석
(트랜드,감성,이슈 분석 외)
고객,시민 목소리(VOC) 분석
국방,보안 관제/eDiscovery
실시간성
통합 로그 관리
장애 예방
구성요소 정형 데이터 비정형 데이터
정의 • 스키마가 정의된 데이터 • 정형 데이터가 아닌 것
데이터 소스 • RDBMS의 테이블 형태 데이터 • 텍스트 데이터, 로그
데이터 처리
• 엄밀한 트랜잭션 처리, 완벽한 복구
(Commit or Rollback)
• Read only 데이터 처리 고성능
(Eventually consistency )
데이터 증가량 • 증가 • 매우 빠르게 증가
데이터 조회 기술 • SQL, 수리통계 • NoSQL, 머신러닝
데이터 처리기술
분석 목적 • 과거 지향적 (정합성 보장 분석, 월별 과금 배치) • 미래 지향적 (추천, 예측)
Data
RDBMS
Data
Active – Active 클러스터
Master Node
SlaveNo
de
SlaveNo
de
SlaveNo
de
SlaveNo
de
SlaveNo
de
운영 시스템
마케팅분석
성능, 보안
1. 금융 상품 추천
2. IT 운영 관리
3. 스마트 팩토리
콜센터 어플리케이션
보안 장비
서버, 프로세스
네트워크 장비
VOC 어플리케이션
빅데이터 분석
로그 수집
(XML, CSV, Text 등)
실시간 분석 용이한
구조로 저장
등록된 룰과
비교
검색
실시간 모니터링
제조관리
빅데이터 이전 시대 빅데이터 시대
직감에 의한 서비스/상품 제공 방식
• 개별 고객 서비스/상품 선호 반영 불가
• 개별 고객 특성을 반영한 서비스/상품 설계 불가
• 다수 상품에서 고객 최적 서비스/상품 선택 불가
상담 직원 또는
지인 추천에 의한
서비스/상품 선택
고객 불만에 대한
분석 부족
빅데이터
인프라 구축
빅데이터
활용 마케팅
시스템 로그
음성 대화
(음성변환)
최적의 상품
실시간 이벤트 처리
마이닝
데이터 분석 기반 서비스/상품 추천
• 분석되지 못 했던 시스템로그 및 음성데이터에 대한
실시간 처리를 통한 서비스/상품 추천
상용 소프트웨어오픈 소스 소프트웨어
[빅데이터 플랫폼]
데이터
수집
저장
데이터
조회
실시간
처리
Informatica
Flume
IBM InfoSphere
DataStage
Kafka HDFS
Map
Reduce
Mongo
Cassandra
Storm
Spark
Oracle
TimesTen
분석솔루션
R
SAS
SPSS
Tableau
Teradata AsterTeradata Aster
Tibco
Stream Base
시각화
Kibana
Qliktech
Micro
strategy
CEP
Esper
Hive
Impala
Elastic Search
Scoop
상용 소프트웨어오픈 소스 소프트웨어
[AnyMiner Coverage]
데이터
수집
저장
데이터
조회
실시간
처리
Informatica
Flume
IBM
InfoSphere
DataStage
Kafka HDFS
Map
Reduce
Mongo
Cassandra
Storm
Spark
Oracle
TimesTen
분석솔루션
R
SAS
SPSS
Tableau
Teradata AsterTeradata Aster
Tibco
Stream Base
시각화
Kibana
Qliktech
Micro
strategy
CEP
Esper
Hive
Impala
Elastic Search
Scoop
[Key Features]
AnyMiner 대응 영역
빅데이터 조회, 분석, 대응
수집
적재
처리
Data Loader Data Loader Data Loader
Source Source Source
Storage
Server
Storage
Server
Elastic
Search
Elastic
Search
CEP Engine
Buffer Size 단위Agent
SQL Engine
Query
Engine
Active
Active
Function Off Loading Index 생성 적재
Rule
AI
Flow
Designer
AnyMiner Storage Server
특징
SQL Query Engine
Elasticsearch 활용 적재
Buffer Size 단위 데이터 수집
 고가용성 및 복잡 Query 분석
 시스템 IO 최소화 성능 극대화
CEP Engine
 실시간 데이터 분석
 Index 활용 고성능 데이터 조회
Storage Server 활용 적재
 Function Off Loading 활용
 데이터 필터링 처리
Agent Fail-Over
 장애 발생시 지속적 데이터 수집
데이터 분석 통합 포털 활용
 DataSet Management
빅데이터 스키마 설계
빅데이터 스키마 설계
빅데이터 생성
분석 대상 시스템 Agent 설치
DataSet 생성
DataLoader, DataSet 매핑
Agent로 데이터 수집
빅데이터 생성 완료
Elasticsearch Segment Index
Data Loader
Agent
빅데이터 생성
DataSet 속성
1
2
3
4
5
[Agent/Agentless 데이터 수집]
Switch
JDBC Scripted Input
Remote 방식 수집
(Agentless)
Local 방식 수집
Scripts
Router
File/Directory
Agent, Agentless 기반 데이터 수집
•Agent : 파일/디렉토리에서 데이터 추출
•Agentless : syslog 등과 같이 네트워크를 통해
직접 전송되는 데이터를 수집
다양한 형태 수집 방식 지원
•File / Directory : 특정 File 이나 Directory에 변화
인식하여 데이터 전달
•Scripted Input : Script의 실행 결과를 수집하는
기능
•JDBC : RDBMS에 표준 프로토콜(JDBC)를 이용한
데이터 룩업(Look up)
데이터분석 플랫폼
수집
Agent
Agentless
정형/비정형
수집
Parsing
DB
품질지표 품질목표 결과치
로그 처리 성능 200,000 EPS 202,541 EPS
다수의 로그
포맷 처리
10개 10개 이상
다수의 Alert
검출
5개 5개
분석 성능 50GB/sec 1,033 GB/sec
노드당 성능
증가율
50% 65.4 %
실시간 검출
지연 시간
10ms 1.9 ms
시험 조건
• 서버 1대 AnyMiner Server와 Agent 설치
 Ubuntu 16.04 LTS(64bit)
 Intel Xeon E5-2660 v4 @2.00GHz * 14
 128GB Memory, 600 GB HDD
• 시험 대상 로그
 크기 : 1,046,720 KB(0..99 GB)
 데이터 건수 : 11,879,501건
 형식 : ACCESS_COMMON
측정 방법
• 로그 개수/처리 시간 EPS(Event Per Second)
• 다수 로그 포맷 처리, Alert 검출 – 실측 값
• 분석 성능 – 로그 사이즈/처리 시간
• 실시간 검출 지연 시간 – 이벤트 검출 시간/개수
Hadoop 대비 6배 이상 고성능 데이터 적재
AnyMiner
Source
Agent
데이터 저장소
Data Loader
SQL Engine
수집 및 가공
처리 및 가공
[ 빅데이터 처리 흐름 ] [ 워크플로우 관련 도구 ]
Data Modeler
Flow Designer
View /
Monitoring
직관적 Data 모델링
• Auto Discovery →데이터 소스에서 제공 정보 기반 모델링
• 관계형 모델링 → Virtual Table간 Relation 정보 확인
유연한 Flow 개발
• Drag & Drop 방식, Task 재사용
• 다양한 Task 제공 → Query, Join, Filter, Sort, FileWrite, FileRead,등
• 조건형 Flow설계 → 선행Task성공 여부에 따른 분기, 후행Task 실행 순
서 지정
개발 가시성 확보
• Ad-hoc 쿼리구문 실행, 결과확인
• Flow의 실행 Plan 확인
• Flow Task 중간 결과 조회 가능
• 실행 Log View 제공
PS – Primary Shard, R - Replica
Dataset
Part_2016.01
…
PS1 PS2
Part_2016.02
PS2 PS3
Part_2016.08
PS1 PS2
R2 R1
R3 R1 R2
R3 R1
… PS3
R2
Node 1 Node 2 Node 3
PS1
전체 Node의 분산 처리로
고성능 보장
멀티 Node에 대한 가용성 확보
Anyminer 플랫폼 데이터 저장 구조
Index 형태의 데이터 저장
•텍스트 데이터 분석에 용이한 Inverted Index
형태로 데이터 인덱싱
•비정형 데이터에 대한 검색 속도 향상
비정형 데이터 최적 인덱싱
•일반적인 Hadoop 기반 솔루션은 index 가 없는
구조  검색 속도 이슈 발생
•text search (inverted index) - 대부분의 필드가
cardinality가 적은 특징  최적의 인덱싱 방식
Document 1
Document 2
Document 3
a
and
around
for
from
In
Is
It
not
On
One
the
to
under
Stopword list Inverted index
ID Term Document
1 Best 2
2 Blue 1,3
3 Bright 1,3
4 Butterfly 1
5 Breeze 1
6 Forget 2
7 Great 2
8 Hangs 1
9 Need 3
10 Retire 2
11 Search 3
12 Sky 2,3
13 wind 2
비정형정형
Query Engine
App
SQL
App
SPLSelect abc from Table search abc | top 5
※ SPL(Search Processing Language): 검색 프로세싱 언어
•SPL 장점 : 파이프 라인, join 손쉬운 언어
•SQL 장점 : 개발자 익숙, 정교함
SPL과 SQL 모두 제공
강력한 Query Power
•전문 RDBMS 쿼리 엔진  비용기반 옵티마이저
고성능 지원
•Hive, Impala 등 오픈소스의 근본적 차별성
스트림 데이터
Complex Event
Time Range = 5초
A S A B F I C U ……
인메모리
CEP
Services Action Notification
룰 예시 : ABC, 5초
구성요소
Real-time
Alert
Scheduled
Alert
시간 구간
비교적 짧다
(sec, min)
비교적길다
(hour, day)
언제
검사하나?
Event-driven Time-driven
동작 방식
In-memory
processing
Store &
Processing
Rule
정의는?
CQL SQL
구현은? CEP Querying
통계 패키지
Query Engine
비정형 데이터
저장소
AnyMiner
표준 프로토콜 표준 SQL 조회
다양한 분석솔루션 연동
• 글로벌 상용 소프트웨어 : SPSS, SAS 등
• 오픈소스 : R, Python scikit-learn, Tensorflow 등
• 국산 상용 소프트웨어 : ECMiner
표준 프로토콜/SQL
• 정형 뿐 만 아니라, 비정형 데이터도 Query Engine 을
통해 연동
• JDBC, ODBC 등 표준 프로토콜 지원
• ANSI 표준 SQL 을 통한 데이터 조회
호튼윅스, 클라우데라, 맵알 등의 벤더(상용하둡)
이용하여 단일 솔루션들의 조합의 구축 어려움의
단점을 해결하고자 노력
AnyMinerHadoop
급
변
하
는
S/W
의
Lifecycle
Hadoop인터페이스에 대한 지원 등으로 단점을
극복하고자 진화 중
단
일
플
랫
폼
으
로
계
속
적
인
지
원
단점
구성의 복잡성(구축)
성능 이슈(구축 & 관리)
장애대응 어려움(관리)
장점
• 빅데이터 기반마련
• 다양한 Component 소유
• 인력 인프라
장점
단일제품(구축)
빠른수집/최소의 오버헤드(구축 & 관리)
통합플랫폼(관리)
단점
• 시각화, 분석기능 활용 툴 부족(진화중)
• 인력/교육적 인프라 부족
기능 구분 AnyMiner Hadoop
플랫폼 제공 관점 • 통합 제품(플랫폼)으로 제공 • 단위 솔루션 조합
수집Agent관리 • 웹기반 관리 툴로 편의성 제공 • 오픈소스 이용으로 관리 툴 부족 및 관리 어려움 존재
데이터 파싱 • 정규식 형태의 유연성 제공 • 복잡하고 유연성 부족
수집 정합성 • 중복 없고, 데이터 유실도 없음 • 데이터 중복 및 유실에 대한 이슈 많음
이벤트 수집 속도 • 수집 시 빠른 성능 보장 • 수집에 부하가 많고 느림
저장 형태 • Index형태로 검색 속도 빠름 • Raw data저장 검색, 상대적으로 느림
SQL 조회 기능
• 강력한 Query Power
• Tibero의 강력한 옵티마이저 이용
• 기본적은 SQL Like기능 제공(Hive)
• 상용 DBMS Tibero 엔진기반으로 하는 AnyMiner보다 적은
지원범위 및 성능 상 느림
이벤트 처리
• CEP(Complex Event Processing)
기반 실시간 처리
• 실시간 처리 제공 어려움(일괄처리기반)
- SPARK와 같은 별도S/W설치
빅데이터 = 오픈소스 ?
• 빅데이터 개념 초창기 Hadoop 기반의 오픈소스 기반
프로젝트 진행
• 프로젝트 진행 과정 중 인프라 제품 기술력 한계,
요구사항 반영 부족 등의 한계
• 수집/저장/분석 전 영역에 여러 오픈소스로 산재되어
있는 기술을 단일 솔루션으로 대체 가능
• 국내 원천기술 보유 기술력을 통한 보다 확실한
기술지원 서비스 확보
빅데이터 시대에 걸맞는 상용 소프트웨어
[Without AnyMiner] [With AnyMiner]
‘17 년 하반기
’18년 상반기
’18년 하반기
 XML 데이터 파싱 기능
 필드별 암호화/마스킹 기능
 스토리지 데이터 스캔 성능 개선
 쿼리 엔진 병렬 처리 기능 개선
 CEP 기능 고도화
 Virtual DB 연동 (ETL)
 사용자별 권한 관리
 Machine Learning 엔진 탑재
 TmaxIaaS에 통합
 CEP 분산 처리
 신 분석 툴 개발
 시각화 도구
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장

Contenu connexe

Tendances

[웨비나] 클라우드 마이그레이션 수행 시 가장 많이 하는 질문 Top 10!
[웨비나] 클라우드 마이그레이션 수행 시 가장 많이 하는 질문 Top 10![웨비나] 클라우드 마이그레이션 수행 시 가장 많이 하는 질문 Top 10!
[웨비나] 클라우드 마이그레이션 수행 시 가장 많이 하는 질문 Top 10!Open Source Consulting
 
금융권 최신 AWS 도입 사례 총정리 – 신한 제주 은행, KB손해보험 사례를 중심으로 - 지성국 사업 개발 담당 이사, AWS / 정을용...
금융권 최신 AWS 도입 사례 총정리 – 신한 제주 은행, KB손해보험 사례를 중심으로 - 지성국 사업 개발 담당 이사, AWS / 정을용...금융권 최신 AWS 도입 사례 총정리 – 신한 제주 은행, KB손해보험 사례를 중심으로 - 지성국 사업 개발 담당 이사, AWS / 정을용...
금융권 최신 AWS 도입 사례 총정리 – 신한 제주 은행, KB손해보험 사례를 중심으로 - 지성국 사업 개발 담당 이사, AWS / 정을용...Amazon Web Services Korea
 
AWS EMR Cost optimization
AWS EMR Cost optimizationAWS EMR Cost optimization
AWS EMR Cost optimizationSANG WON PARK
 
Elastic Stack 을 이용한 게임 서비스 통합 로깅 플랫폼 - elastic{on} 2019 Seoul
Elastic Stack 을 이용한 게임 서비스 통합 로깅 플랫폼 - elastic{on} 2019 SeoulElastic Stack 을 이용한 게임 서비스 통합 로깅 플랫폼 - elastic{on} 2019 Seoul
Elastic Stack 을 이용한 게임 서비스 통합 로깅 플랫폼 - elastic{on} 2019 SeoulSeungYong Oh
 
[AWS Techshift] 파트너 사업을 준비하기 위해 기억해야 할 5가지 - 양승호, AWS 파트너 사업 개발 담당 이사
[AWS Techshift] 파트너 사업을 준비하기 위해 기억해야 할 5가지 - 양승호, AWS 파트너 사업 개발 담당 이사[AWS Techshift] 파트너 사업을 준비하기 위해 기억해야 할 5가지 - 양승호, AWS 파트너 사업 개발 담당 이사
[AWS Techshift] 파트너 사업을 준비하기 위해 기억해야 할 5가지 - 양승호, AWS 파트너 사업 개발 담당 이사Amazon Web Services Korea
 
대용량 데이터베이스의 클라우드 네이티브 DB로 전환 시 확인해야 하는 체크 포인트-김지훈, AWS Database Specialist SA...
대용량 데이터베이스의 클라우드 네이티브 DB로 전환 시 확인해야 하는 체크 포인트-김지훈, AWS Database Specialist SA...대용량 데이터베이스의 클라우드 네이티브 DB로 전환 시 확인해야 하는 체크 포인트-김지훈, AWS Database Specialist SA...
대용량 데이터베이스의 클라우드 네이티브 DB로 전환 시 확인해야 하는 체크 포인트-김지훈, AWS Database Specialist SA...Amazon Web Services Korea
 
Data pipeline and data lake
Data pipeline and data lakeData pipeline and data lake
Data pipeline and data lakeDaeMyung Kang
 
실시간 스트리밍 분석 Kinesis Data Analytics Deep Dive
실시간 스트리밍 분석  Kinesis Data Analytics Deep Dive실시간 스트리밍 분석  Kinesis Data Analytics Deep Dive
실시간 스트리밍 분석 Kinesis Data Analytics Deep DiveAmazon Web Services Korea
 
장애 관리 방안
장애 관리 방안장애 관리 방안
장애 관리 방안Junho Lee
 
mongodb와 mysql의 CRUD 연산의 성능 비교
mongodb와 mysql의 CRUD 연산의 성능 비교mongodb와 mysql의 CRUD 연산의 성능 비교
mongodb와 mysql의 CRUD 연산의 성능 비교Woo Yeong Choi
 
[Confluent] 실시간 하이브리드, 멀티 클라우드 데이터 아키텍처로 빠르게 혀...
[Confluent] 실시간 하이브리드, 멀티 클라우드 데이터 아키텍처로 빠르게 혀...[Confluent] 실시간 하이브리드, 멀티 클라우드 데이터 아키텍처로 빠르게 혀...
[Confluent] 실시간 하이브리드, 멀티 클라우드 데이터 아키텍처로 빠르게 혀...confluent
 
Kafka Connect - debezium
Kafka Connect - debeziumKafka Connect - debezium
Kafka Connect - debeziumKasun Don
 
Amazon Redshift의 이해와 활용 (김용우) - AWS DB Day
Amazon Redshift의 이해와 활용 (김용우) - AWS DB DayAmazon Redshift의 이해와 활용 (김용우) - AWS DB Day
Amazon Redshift의 이해와 활용 (김용우) - AWS DB DayAmazon Web Services Korea
 
세션 3: IT 담당자를 위한 Cloud 로의 전환
세션 3: IT 담당자를 위한 Cloud 로의 전환세션 3: IT 담당자를 위한 Cloud 로의 전환
세션 3: IT 담당자를 위한 Cloud 로의 전환Amazon Web Services Korea
 
대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개-유철민, AWS Data Architect / 박성열,AWS Pr...
대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개-유철민, AWS Data Architect / 박성열,AWS Pr...대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개-유철민, AWS Data Architect / 박성열,AWS Pr...
대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개-유철민, AWS Data Architect / 박성열,AWS Pr...Amazon Web Services Korea
 
Amazon SageMaker 모델 배포 방법 소개::김대근, AI/ML 스페셜리스트 솔루션즈 아키텍트, AWS::AWS AIML 스페셜 웨비나
Amazon SageMaker 모델 배포 방법 소개::김대근, AI/ML 스페셜리스트 솔루션즈 아키텍트, AWS::AWS AIML 스페셜 웨비나Amazon SageMaker 모델 배포 방법 소개::김대근, AI/ML 스페셜리스트 솔루션즈 아키텍트, AWS::AWS AIML 스페셜 웨비나
Amazon SageMaker 모델 배포 방법 소개::김대근, AI/ML 스페셜리스트 솔루션즈 아키텍트, AWS::AWS AIML 스페셜 웨비나Amazon Web Services Korea
 
Terraform을 기반한 AWS 기반 대규모 마이크로서비스 인프라 운영 노하우 - 이용욱, 삼성전자 :: AWS Summit Seoul ...
Terraform을 기반한 AWS 기반 대규모 마이크로서비스 인프라 운영 노하우 - 이용욱, 삼성전자 :: AWS Summit Seoul ...Terraform을 기반한 AWS 기반 대규모 마이크로서비스 인프라 운영 노하우 - 이용욱, 삼성전자 :: AWS Summit Seoul ...
Terraform을 기반한 AWS 기반 대규모 마이크로서비스 인프라 운영 노하우 - 이용욱, 삼성전자 :: AWS Summit Seoul ...Amazon Web Services Korea
 
Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기
Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기
Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기Amazon Web Services Korea
 
AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20
AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20
AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20Amazon Web Services Korea
 
AWS 클라우드 데이터 이전을 위한 6가지 전략 (윤석찬) :: AWS 8월 월간 웨비나
AWS 클라우드 데이터 이전을 위한 6가지 전략 (윤석찬) :: AWS 8월 월간 웨비나 AWS 클라우드 데이터 이전을 위한 6가지 전략 (윤석찬) :: AWS 8월 월간 웨비나
AWS 클라우드 데이터 이전을 위한 6가지 전략 (윤석찬) :: AWS 8월 월간 웨비나 Amazon Web Services Korea
 

Tendances (20)

[웨비나] 클라우드 마이그레이션 수행 시 가장 많이 하는 질문 Top 10!
[웨비나] 클라우드 마이그레이션 수행 시 가장 많이 하는 질문 Top 10![웨비나] 클라우드 마이그레이션 수행 시 가장 많이 하는 질문 Top 10!
[웨비나] 클라우드 마이그레이션 수행 시 가장 많이 하는 질문 Top 10!
 
금융권 최신 AWS 도입 사례 총정리 – 신한 제주 은행, KB손해보험 사례를 중심으로 - 지성국 사업 개발 담당 이사, AWS / 정을용...
금융권 최신 AWS 도입 사례 총정리 – 신한 제주 은행, KB손해보험 사례를 중심으로 - 지성국 사업 개발 담당 이사, AWS / 정을용...금융권 최신 AWS 도입 사례 총정리 – 신한 제주 은행, KB손해보험 사례를 중심으로 - 지성국 사업 개발 담당 이사, AWS / 정을용...
금융권 최신 AWS 도입 사례 총정리 – 신한 제주 은행, KB손해보험 사례를 중심으로 - 지성국 사업 개발 담당 이사, AWS / 정을용...
 
AWS EMR Cost optimization
AWS EMR Cost optimizationAWS EMR Cost optimization
AWS EMR Cost optimization
 
Elastic Stack 을 이용한 게임 서비스 통합 로깅 플랫폼 - elastic{on} 2019 Seoul
Elastic Stack 을 이용한 게임 서비스 통합 로깅 플랫폼 - elastic{on} 2019 SeoulElastic Stack 을 이용한 게임 서비스 통합 로깅 플랫폼 - elastic{on} 2019 Seoul
Elastic Stack 을 이용한 게임 서비스 통합 로깅 플랫폼 - elastic{on} 2019 Seoul
 
[AWS Techshift] 파트너 사업을 준비하기 위해 기억해야 할 5가지 - 양승호, AWS 파트너 사업 개발 담당 이사
[AWS Techshift] 파트너 사업을 준비하기 위해 기억해야 할 5가지 - 양승호, AWS 파트너 사업 개발 담당 이사[AWS Techshift] 파트너 사업을 준비하기 위해 기억해야 할 5가지 - 양승호, AWS 파트너 사업 개발 담당 이사
[AWS Techshift] 파트너 사업을 준비하기 위해 기억해야 할 5가지 - 양승호, AWS 파트너 사업 개발 담당 이사
 
대용량 데이터베이스의 클라우드 네이티브 DB로 전환 시 확인해야 하는 체크 포인트-김지훈, AWS Database Specialist SA...
대용량 데이터베이스의 클라우드 네이티브 DB로 전환 시 확인해야 하는 체크 포인트-김지훈, AWS Database Specialist SA...대용량 데이터베이스의 클라우드 네이티브 DB로 전환 시 확인해야 하는 체크 포인트-김지훈, AWS Database Specialist SA...
대용량 데이터베이스의 클라우드 네이티브 DB로 전환 시 확인해야 하는 체크 포인트-김지훈, AWS Database Specialist SA...
 
Data pipeline and data lake
Data pipeline and data lakeData pipeline and data lake
Data pipeline and data lake
 
실시간 스트리밍 분석 Kinesis Data Analytics Deep Dive
실시간 스트리밍 분석  Kinesis Data Analytics Deep Dive실시간 스트리밍 분석  Kinesis Data Analytics Deep Dive
실시간 스트리밍 분석 Kinesis Data Analytics Deep Dive
 
장애 관리 방안
장애 관리 방안장애 관리 방안
장애 관리 방안
 
mongodb와 mysql의 CRUD 연산의 성능 비교
mongodb와 mysql의 CRUD 연산의 성능 비교mongodb와 mysql의 CRUD 연산의 성능 비교
mongodb와 mysql의 CRUD 연산의 성능 비교
 
[Confluent] 실시간 하이브리드, 멀티 클라우드 데이터 아키텍처로 빠르게 혀...
[Confluent] 실시간 하이브리드, 멀티 클라우드 데이터 아키텍처로 빠르게 혀...[Confluent] 실시간 하이브리드, 멀티 클라우드 데이터 아키텍처로 빠르게 혀...
[Confluent] 실시간 하이브리드, 멀티 클라우드 데이터 아키텍처로 빠르게 혀...
 
Kafka Connect - debezium
Kafka Connect - debeziumKafka Connect - debezium
Kafka Connect - debezium
 
Amazon Redshift의 이해와 활용 (김용우) - AWS DB Day
Amazon Redshift의 이해와 활용 (김용우) - AWS DB DayAmazon Redshift의 이해와 활용 (김용우) - AWS DB Day
Amazon Redshift의 이해와 활용 (김용우) - AWS DB Day
 
세션 3: IT 담당자를 위한 Cloud 로의 전환
세션 3: IT 담당자를 위한 Cloud 로의 전환세션 3: IT 담당자를 위한 Cloud 로의 전환
세션 3: IT 담당자를 위한 Cloud 로의 전환
 
대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개-유철민, AWS Data Architect / 박성열,AWS Pr...
대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개-유철민, AWS Data Architect / 박성열,AWS Pr...대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개-유철민, AWS Data Architect / 박성열,AWS Pr...
대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개-유철민, AWS Data Architect / 박성열,AWS Pr...
 
Amazon SageMaker 모델 배포 방법 소개::김대근, AI/ML 스페셜리스트 솔루션즈 아키텍트, AWS::AWS AIML 스페셜 웨비나
Amazon SageMaker 모델 배포 방법 소개::김대근, AI/ML 스페셜리스트 솔루션즈 아키텍트, AWS::AWS AIML 스페셜 웨비나Amazon SageMaker 모델 배포 방법 소개::김대근, AI/ML 스페셜리스트 솔루션즈 아키텍트, AWS::AWS AIML 스페셜 웨비나
Amazon SageMaker 모델 배포 방법 소개::김대근, AI/ML 스페셜리스트 솔루션즈 아키텍트, AWS::AWS AIML 스페셜 웨비나
 
Terraform을 기반한 AWS 기반 대규모 마이크로서비스 인프라 운영 노하우 - 이용욱, 삼성전자 :: AWS Summit Seoul ...
Terraform을 기반한 AWS 기반 대규모 마이크로서비스 인프라 운영 노하우 - 이용욱, 삼성전자 :: AWS Summit Seoul ...Terraform을 기반한 AWS 기반 대규모 마이크로서비스 인프라 운영 노하우 - 이용욱, 삼성전자 :: AWS Summit Seoul ...
Terraform을 기반한 AWS 기반 대규모 마이크로서비스 인프라 운영 노하우 - 이용욱, 삼성전자 :: AWS Summit Seoul ...
 
Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기
Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기
Amazon EMR과 SageMaker를 이용하여 데이터를 준비하고 머신러닝 모델 개발 하기
 
AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20
AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20
AWS 기반의 마이크로 서비스 아키텍쳐 구현 방안 :: 김필중 :: AWS Summit Seoul 20
 
AWS 클라우드 데이터 이전을 위한 6가지 전략 (윤석찬) :: AWS 8월 월간 웨비나
AWS 클라우드 데이터 이전을 위한 6가지 전략 (윤석찬) :: AWS 8월 월간 웨비나 AWS 클라우드 데이터 이전을 위한 6가지 전략 (윤석찬) :: AWS 8월 월간 웨비나
AWS 클라우드 데이터 이전을 위한 6가지 전략 (윤석찬) :: AWS 8월 월간 웨비나
 

Similaire à 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장

DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimDeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimGruter
 
AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석
AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석
AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석Amazon Web Services Korea
 
The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)
The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)
The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)SANG WON PARK
 
Elastic Stack & Data pipeline
Elastic Stack & Data pipelineElastic Stack & Data pipeline
Elastic Stack & Data pipelineJongho Woo
 
SQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouseSQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouseNAVER Engineering
 
정보보호통합플랫폼 기술 트렌드
정보보호통합플랫폼 기술 트렌드정보보호통합플랫폼 기술 트렌드
정보보호통합플랫폼 기술 트렌드Logpresso
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)Channy Yun
 
한컴MDS_Splunk 기반의 빅데이터 활용 사례 소개
한컴MDS_Splunk 기반의 빅데이터 활용 사례 소개한컴MDS_Splunk 기반의 빅데이터 활용 사례 소개
한컴MDS_Splunk 기반의 빅데이터 활용 사례 소개HANCOM MDS
 
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017Amazon Web Services Korea
 
Real-time Big Data Analytics Practice with Unstructured Data
Real-time Big Data Analytics Practice with Unstructured DataReal-time Big Data Analytics Practice with Unstructured Data
Real-time Big Data Analytics Practice with Unstructured DataTed Won
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020Jinwoong Kim
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 AWSKRUG - AWS한국사용자모임
 
Amazon kinesis와 elasticsearch service로 만드는 실시간 데이터 분석 플랫폼 :: 박철수 :: AWS Summi...
Amazon kinesis와 elasticsearch service로 만드는 실시간 데이터 분석 플랫폼 :: 박철수 :: AWS Summi...Amazon kinesis와 elasticsearch service로 만드는 실시간 데이터 분석 플랫폼 :: 박철수 :: AWS Summi...
Amazon kinesis와 elasticsearch service로 만드는 실시간 데이터 분석 플랫폼 :: 박철수 :: AWS Summi...Amazon Web Services Korea
 
DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)Kee Hoon Lee
 
AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017
AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017
AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017Amazon Web Services Korea
 
게임 서비스 품질 향상을 위한 데이터 분석 활용하기 - 김필중 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming
게임 서비스 품질 향상을 위한 데이터 분석 활용하기 - 김필중 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming게임 서비스 품질 향상을 위한 데이터 분석 활용하기 - 김필중 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming
게임 서비스 품질 향상을 위한 데이터 분석 활용하기 - 김필중 솔루션즈 아키텍트:: AWS Cloud Track 3 GamingAmazon Web Services Korea
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Channy Yun
 

Similaire à 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 (20)

DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun KimDeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
DeView2013 Big Data Platform Architecture with Hadoop - Hyeong-jun Kim
 
AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석
AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석
AWS Summit Seoul 2015 - 게임 서비스 혁신을 위한 데이터 분석
 
The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)
The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)
The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)
 
Elastic Stack & Data pipeline
Elastic Stack & Data pipelineElastic Stack & Data pipeline
Elastic Stack & Data pipeline
 
SQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouseSQream DB, GPU-accelerated data warehouse
SQream DB, GPU-accelerated data warehouse
 
Infiniflux introduction
Infiniflux introductionInfiniflux introduction
Infiniflux introduction
 
정보보호통합플랫폼 기술 트렌드
정보보호통합플랫폼 기술 트렌드정보보호통합플랫폼 기술 트렌드
정보보호통합플랫폼 기술 트렌드
 
빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)빅데이터 기술 현황과 시장 전망(2014)
빅데이터 기술 현황과 시장 전망(2014)
 
INFRASTRUCTURE
INFRASTRUCTUREINFRASTRUCTURE
INFRASTRUCTURE
 
한컴MDS_Splunk 기반의 빅데이터 활용 사례 소개
한컴MDS_Splunk 기반의 빅데이터 활용 사례 소개한컴MDS_Splunk 기반의 빅데이터 활용 사례 소개
한컴MDS_Splunk 기반의 빅데이터 활용 사례 소개
 
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
AWS 빅데이터 아키텍처 패턴 및 모범 사례- AWS Summit Seoul 2017
 
Real-time Big Data Analytics Practice with Unstructured Data
Real-time Big Data Analytics Practice with Unstructured DataReal-time Big Data Analytics Practice with Unstructured Data
Real-time Big Data Analytics Practice with Unstructured Data
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
 
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020 AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
AWS기반 서버리스 데이터레이크 구축하기 - 김진웅 (SK C&C) :: AWS Community Day 2020
 
Amazon kinesis와 elasticsearch service로 만드는 실시간 데이터 분석 플랫폼 :: 박철수 :: AWS Summi...
Amazon kinesis와 elasticsearch service로 만드는 실시간 데이터 분석 플랫폼 :: 박철수 :: AWS Summi...Amazon kinesis와 elasticsearch service로 만드는 실시간 데이터 분석 플랫폼 :: 박철수 :: AWS Summi...
Amazon kinesis와 elasticsearch service로 만드는 실시간 데이터 분석 플랫폼 :: 박철수 :: AWS Summi...
 
DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)DB관점에서 본 빅데이터 (2019년 8월)
DB관점에서 본 빅데이터 (2019년 8월)
 
AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017
AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017
AWS를 통한 빅데이터 기반 비지니스 인텔리전스 구축- AWS Summit Seoul 2017
 
게임 서비스 품질 향상을 위한 데이터 분석 활용하기 - 김필중 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming
게임 서비스 품질 향상을 위한 데이터 분석 활용하기 - 김필중 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming게임 서비스 품질 향상을 위한 데이터 분석 활용하기 - 김필중 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming
게임 서비스 품질 향상을 위한 데이터 분석 활용하기 - 김필중 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming
 
OMC
OMCOMC
OMC
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)
 

Plus de eungjin cho

하이퍼바이저 라이선스 비용이 없는 뉴타닉스 AHV
하이퍼바이저 라이선스 비용이 없는 뉴타닉스 AHV하이퍼바이저 라이선스 비용이 없는 뉴타닉스 AHV
하이퍼바이저 라이선스 비용이 없는 뉴타닉스 AHVeungjin cho
 
사례로 보는 사물인터넷(IoT) 데이터 품질관리 - 비투엔 김영석 수석
사례로 보는 사물인터넷(IoT) 데이터 품질관리 - 비투엔 김영석 수석사례로 보는 사물인터넷(IoT) 데이터 품질관리 - 비투엔 김영석 수석
사례로 보는 사물인터넷(IoT) 데이터 품질관리 - 비투엔 김영석 수석eungjin cho
 
우리가 스마트시티를 만들어가는 방법, '데이터 시각화' - 뉴스젤리 정병준 대표이사
우리가 스마트시티를 만들어가는 방법, '데이터 시각화' - 뉴스젤리 정병준 대표이사우리가 스마트시티를 만들어가는 방법, '데이터 시각화' - 뉴스젤리 정병준 대표이사
우리가 스마트시티를 만들어가는 방법, '데이터 시각화' - 뉴스젤리 정병준 대표이사eungjin cho
 
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장eungjin cho
 
클라우드와 오픈소스 DBMS의 만남 - 큐브리드 오명환 상무
클라우드와 오픈소스 DBMS의 만남 - 큐브리드 오명환 상무클라우드와 오픈소스 DBMS의 만남 - 큐브리드 오명환 상무
클라우드와 오픈소스 DBMS의 만남 - 큐브리드 오명환 상무eungjin cho
 
빅데이터 기반의 홈 IoT 모델 구축 - 코오롱베니트 김종혁 박사
빅데이터 기반의 홈 IoT 모델 구축 - 코오롱베니트 김종혁 박사빅데이터 기반의 홈 IoT 모델 구축 - 코오롱베니트 김종혁 박사
빅데이터 기반의 홈 IoT 모델 구축 - 코오롱베니트 김종혁 박사eungjin cho
 
모바일VR 사용자 인터페이스를 위한 데이터 기반 기계 학습 - 딥픽셀 이제훈 대표
모바일VR 사용자 인터페이스를 위한 데이터 기반 기계 학습 - 딥픽셀 이제훈 대표모바일VR 사용자 인터페이스를 위한 데이터 기반 기계 학습 - 딥픽셀 이제훈 대표
모바일VR 사용자 인터페이스를 위한 데이터 기반 기계 학습 - 딥픽셀 이제훈 대표eungjin cho
 
챗봇의 활용, 어디에서 도입하면 좋은가? - 와이즈넛 장정훈 이사
챗봇의 활용, 어디에서 도입하면 좋은가? - 와이즈넛 장정훈 이사챗봇의 활용, 어디에서 도입하면 좋은가? - 와이즈넛 장정훈 이사
챗봇의 활용, 어디에서 도입하면 좋은가? - 와이즈넛 장정훈 이사eungjin cho
 
인메모리 DBMS기반 보안 빅데이터 분석 솔루션 개발 사례 - 리얼타임테크 한혁 연구소장
인메모리 DBMS기반 보안 빅데이터 분석 솔루션 개발 사례 - 리얼타임테크 한혁 연구소장인메모리 DBMS기반 보안 빅데이터 분석 솔루션 개발 사례 - 리얼타임테크 한혁 연구소장
인메모리 DBMS기반 보안 빅데이터 분석 솔루션 개발 사례 - 리얼타임테크 한혁 연구소장eungjin cho
 
의료사업 선진화를 위한 빅데이터 분석 - 서울아산병원 심우현 교수
의료사업 선진화를 위한 빅데이터 분석 - 서울아산병원 심우현 교수의료사업 선진화를 위한 빅데이터 분석 - 서울아산병원 심우현 교수
의료사업 선진화를 위한 빅데이터 분석 - 서울아산병원 심우현 교수eungjin cho
 
빅데이터를 이용한 예측분석의 이슈와 트랜드 - 아시아나IDT 이훈석 ICT융합연구소장
빅데이터를 이용한 예측분석의 이슈와 트랜드 - 아시아나IDT 이훈석 ICT융합연구소장빅데이터를 이용한 예측분석의 이슈와 트랜드 - 아시아나IDT 이훈석 ICT융합연구소장
빅데이터를 이용한 예측분석의 이슈와 트랜드 - 아시아나IDT 이훈석 ICT융합연구소장eungjin cho
 
머신러닝 프로세스와 산업별 애플리케이션 - 위세아이텍 김종현 대표
머신러닝 프로세스와 산업별 애플리케이션 - 위세아이텍 김종현 대표머신러닝 프로세스와 산업별 애플리케이션 - 위세아이텍 김종현 대표
머신러닝 프로세스와 산업별 애플리케이션 - 위세아이텍 김종현 대표eungjin cho
 
DATA ECO와 연결의 힘 - SKT 김성우 랩장
DATA ECO와 연결의 힘 - SKT 김성우 랩장DATA ECO와 연결의 힘 - SKT 김성우 랩장
DATA ECO와 연결의 힘 - SKT 김성우 랩장eungjin cho
 
예측 분석 산업별 사례 147
예측 분석 산업별 사례 147예측 분석 산업별 사례 147
예측 분석 산업별 사례 147eungjin cho
 
예측 분석이 발견한 이상하고 놀라운 인간 행동들
예측 분석이 발견한 이상하고 놀라운 인간 행동들예측 분석이 발견한 이상하고 놀라운 인간 행동들
예측 분석이 발견한 이상하고 놀라운 인간 행동들eungjin cho
 
로보 어드바이저가 이끌 자산관리 시장의 변화 유진20160608증권
로보 어드바이저가 이끌 자산관리 시장의 변화 유진20160608증권로보 어드바이저가 이끌 자산관리 시장의 변화 유진20160608증권
로보 어드바이저가 이끌 자산관리 시장의 변화 유진20160608증권eungjin cho
 
4대 핀테크 동향과 금융산업의 파급영향
4대 핀테크 동향과 금융산업의 파급영향4대 핀테크 동향과 금융산업의 파급영향
4대 핀테크 동향과 금융산업의 파급영향eungjin cho
 
국내 로보어드바이저 시장 현황 뉴스 정리 201604
국내 로보어드바이저 시장 현황 뉴스 정리 201604국내 로보어드바이저 시장 현황 뉴스 정리 201604
국내 로보어드바이저 시장 현황 뉴스 정리 201604eungjin cho
 
저성장 시대 데이터 경제만이 살길이다
저성장 시대 데이터 경제만이 살길이다저성장 시대 데이터 경제만이 살길이다
저성장 시대 데이터 경제만이 살길이다eungjin cho
 
Fintech overview 페이게이트 박소영대표 20151006_v5
Fintech overview 페이게이트 박소영대표 20151006_v5Fintech overview 페이게이트 박소영대표 20151006_v5
Fintech overview 페이게이트 박소영대표 20151006_v5eungjin cho
 

Plus de eungjin cho (20)

하이퍼바이저 라이선스 비용이 없는 뉴타닉스 AHV
하이퍼바이저 라이선스 비용이 없는 뉴타닉스 AHV하이퍼바이저 라이선스 비용이 없는 뉴타닉스 AHV
하이퍼바이저 라이선스 비용이 없는 뉴타닉스 AHV
 
사례로 보는 사물인터넷(IoT) 데이터 품질관리 - 비투엔 김영석 수석
사례로 보는 사물인터넷(IoT) 데이터 품질관리 - 비투엔 김영석 수석사례로 보는 사물인터넷(IoT) 데이터 품질관리 - 비투엔 김영석 수석
사례로 보는 사물인터넷(IoT) 데이터 품질관리 - 비투엔 김영석 수석
 
우리가 스마트시티를 만들어가는 방법, '데이터 시각화' - 뉴스젤리 정병준 대표이사
우리가 스마트시티를 만들어가는 방법, '데이터 시각화' - 뉴스젤리 정병준 대표이사우리가 스마트시티를 만들어가는 방법, '데이터 시각화' - 뉴스젤리 정병준 대표이사
우리가 스마트시티를 만들어가는 방법, '데이터 시각화' - 뉴스젤리 정병준 대표이사
 
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
데이터 가공(DMP)와 스마트 시티 - 엔코아 김옥기 센터장
 
클라우드와 오픈소스 DBMS의 만남 - 큐브리드 오명환 상무
클라우드와 오픈소스 DBMS의 만남 - 큐브리드 오명환 상무클라우드와 오픈소스 DBMS의 만남 - 큐브리드 오명환 상무
클라우드와 오픈소스 DBMS의 만남 - 큐브리드 오명환 상무
 
빅데이터 기반의 홈 IoT 모델 구축 - 코오롱베니트 김종혁 박사
빅데이터 기반의 홈 IoT 모델 구축 - 코오롱베니트 김종혁 박사빅데이터 기반의 홈 IoT 모델 구축 - 코오롱베니트 김종혁 박사
빅데이터 기반의 홈 IoT 모델 구축 - 코오롱베니트 김종혁 박사
 
모바일VR 사용자 인터페이스를 위한 데이터 기반 기계 학습 - 딥픽셀 이제훈 대표
모바일VR 사용자 인터페이스를 위한 데이터 기반 기계 학습 - 딥픽셀 이제훈 대표모바일VR 사용자 인터페이스를 위한 데이터 기반 기계 학습 - 딥픽셀 이제훈 대표
모바일VR 사용자 인터페이스를 위한 데이터 기반 기계 학습 - 딥픽셀 이제훈 대표
 
챗봇의 활용, 어디에서 도입하면 좋은가? - 와이즈넛 장정훈 이사
챗봇의 활용, 어디에서 도입하면 좋은가? - 와이즈넛 장정훈 이사챗봇의 활용, 어디에서 도입하면 좋은가? - 와이즈넛 장정훈 이사
챗봇의 활용, 어디에서 도입하면 좋은가? - 와이즈넛 장정훈 이사
 
인메모리 DBMS기반 보안 빅데이터 분석 솔루션 개발 사례 - 리얼타임테크 한혁 연구소장
인메모리 DBMS기반 보안 빅데이터 분석 솔루션 개발 사례 - 리얼타임테크 한혁 연구소장인메모리 DBMS기반 보안 빅데이터 분석 솔루션 개발 사례 - 리얼타임테크 한혁 연구소장
인메모리 DBMS기반 보안 빅데이터 분석 솔루션 개발 사례 - 리얼타임테크 한혁 연구소장
 
의료사업 선진화를 위한 빅데이터 분석 - 서울아산병원 심우현 교수
의료사업 선진화를 위한 빅데이터 분석 - 서울아산병원 심우현 교수의료사업 선진화를 위한 빅데이터 분석 - 서울아산병원 심우현 교수
의료사업 선진화를 위한 빅데이터 분석 - 서울아산병원 심우현 교수
 
빅데이터를 이용한 예측분석의 이슈와 트랜드 - 아시아나IDT 이훈석 ICT융합연구소장
빅데이터를 이용한 예측분석의 이슈와 트랜드 - 아시아나IDT 이훈석 ICT융합연구소장빅데이터를 이용한 예측분석의 이슈와 트랜드 - 아시아나IDT 이훈석 ICT융합연구소장
빅데이터를 이용한 예측분석의 이슈와 트랜드 - 아시아나IDT 이훈석 ICT융합연구소장
 
머신러닝 프로세스와 산업별 애플리케이션 - 위세아이텍 김종현 대표
머신러닝 프로세스와 산업별 애플리케이션 - 위세아이텍 김종현 대표머신러닝 프로세스와 산업별 애플리케이션 - 위세아이텍 김종현 대표
머신러닝 프로세스와 산업별 애플리케이션 - 위세아이텍 김종현 대표
 
DATA ECO와 연결의 힘 - SKT 김성우 랩장
DATA ECO와 연결의 힘 - SKT 김성우 랩장DATA ECO와 연결의 힘 - SKT 김성우 랩장
DATA ECO와 연결의 힘 - SKT 김성우 랩장
 
예측 분석 산업별 사례 147
예측 분석 산업별 사례 147예측 분석 산업별 사례 147
예측 분석 산업별 사례 147
 
예측 분석이 발견한 이상하고 놀라운 인간 행동들
예측 분석이 발견한 이상하고 놀라운 인간 행동들예측 분석이 발견한 이상하고 놀라운 인간 행동들
예측 분석이 발견한 이상하고 놀라운 인간 행동들
 
로보 어드바이저가 이끌 자산관리 시장의 변화 유진20160608증권
로보 어드바이저가 이끌 자산관리 시장의 변화 유진20160608증권로보 어드바이저가 이끌 자산관리 시장의 변화 유진20160608증권
로보 어드바이저가 이끌 자산관리 시장의 변화 유진20160608증권
 
4대 핀테크 동향과 금융산업의 파급영향
4대 핀테크 동향과 금융산업의 파급영향4대 핀테크 동향과 금융산업의 파급영향
4대 핀테크 동향과 금융산업의 파급영향
 
국내 로보어드바이저 시장 현황 뉴스 정리 201604
국내 로보어드바이저 시장 현황 뉴스 정리 201604국내 로보어드바이저 시장 현황 뉴스 정리 201604
국내 로보어드바이저 시장 현황 뉴스 정리 201604
 
저성장 시대 데이터 경제만이 살길이다
저성장 시대 데이터 경제만이 살길이다저성장 시대 데이터 경제만이 살길이다
저성장 시대 데이터 경제만이 살길이다
 
Fintech overview 페이게이트 박소영대표 20151006_v5
Fintech overview 페이게이트 박소영대표 20151006_v5Fintech overview 페이게이트 박소영대표 20151006_v5
Fintech overview 페이게이트 박소영대표 20151006_v5
 

고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장

  • 1.
  • 2.
  • 3. 개인 데이터 기반 활용 인공지능 기반 서비스 융합 기반 데이터 산업 생태계 변화
  • 4. 데이터 산업 생태계 변화 실시간 빅데이터 분석 솔루션
  • 6. •병렬 분산 처리 구조 •신속하고 최적화된 검색 다양한 분석 기능 효율적인 데이터 관리 대용량 처리 고성능 및 고 가용성 •다양한 사용자 인터페이스 제공 •한글 형태소 분석 •인덱싱 데이터의 Materializing • 사용자 직관적이고 강력한 분석 언어 •대용량 데이터 수명 관리 •강력한 보안 아키텍처 • Index Sharding 및 Parallel Query •Mirroring 및 Fail Over 빅데이터 플랫폼
  • 7. 부정사용 감시, 보안관제 정책 발굴, 관리 기술,학술정보 분석 비정형성 1w 1d 1h 1m 1s 정형 반정형 비정형 실시간 상품 추천 도시 관제, 재난 대응 의료, 헬스케어 서비스 소셜 미디어 분석 (트랜드,감성,이슈 분석 외) 고객,시민 목소리(VOC) 분석 국방,보안 관제/eDiscovery 실시간성 통합 로그 관리 장애 예방
  • 8. 구성요소 정형 데이터 비정형 데이터 정의 • 스키마가 정의된 데이터 • 정형 데이터가 아닌 것 데이터 소스 • RDBMS의 테이블 형태 데이터 • 텍스트 데이터, 로그 데이터 처리 • 엄밀한 트랜잭션 처리, 완벽한 복구 (Commit or Rollback) • Read only 데이터 처리 고성능 (Eventually consistency ) 데이터 증가량 • 증가 • 매우 빠르게 증가 데이터 조회 기술 • SQL, 수리통계 • NoSQL, 머신러닝 데이터 처리기술 분석 목적 • 과거 지향적 (정합성 보장 분석, 월별 과금 배치) • 미래 지향적 (추천, 예측) Data RDBMS Data Active – Active 클러스터 Master Node SlaveNo de SlaveNo de SlaveNo de SlaveNo de SlaveNo de
  • 9. 운영 시스템 마케팅분석 성능, 보안 1. 금융 상품 추천 2. IT 운영 관리 3. 스마트 팩토리 콜센터 어플리케이션 보안 장비 서버, 프로세스 네트워크 장비 VOC 어플리케이션 빅데이터 분석 로그 수집 (XML, CSV, Text 등) 실시간 분석 용이한 구조로 저장 등록된 룰과 비교 검색 실시간 모니터링 제조관리
  • 10. 빅데이터 이전 시대 빅데이터 시대 직감에 의한 서비스/상품 제공 방식 • 개별 고객 서비스/상품 선호 반영 불가 • 개별 고객 특성을 반영한 서비스/상품 설계 불가 • 다수 상품에서 고객 최적 서비스/상품 선택 불가 상담 직원 또는 지인 추천에 의한 서비스/상품 선택 고객 불만에 대한 분석 부족 빅데이터 인프라 구축 빅데이터 활용 마케팅 시스템 로그 음성 대화 (음성변환) 최적의 상품 실시간 이벤트 처리 마이닝 데이터 분석 기반 서비스/상품 추천 • 분석되지 못 했던 시스템로그 및 음성데이터에 대한 실시간 처리를 통한 서비스/상품 추천
  • 11. 상용 소프트웨어오픈 소스 소프트웨어 [빅데이터 플랫폼] 데이터 수집 저장 데이터 조회 실시간 처리 Informatica Flume IBM InfoSphere DataStage Kafka HDFS Map Reduce Mongo Cassandra Storm Spark Oracle TimesTen 분석솔루션 R SAS SPSS Tableau Teradata AsterTeradata Aster Tibco Stream Base 시각화 Kibana Qliktech Micro strategy CEP Esper Hive Impala Elastic Search Scoop
  • 12. 상용 소프트웨어오픈 소스 소프트웨어 [AnyMiner Coverage] 데이터 수집 저장 데이터 조회 실시간 처리 Informatica Flume IBM InfoSphere DataStage Kafka HDFS Map Reduce Mongo Cassandra Storm Spark Oracle TimesTen 분석솔루션 R SAS SPSS Tableau Teradata AsterTeradata Aster Tibco Stream Base 시각화 Kibana Qliktech Micro strategy CEP Esper Hive Impala Elastic Search Scoop [Key Features] AnyMiner 대응 영역
  • 13. 빅데이터 조회, 분석, 대응 수집 적재 처리 Data Loader Data Loader Data Loader Source Source Source Storage Server Storage Server Elastic Search Elastic Search CEP Engine Buffer Size 단위Agent SQL Engine Query Engine Active Active Function Off Loading Index 생성 적재 Rule AI Flow Designer AnyMiner Storage Server 특징 SQL Query Engine Elasticsearch 활용 적재 Buffer Size 단위 데이터 수집  고가용성 및 복잡 Query 분석  시스템 IO 최소화 성능 극대화 CEP Engine  실시간 데이터 분석  Index 활용 고성능 데이터 조회 Storage Server 활용 적재  Function Off Loading 활용  데이터 필터링 처리 Agent Fail-Over  장애 발생시 지속적 데이터 수집
  • 14. 데이터 분석 통합 포털 활용  DataSet Management 빅데이터 스키마 설계 빅데이터 스키마 설계 빅데이터 생성 분석 대상 시스템 Agent 설치 DataSet 생성 DataLoader, DataSet 매핑 Agent로 데이터 수집 빅데이터 생성 완료 Elasticsearch Segment Index Data Loader Agent 빅데이터 생성 DataSet 속성 1 2 3 4 5
  • 15. [Agent/Agentless 데이터 수집] Switch JDBC Scripted Input Remote 방식 수집 (Agentless) Local 방식 수집 Scripts Router File/Directory Agent, Agentless 기반 데이터 수집 •Agent : 파일/디렉토리에서 데이터 추출 •Agentless : syslog 등과 같이 네트워크를 통해 직접 전송되는 데이터를 수집 다양한 형태 수집 방식 지원 •File / Directory : 특정 File 이나 Directory에 변화 인식하여 데이터 전달 •Scripted Input : Script의 실행 결과를 수집하는 기능 •JDBC : RDBMS에 표준 프로토콜(JDBC)를 이용한 데이터 룩업(Look up) 데이터분석 플랫폼 수집 Agent Agentless 정형/비정형 수집 Parsing DB
  • 16. 품질지표 품질목표 결과치 로그 처리 성능 200,000 EPS 202,541 EPS 다수의 로그 포맷 처리 10개 10개 이상 다수의 Alert 검출 5개 5개 분석 성능 50GB/sec 1,033 GB/sec 노드당 성능 증가율 50% 65.4 % 실시간 검출 지연 시간 10ms 1.9 ms 시험 조건 • 서버 1대 AnyMiner Server와 Agent 설치  Ubuntu 16.04 LTS(64bit)  Intel Xeon E5-2660 v4 @2.00GHz * 14  128GB Memory, 600 GB HDD • 시험 대상 로그  크기 : 1,046,720 KB(0..99 GB)  데이터 건수 : 11,879,501건  형식 : ACCESS_COMMON 측정 방법 • 로그 개수/처리 시간 EPS(Event Per Second) • 다수 로그 포맷 처리, Alert 검출 – 실측 값 • 분석 성능 – 로그 사이즈/처리 시간 • 실시간 검출 지연 시간 – 이벤트 검출 시간/개수 Hadoop 대비 6배 이상 고성능 데이터 적재
  • 17. AnyMiner Source Agent 데이터 저장소 Data Loader SQL Engine 수집 및 가공 처리 및 가공 [ 빅데이터 처리 흐름 ] [ 워크플로우 관련 도구 ] Data Modeler Flow Designer View / Monitoring 직관적 Data 모델링 • Auto Discovery →데이터 소스에서 제공 정보 기반 모델링 • 관계형 모델링 → Virtual Table간 Relation 정보 확인 유연한 Flow 개발 • Drag & Drop 방식, Task 재사용 • 다양한 Task 제공 → Query, Join, Filter, Sort, FileWrite, FileRead,등 • 조건형 Flow설계 → 선행Task성공 여부에 따른 분기, 후행Task 실행 순 서 지정 개발 가시성 확보 • Ad-hoc 쿼리구문 실행, 결과확인 • Flow의 실행 Plan 확인 • Flow Task 중간 결과 조회 가능 • 실행 Log View 제공
  • 18. PS – Primary Shard, R - Replica Dataset Part_2016.01 … PS1 PS2 Part_2016.02 PS2 PS3 Part_2016.08 PS1 PS2 R2 R1 R3 R1 R2 R3 R1 … PS3 R2 Node 1 Node 2 Node 3 PS1 전체 Node의 분산 처리로 고성능 보장 멀티 Node에 대한 가용성 확보
  • 19. Anyminer 플랫폼 데이터 저장 구조 Index 형태의 데이터 저장 •텍스트 데이터 분석에 용이한 Inverted Index 형태로 데이터 인덱싱 •비정형 데이터에 대한 검색 속도 향상 비정형 데이터 최적 인덱싱 •일반적인 Hadoop 기반 솔루션은 index 가 없는 구조  검색 속도 이슈 발생 •text search (inverted index) - 대부분의 필드가 cardinality가 적은 특징  최적의 인덱싱 방식 Document 1 Document 2 Document 3 a and around for from In Is It not On One the to under Stopword list Inverted index ID Term Document 1 Best 2 2 Blue 1,3 3 Bright 1,3 4 Butterfly 1 5 Breeze 1 6 Forget 2 7 Great 2 8 Hangs 1 9 Need 3 10 Retire 2 11 Search 3 12 Sky 2,3 13 wind 2
  • 20. 비정형정형 Query Engine App SQL App SPLSelect abc from Table search abc | top 5 ※ SPL(Search Processing Language): 검색 프로세싱 언어 •SPL 장점 : 파이프 라인, join 손쉬운 언어 •SQL 장점 : 개발자 익숙, 정교함 SPL과 SQL 모두 제공 강력한 Query Power •전문 RDBMS 쿼리 엔진  비용기반 옵티마이저 고성능 지원 •Hive, Impala 등 오픈소스의 근본적 차별성
  • 21. 스트림 데이터 Complex Event Time Range = 5초 A S A B F I C U …… 인메모리 CEP Services Action Notification 룰 예시 : ABC, 5초 구성요소 Real-time Alert Scheduled Alert 시간 구간 비교적 짧다 (sec, min) 비교적길다 (hour, day) 언제 검사하나? Event-driven Time-driven 동작 방식 In-memory processing Store & Processing Rule 정의는? CQL SQL 구현은? CEP Querying
  • 22. 통계 패키지 Query Engine 비정형 데이터 저장소 AnyMiner 표준 프로토콜 표준 SQL 조회 다양한 분석솔루션 연동 • 글로벌 상용 소프트웨어 : SPSS, SAS 등 • 오픈소스 : R, Python scikit-learn, Tensorflow 등 • 국산 상용 소프트웨어 : ECMiner 표준 프로토콜/SQL • 정형 뿐 만 아니라, 비정형 데이터도 Query Engine 을 통해 연동 • JDBC, ODBC 등 표준 프로토콜 지원 • ANSI 표준 SQL 을 통한 데이터 조회
  • 23. 호튼윅스, 클라우데라, 맵알 등의 벤더(상용하둡) 이용하여 단일 솔루션들의 조합의 구축 어려움의 단점을 해결하고자 노력 AnyMinerHadoop 급 변 하 는 S/W 의 Lifecycle Hadoop인터페이스에 대한 지원 등으로 단점을 극복하고자 진화 중 단 일 플 랫 폼 으 로 계 속 적 인 지 원 단점 구성의 복잡성(구축) 성능 이슈(구축 & 관리) 장애대응 어려움(관리) 장점 • 빅데이터 기반마련 • 다양한 Component 소유 • 인력 인프라 장점 단일제품(구축) 빠른수집/최소의 오버헤드(구축 & 관리) 통합플랫폼(관리) 단점 • 시각화, 분석기능 활용 툴 부족(진화중) • 인력/교육적 인프라 부족
  • 24. 기능 구분 AnyMiner Hadoop 플랫폼 제공 관점 • 통합 제품(플랫폼)으로 제공 • 단위 솔루션 조합 수집Agent관리 • 웹기반 관리 툴로 편의성 제공 • 오픈소스 이용으로 관리 툴 부족 및 관리 어려움 존재 데이터 파싱 • 정규식 형태의 유연성 제공 • 복잡하고 유연성 부족 수집 정합성 • 중복 없고, 데이터 유실도 없음 • 데이터 중복 및 유실에 대한 이슈 많음 이벤트 수집 속도 • 수집 시 빠른 성능 보장 • 수집에 부하가 많고 느림 저장 형태 • Index형태로 검색 속도 빠름 • Raw data저장 검색, 상대적으로 느림 SQL 조회 기능 • 강력한 Query Power • Tibero의 강력한 옵티마이저 이용 • 기본적은 SQL Like기능 제공(Hive) • 상용 DBMS Tibero 엔진기반으로 하는 AnyMiner보다 적은 지원범위 및 성능 상 느림 이벤트 처리 • CEP(Complex Event Processing) 기반 실시간 처리 • 실시간 처리 제공 어려움(일괄처리기반) - SPARK와 같은 별도S/W설치
  • 25. 빅데이터 = 오픈소스 ? • 빅데이터 개념 초창기 Hadoop 기반의 오픈소스 기반 프로젝트 진행 • 프로젝트 진행 과정 중 인프라 제품 기술력 한계, 요구사항 반영 부족 등의 한계 • 수집/저장/분석 전 영역에 여러 오픈소스로 산재되어 있는 기술을 단일 솔루션으로 대체 가능 • 국내 원천기술 보유 기술력을 통한 보다 확실한 기술지원 서비스 확보 빅데이터 시대에 걸맞는 상용 소프트웨어 [Without AnyMiner] [With AnyMiner]
  • 26. ‘17 년 하반기 ’18년 상반기 ’18년 하반기  XML 데이터 파싱 기능  필드별 암호화/마스킹 기능  스토리지 데이터 스캔 성능 개선  쿼리 엔진 병렬 처리 기능 개선  CEP 기능 고도화  Virtual DB 연동 (ETL)  사용자별 권한 관리  Machine Learning 엔진 탑재  TmaxIaaS에 통합  CEP 분산 처리  신 분석 툴 개발  시각화 도구