Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
개인 데이터 기반 활용
인공지능 기반
서비스 융합 기반
데이터 산업
생태계 변화
데이터 산업
생태계 변화
실시간 빅데이터 분석 솔루션
데이터의
이해
데이터
처리 기술의
이해
데이터
분석 기획
데이터 분석
데이터
시각화
•병렬 분산 처리 구조
•신속하고 최적화된 검색
다양한
분석 기능
효율적인
데이터 관리
대용량 처리
고성능 및
고 가용성
•다양한 사용자 인터페이스 제공
•한글 형태소 분석
•인덱싱 데이터의 Materializing
•...
부정사용 감시, 보안관제
정책 발굴, 관리 기술,학술정보 분석
비정형성
1w
1d
1h
1m
1s
정형 반정형 비정형
실시간 상품 추천
도시 관제, 재난 대응
의료, 헬스케어 서비스
소셜 미디어 분석
(트랜드,감성,이슈...
구성요소 정형 데이터 비정형 데이터
정의 • 스키마가 정의된 데이터 • 정형 데이터가 아닌 것
데이터 소스 • RDBMS의 테이블 형태 데이터 • 텍스트 데이터, 로그
데이터 처리
• 엄밀한 트랜잭션 처리, 완벽한 복구...
운영 시스템
마케팅분석
성능, 보안
1. 금융 상품 추천
2. IT 운영 관리
3. 스마트 팩토리
콜센터 어플리케이션
보안 장비
서버, 프로세스
네트워크 장비
VOC 어플리케이션
빅데이터 분석
로그 수집
(XML, CS...
빅데이터 이전 시대 빅데이터 시대
직감에 의한 서비스/상품 제공 방식
• 개별 고객 서비스/상품 선호 반영 불가
• 개별 고객 특성을 반영한 서비스/상품 설계 불가
• 다수 상품에서 고객 최적 서비스/상품 선택 불가
상...
상용 소프트웨어오픈 소스 소프트웨어
[빅데이터 플랫폼]
데이터
수집
저장
데이터
조회
실시간
처리
Informatica
Flume
IBM InfoSphere
DataStage
Kafka HDFS
Map
Reduce
Mo...
상용 소프트웨어오픈 소스 소프트웨어
[AnyMiner Coverage]
데이터
수집
저장
데이터
조회
실시간
처리
Informatica
Flume
IBM
InfoSphere
DataStage
Kafka HDFS
Map
...
빅데이터 조회, 분석, 대응
수집
적재
처리
Data Loader Data Loader Data Loader
Source Source Source
Storage
Server
Storage
Server
Elastic
Se...
데이터 분석 통합 포털 활용
 DataSet Management
빅데이터 스키마 설계
빅데이터 스키마 설계
빅데이터 생성
분석 대상 시스템 Agent 설치
DataSet 생성
DataLoader, DataSet 매핑
...
[Agent/Agentless 데이터 수집]
Switch
JDBC Scripted Input
Remote 방식 수집
(Agentless)
Local 방식 수집
Scripts
Router
File/Directory
Age...
품질지표 품질목표 결과치
로그 처리 성능 200,000 EPS 202,541 EPS
다수의 로그
포맷 처리
10개 10개 이상
다수의 Alert
검출
5개 5개
분석 성능 50GB/sec 1,033 GB/sec
노드당 ...
AnyMiner
Source
Agent
데이터 저장소
Data Loader
SQL Engine
수집 및 가공
처리 및 가공
[ 빅데이터 처리 흐름 ] [ 워크플로우 관련 도구 ]
Data Modeler
Flow Desi...
PS – Primary Shard, R - Replica
Dataset
Part_2016.01
…
PS1 PS2
Part_2016.02
PS2 PS3
Part_2016.08
PS1 PS2
R2 R1
R3 R1 R2
R3...
Anyminer 플랫폼 데이터 저장 구조
Index 형태의 데이터 저장
•텍스트 데이터 분석에 용이한 Inverted Index
형태로 데이터 인덱싱
•비정형 데이터에 대한 검색 속도 향상
비정형 데이터 최적 인덱싱
•...
비정형정형
Query Engine
App
SQL
App
SPLSelect abc from Table search abc | top 5
※ SPL(Search Processing Language): 검색 프로세싱 언어
•...
스트림 데이터
Complex Event
Time Range = 5초
A S A B F I C U ……
인메모리
CEP
Services Action Notification
룰 예시 : ABC, 5초
구성요소
Real-ti...
통계 패키지
Query Engine
비정형 데이터
저장소
AnyMiner
표준 프로토콜 표준 SQL 조회
다양한 분석솔루션 연동
• 글로벌 상용 소프트웨어 : SPSS, SAS 등
• 오픈소스 : R, Python sc...
호튼윅스, 클라우데라, 맵알 등의 벤더(상용하둡)
이용하여 단일 솔루션들의 조합의 구축 어려움의
단점을 해결하고자 노력
AnyMinerHadoop
급
변
하
는
S/W
의
Lifecycle
Hadoop인터페이스에 대한 ...
기능 구분 AnyMiner Hadoop
플랫폼 제공 관점 • 통합 제품(플랫폼)으로 제공 • 단위 솔루션 조합
수집Agent관리 • 웹기반 관리 툴로 편의성 제공 • 오픈소스 이용으로 관리 툴 부족 및 관리 어려움 존재...
빅데이터 = 오픈소스 ?
• 빅데이터 개념 초창기 Hadoop 기반의 오픈소스 기반
프로젝트 진행
• 프로젝트 진행 과정 중 인프라 제품 기술력 한계,
요구사항 반영 부족 등의 한계
• 수집/저장/분석 전 영역에 여러 ...
‘17 년 하반기
’18년 상반기
’18년 하반기
 XML 데이터 파싱 기능
 필드별 암호화/마스킹 기능
 스토리지 데이터 스캔 성능 개선
 쿼리 엔진 병렬 처리 기능 개선
 CEP 기능 고도화
 Virtua...
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장
Upcoming SlideShare
Loading in …5
×

of

고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 1 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 2 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 3 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 4 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 5 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 6 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 7 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 8 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 9 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 10 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 11 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 12 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 13 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 14 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 15 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 16 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 17 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 18 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 19 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 20 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 21 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 22 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 23 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 24 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 25 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 26 고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장 Slide 27
Upcoming SlideShare
What to Upload to SlideShare
Next
Download to read offline and view in fullscreen.

4 Likes

Share

Download to read offline

고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장

Download to read offline

2017 데이터 그랜드 컨퍼런스 발표 자료

고성능 빅데이터 수집 및 분석 솔루션 - 티맥스소프트 허승재 팀장

  1. 1. 개인 데이터 기반 활용 인공지능 기반 서비스 융합 기반 데이터 산업 생태계 변화
  2. 2. 데이터 산업 생태계 변화 실시간 빅데이터 분석 솔루션
  3. 3. 데이터의 이해 데이터 처리 기술의 이해 데이터 분석 기획 데이터 분석 데이터 시각화
  4. 4. •병렬 분산 처리 구조 •신속하고 최적화된 검색 다양한 분석 기능 효율적인 데이터 관리 대용량 처리 고성능 및 고 가용성 •다양한 사용자 인터페이스 제공 •한글 형태소 분석 •인덱싱 데이터의 Materializing • 사용자 직관적이고 강력한 분석 언어 •대용량 데이터 수명 관리 •강력한 보안 아키텍처 • Index Sharding 및 Parallel Query •Mirroring 및 Fail Over 빅데이터 플랫폼
  5. 5. 부정사용 감시, 보안관제 정책 발굴, 관리 기술,학술정보 분석 비정형성 1w 1d 1h 1m 1s 정형 반정형 비정형 실시간 상품 추천 도시 관제, 재난 대응 의료, 헬스케어 서비스 소셜 미디어 분석 (트랜드,감성,이슈 분석 외) 고객,시민 목소리(VOC) 분석 국방,보안 관제/eDiscovery 실시간성 통합 로그 관리 장애 예방
  6. 6. 구성요소 정형 데이터 비정형 데이터 정의 • 스키마가 정의된 데이터 • 정형 데이터가 아닌 것 데이터 소스 • RDBMS의 테이블 형태 데이터 • 텍스트 데이터, 로그 데이터 처리 • 엄밀한 트랜잭션 처리, 완벽한 복구 (Commit or Rollback) • Read only 데이터 처리 고성능 (Eventually consistency ) 데이터 증가량 • 증가 • 매우 빠르게 증가 데이터 조회 기술 • SQL, 수리통계 • NoSQL, 머신러닝 데이터 처리기술 분석 목적 • 과거 지향적 (정합성 보장 분석, 월별 과금 배치) • 미래 지향적 (추천, 예측) Data RDBMS Data Active – Active 클러스터 Master Node SlaveNo de SlaveNo de SlaveNo de SlaveNo de SlaveNo de
  7. 7. 운영 시스템 마케팅분석 성능, 보안 1. 금융 상품 추천 2. IT 운영 관리 3. 스마트 팩토리 콜센터 어플리케이션 보안 장비 서버, 프로세스 네트워크 장비 VOC 어플리케이션 빅데이터 분석 로그 수집 (XML, CSV, Text 등) 실시간 분석 용이한 구조로 저장 등록된 룰과 비교 검색 실시간 모니터링 제조관리
  8. 8. 빅데이터 이전 시대 빅데이터 시대 직감에 의한 서비스/상품 제공 방식 • 개별 고객 서비스/상품 선호 반영 불가 • 개별 고객 특성을 반영한 서비스/상품 설계 불가 • 다수 상품에서 고객 최적 서비스/상품 선택 불가 상담 직원 또는 지인 추천에 의한 서비스/상품 선택 고객 불만에 대한 분석 부족 빅데이터 인프라 구축 빅데이터 활용 마케팅 시스템 로그 음성 대화 (음성변환) 최적의 상품 실시간 이벤트 처리 마이닝 데이터 분석 기반 서비스/상품 추천 • 분석되지 못 했던 시스템로그 및 음성데이터에 대한 실시간 처리를 통한 서비스/상품 추천
  9. 9. 상용 소프트웨어오픈 소스 소프트웨어 [빅데이터 플랫폼] 데이터 수집 저장 데이터 조회 실시간 처리 Informatica Flume IBM InfoSphere DataStage Kafka HDFS Map Reduce Mongo Cassandra Storm Spark Oracle TimesTen 분석솔루션 R SAS SPSS Tableau Teradata AsterTeradata Aster Tibco Stream Base 시각화 Kibana Qliktech Micro strategy CEP Esper Hive Impala Elastic Search Scoop
  10. 10. 상용 소프트웨어오픈 소스 소프트웨어 [AnyMiner Coverage] 데이터 수집 저장 데이터 조회 실시간 처리 Informatica Flume IBM InfoSphere DataStage Kafka HDFS Map Reduce Mongo Cassandra Storm Spark Oracle TimesTen 분석솔루션 R SAS SPSS Tableau Teradata AsterTeradata Aster Tibco Stream Base 시각화 Kibana Qliktech Micro strategy CEP Esper Hive Impala Elastic Search Scoop [Key Features] AnyMiner 대응 영역
  11. 11. 빅데이터 조회, 분석, 대응 수집 적재 처리 Data Loader Data Loader Data Loader Source Source Source Storage Server Storage Server Elastic Search Elastic Search CEP Engine Buffer Size 단위Agent SQL Engine Query Engine Active Active Function Off Loading Index 생성 적재 Rule AI Flow Designer AnyMiner Storage Server 특징 SQL Query Engine Elasticsearch 활용 적재 Buffer Size 단위 데이터 수집  고가용성 및 복잡 Query 분석  시스템 IO 최소화 성능 극대화 CEP Engine  실시간 데이터 분석  Index 활용 고성능 데이터 조회 Storage Server 활용 적재  Function Off Loading 활용  데이터 필터링 처리 Agent Fail-Over  장애 발생시 지속적 데이터 수집
  12. 12. 데이터 분석 통합 포털 활용  DataSet Management 빅데이터 스키마 설계 빅데이터 스키마 설계 빅데이터 생성 분석 대상 시스템 Agent 설치 DataSet 생성 DataLoader, DataSet 매핑 Agent로 데이터 수집 빅데이터 생성 완료 Elasticsearch Segment Index Data Loader Agent 빅데이터 생성 DataSet 속성 1 2 3 4 5
  13. 13. [Agent/Agentless 데이터 수집] Switch JDBC Scripted Input Remote 방식 수집 (Agentless) Local 방식 수집 Scripts Router File/Directory Agent, Agentless 기반 데이터 수집 •Agent : 파일/디렉토리에서 데이터 추출 •Agentless : syslog 등과 같이 네트워크를 통해 직접 전송되는 데이터를 수집 다양한 형태 수집 방식 지원 •File / Directory : 특정 File 이나 Directory에 변화 인식하여 데이터 전달 •Scripted Input : Script의 실행 결과를 수집하는 기능 •JDBC : RDBMS에 표준 프로토콜(JDBC)를 이용한 데이터 룩업(Look up) 데이터분석 플랫폼 수집 Agent Agentless 정형/비정형 수집 Parsing DB
  14. 14. 품질지표 품질목표 결과치 로그 처리 성능 200,000 EPS 202,541 EPS 다수의 로그 포맷 처리 10개 10개 이상 다수의 Alert 검출 5개 5개 분석 성능 50GB/sec 1,033 GB/sec 노드당 성능 증가율 50% 65.4 % 실시간 검출 지연 시간 10ms 1.9 ms 시험 조건 • 서버 1대 AnyMiner Server와 Agent 설치  Ubuntu 16.04 LTS(64bit)  Intel Xeon E5-2660 v4 @2.00GHz * 14  128GB Memory, 600 GB HDD • 시험 대상 로그  크기 : 1,046,720 KB(0..99 GB)  데이터 건수 : 11,879,501건  형식 : ACCESS_COMMON 측정 방법 • 로그 개수/처리 시간 EPS(Event Per Second) • 다수 로그 포맷 처리, Alert 검출 – 실측 값 • 분석 성능 – 로그 사이즈/처리 시간 • 실시간 검출 지연 시간 – 이벤트 검출 시간/개수 Hadoop 대비 6배 이상 고성능 데이터 적재
  15. 15. AnyMiner Source Agent 데이터 저장소 Data Loader SQL Engine 수집 및 가공 처리 및 가공 [ 빅데이터 처리 흐름 ] [ 워크플로우 관련 도구 ] Data Modeler Flow Designer View / Monitoring 직관적 Data 모델링 • Auto Discovery →데이터 소스에서 제공 정보 기반 모델링 • 관계형 모델링 → Virtual Table간 Relation 정보 확인 유연한 Flow 개발 • Drag & Drop 방식, Task 재사용 • 다양한 Task 제공 → Query, Join, Filter, Sort, FileWrite, FileRead,등 • 조건형 Flow설계 → 선행Task성공 여부에 따른 분기, 후행Task 실행 순 서 지정 개발 가시성 확보 • Ad-hoc 쿼리구문 실행, 결과확인 • Flow의 실행 Plan 확인 • Flow Task 중간 결과 조회 가능 • 실행 Log View 제공
  16. 16. PS – Primary Shard, R - Replica Dataset Part_2016.01 … PS1 PS2 Part_2016.02 PS2 PS3 Part_2016.08 PS1 PS2 R2 R1 R3 R1 R2 R3 R1 … PS3 R2 Node 1 Node 2 Node 3 PS1 전체 Node의 분산 처리로 고성능 보장 멀티 Node에 대한 가용성 확보
  17. 17. Anyminer 플랫폼 데이터 저장 구조 Index 형태의 데이터 저장 •텍스트 데이터 분석에 용이한 Inverted Index 형태로 데이터 인덱싱 •비정형 데이터에 대한 검색 속도 향상 비정형 데이터 최적 인덱싱 •일반적인 Hadoop 기반 솔루션은 index 가 없는 구조  검색 속도 이슈 발생 •text search (inverted index) - 대부분의 필드가 cardinality가 적은 특징  최적의 인덱싱 방식 Document 1 Document 2 Document 3 a and around for from In Is It not On One the to under Stopword list Inverted index ID Term Document 1 Best 2 2 Blue 1,3 3 Bright 1,3 4 Butterfly 1 5 Breeze 1 6 Forget 2 7 Great 2 8 Hangs 1 9 Need 3 10 Retire 2 11 Search 3 12 Sky 2,3 13 wind 2
  18. 18. 비정형정형 Query Engine App SQL App SPLSelect abc from Table search abc | top 5 ※ SPL(Search Processing Language): 검색 프로세싱 언어 •SPL 장점 : 파이프 라인, join 손쉬운 언어 •SQL 장점 : 개발자 익숙, 정교함 SPL과 SQL 모두 제공 강력한 Query Power •전문 RDBMS 쿼리 엔진  비용기반 옵티마이저 고성능 지원 •Hive, Impala 등 오픈소스의 근본적 차별성
  19. 19. 스트림 데이터 Complex Event Time Range = 5초 A S A B F I C U …… 인메모리 CEP Services Action Notification 룰 예시 : ABC, 5초 구성요소 Real-time Alert Scheduled Alert 시간 구간 비교적 짧다 (sec, min) 비교적길다 (hour, day) 언제 검사하나? Event-driven Time-driven 동작 방식 In-memory processing Store & Processing Rule 정의는? CQL SQL 구현은? CEP Querying
  20. 20. 통계 패키지 Query Engine 비정형 데이터 저장소 AnyMiner 표준 프로토콜 표준 SQL 조회 다양한 분석솔루션 연동 • 글로벌 상용 소프트웨어 : SPSS, SAS 등 • 오픈소스 : R, Python scikit-learn, Tensorflow 등 • 국산 상용 소프트웨어 : ECMiner 표준 프로토콜/SQL • 정형 뿐 만 아니라, 비정형 데이터도 Query Engine 을 통해 연동 • JDBC, ODBC 등 표준 프로토콜 지원 • ANSI 표준 SQL 을 통한 데이터 조회
  21. 21. 호튼윅스, 클라우데라, 맵알 등의 벤더(상용하둡) 이용하여 단일 솔루션들의 조합의 구축 어려움의 단점을 해결하고자 노력 AnyMinerHadoop 급 변 하 는 S/W 의 Lifecycle Hadoop인터페이스에 대한 지원 등으로 단점을 극복하고자 진화 중 단 일 플 랫 폼 으 로 계 속 적 인 지 원 단점 구성의 복잡성(구축) 성능 이슈(구축 & 관리) 장애대응 어려움(관리) 장점 • 빅데이터 기반마련 • 다양한 Component 소유 • 인력 인프라 장점 단일제품(구축) 빠른수집/최소의 오버헤드(구축 & 관리) 통합플랫폼(관리) 단점 • 시각화, 분석기능 활용 툴 부족(진화중) • 인력/교육적 인프라 부족
  22. 22. 기능 구분 AnyMiner Hadoop 플랫폼 제공 관점 • 통합 제품(플랫폼)으로 제공 • 단위 솔루션 조합 수집Agent관리 • 웹기반 관리 툴로 편의성 제공 • 오픈소스 이용으로 관리 툴 부족 및 관리 어려움 존재 데이터 파싱 • 정규식 형태의 유연성 제공 • 복잡하고 유연성 부족 수집 정합성 • 중복 없고, 데이터 유실도 없음 • 데이터 중복 및 유실에 대한 이슈 많음 이벤트 수집 속도 • 수집 시 빠른 성능 보장 • 수집에 부하가 많고 느림 저장 형태 • Index형태로 검색 속도 빠름 • Raw data저장 검색, 상대적으로 느림 SQL 조회 기능 • 강력한 Query Power • Tibero의 강력한 옵티마이저 이용 • 기본적은 SQL Like기능 제공(Hive) • 상용 DBMS Tibero 엔진기반으로 하는 AnyMiner보다 적은 지원범위 및 성능 상 느림 이벤트 처리 • CEP(Complex Event Processing) 기반 실시간 처리 • 실시간 처리 제공 어려움(일괄처리기반) - SPARK와 같은 별도S/W설치
  23. 23. 빅데이터 = 오픈소스 ? • 빅데이터 개념 초창기 Hadoop 기반의 오픈소스 기반 프로젝트 진행 • 프로젝트 진행 과정 중 인프라 제품 기술력 한계, 요구사항 반영 부족 등의 한계 • 수집/저장/분석 전 영역에 여러 오픈소스로 산재되어 있는 기술을 단일 솔루션으로 대체 가능 • 국내 원천기술 보유 기술력을 통한 보다 확실한 기술지원 서비스 확보 빅데이터 시대에 걸맞는 상용 소프트웨어 [Without AnyMiner] [With AnyMiner]
  24. 24. ‘17 년 하반기 ’18년 상반기 ’18년 하반기  XML 데이터 파싱 기능  필드별 암호화/마스킹 기능  스토리지 데이터 스캔 성능 개선  쿼리 엔진 병렬 처리 기능 개선  CEP 기능 고도화  Virtual DB 연동 (ETL)  사용자별 권한 관리  Machine Learning 엔진 탑재  TmaxIaaS에 통합  CEP 분산 처리  신 분석 툴 개발  시각화 도구
  • minkyujooo

    May. 21, 2020
  • zephyrlim

    Sep. 2, 2019
  • DennisJeon2

    Jul. 2, 2018
  • choeungjin

    Jan. 16, 2018

2017 데이터 그랜드 컨퍼런스 발표 자료

Views

Total views

4,857

On Slideshare

0

From embeds

0

Number of embeds

636

Actions

Downloads

139

Shares

0

Comments

0

Likes

4

×