SlideShare une entreprise Scribd logo
1  sur  24
Télécharger pour lire hors ligne
미래 예측을 위한
빅데이터 융합분석 사례와 분석방법론
데이타솔루션 장준호
Kensho, 켄쇼, 見性
“골드만삭스의 직원들은 금융분석프로그램 켄쇼(Kensho)를 사용한 후 놀라움 감추지 못했다.
그들이 일주일 동안 매달리거나 사람을 고용해 처리하던 일을 켄쇼는 순식간에 해냈기 때문이다.”
뉴욕타임스는 27일(현지시간) 세계적인 금융투자기업 골드만삭스가 이용하는 ‘켄쇼’ 프로그램을 한면에
걸쳐 다루며 “로봇이 월스트리트를 침공(Invading)했다”고 보도했다. 로봇이 인간의 일자리를 빠르게
대체하고 있으며, 금융ㆍ투자와 같은 전문직도 예외는 아니라는 것이다.
켄쇼는 기업의 실적과 주요 경제수치, 주가의 움직임 등 방대한 양의 금융데이터를 분석해 투자자들의
질문에 답을 주는 프로그램이다. 시리아 내전이 경제에 미치는 영향을 파악하기 위해 켄쇼의 검색 엔진에
‘시리아 내전 격화(Escalations in The Syrian war)’를 입력하면 켄쇼는 불과 몇 분 안에 미국과 아시아의
주가 변동, 천연가스와 유가의 움직임, 심지어 캐나다 달러의 환율 변화 등 다양한 정보를 일목요연하게
정리해 보여준다.
한국일보, 2016년 2월 28일 신문기사 중.
Customer Needs & Trend
 기본적 서비스 제공에서는 더 이상 만족을 높이기 어려움
 컨텐츠와 실시간성을 활용한 고객 차별화 서비스 필요
 빅데이터 분석을 통한 추천, 또 추천…
 netflix(70%), google news(38%), amazon(35%)
고객 만족과 시장 선도를 위한 새로운 가치 창출 필요
Unstructured Big Data
 2011년 한 해 동안 전 세계에서 새롭게 생성/복제된 정보량 1.8ZB
 전 세계 정보량은 2년 마다 2배로 증가하는 추세
 2020년까지 생성되는 디지털 데이터 규모 40ZB
 전 세계 해변 모래알 수의 57배
 블루레이 디스크로 저장한다면 항공모함 424대의 무게
이 중 비정형 데이터는 전체의 약 80%
Mining
 Data Mining
 데이터에서 유용한 정보를 발견하는 과정
 데이터 마이닝을 통해 가치 있는 정보를 만들어 의사결정에 적용
 Text Mining
 자연어로 구성된 비정형 텍스트 데이터에서 패턴 또는 관계를 추출
하여 가치와 의미 있는 정보를 찾아내는 마이닝 기법
 사람들이 말하는 언어를 기계가 이해할 수 있는 자연언어 처리
(NLP) 기술에 기반함
 심층 분석 기술 : 소셜 마이닝, 오피니언 마이닝 등
 Web Mining, Social Mining, Realty Mining
비정형 데이터 분석을 위한 Text Mining 도구 필요
Big Data Driven
 다양한 정보와 서비스 품질
 어디서나 원하는 시점에
 정형 데이터
+
비정형 데이터
1
2
3
4
5
·
·
·
Big Data
Driven
고객유형군 행동분석
정형/비정형 빅데이터 분석
예측 모델링
고객 Seg. 분석
시장 트렌드/소셜 분석
정형, 비정형 데이터 융합분석을 통한 새로운 인사이트 추천
Auto
Customer Insights
Insight
 정형 데이터 통계분석을 활용한 인사이트 도출
 정량적 데이터의 조합을 통한 상관성 발견
 정확한 결과치를 검증해 나가며 반복적인 수행으로 예측
데이터 적재  분석  시각화  활용
데이터스토어 정형분석툴 프레젠테이션 정형보고서
Daily
Data
기존
시스템
연계
New Insight
 비정형 데이터를 기반으로 의사결정 시스템에 필요한 인사이트 추천
 정량적 데이터로 부터 정성적인 상관성 발견
 융합분석으로 더욱 정교한 분석을 가능하게 하는 Data Intelligence
데이터 적재  분석  시각화  활용
데이터스토어 분석 엔진 프레젠테이션 정형보고서
Data
Daily
Update
기존
시스템
연계
데이터레이크 주제분석엔진 융합분석엔진 AI 리포트
Real
Time
Data
새로운
View
Data Lake
 방대한 양의 정형/비정형 데이터 적재
 실시간으로 업데이트 되는 데이터 적재 및 연계
구분 일별 건수 6년 건수 내용
뉴스 약 3,200 건 약 1,000만 건 장기간 연속적으로 발생하는 정치,경제,사회 뉴스
증권 약 14,000 건 약 4,000만 건 코스닥, 코스피 종목의 시가 및 업종 평균값
기상 약 15,000 건 약 3,200만 건 농업, 종관 기상 정보
물가 약 10,000 건 약 2,400만 건 농축수산물 개별 품목의 물가 및 품목 평균가
시장금리 약 40 건 약 10만 건 콜금리, MMF 등의 시장 금리
Topic Analysis
시계열 분석을 통한 주제 일지 제공
Convergence Analysis
 자연어 처리 기술을 활용한 주제 추출(텍스트 마이닝)
 상관성 분석과 시계열 분석을 통한 데이터 그룹핑 및 추천
 최적의 알고리즘 적용(ACF, Bayesian …)
구분 종목 상관도
코스닥 안랩 30%
코스피 삼성전자 15%
물가 시금치 90%
금리 MMF 49%
Convergence Analysis
0
5000
10000
15000
20000
25000
date
20110217
20110406
20110524
20110711
20110828
20111015
20111202
20120119
20120307
20120424
20120611
20120729
20120915
20121102
20121220
20130206
20130326
20130513
20130630
20130817
20131004
20131121
20140108
20140225
20140414
20140601
20140719
20140905
20141023
20141210
20150127
20150316
20150503
20150620
20150807
20150924
20151111
20151229
20160215
20160403
20160521
20160708
20160825
20161012
20161129
20170116
20170305
20170422
20170609
20170727
20170913
20171031
항목 기준 상관도
시금치 평균가 7일 0.80%
수박 평균가 7일 0.43%
팽이버섯 평균가 3일 -0.40%
포도 평균가 7일 -0.38%
AI Report
 로봇 Writing 기술 적용
 인터스트리 및 업무 영역의 요구에 부합하는 자동 리포트 생성
 StatsMonkey, QuakeBot, 프로야구 뉴스로봇 등…
주어진 탬플릿에
정량적 정보 분석과
정성적 데이터 분석 병행
Use case
예시 영역
데이터
기대 시나리오
비정형 정형
시장 동향 분석
 뉴스
 동향 보고서
 증권 시세
 기상
 농수축산물 물가
 금리 등
 고객사 관련 주요 키워드를 추천, 사전
위험 감지
 시장 흐름에 따른 현시점의 보고서 활용
기업 분석
 경제 분야 뉴스
 결산보고서
 감사보고서
 재무제표
 경영정보
 일반정보
 경쟁사 혹은 자사에 대한 전반적인 분
석 및 관련 있는 주요 기업 추천
기술 동향 분석
 기술 관련 뉴스
 기술 동향 보고서
 특허, 논문 등
 특허 출원 수
 IPC 코드별 출원수
 논문 수
 인용,피인용수 등
 현재의 유망 기술에 대한 동향 분석을
통한 기술 전략 수립
 경쟁사 기술 분석
보안 동향 분석
 보안 관련 뉴스
 보안 일일 리포트
 보안 백서
 일일 해킹 통계
 공격 유형별 통계
 국가별 공격 통계
 공격의 유형 및 사전 징후 분석 및 보고
서 작성
Transportation
기본 시계열 모형 특이사항 보정 모형
Emergency
5/20 ~ 5/25 5/26~5/31 6/1~6/07 6/8~6/185/20 ~ 5/25 5/26~5/31 6/1~6/07 6/8~6/18
 질병관리본부는 바레인에 다녀온 남성이 확진 판정을 받아 치료 중이며 아직까지
생명엔 지장이 없는 상태라고 밝혔습니다.
 메르스 치사율 40% 감염질병.최초 발생 확인은 2012년.
환자는 중동 10여개국에서 97%가 발생하고 있다고 함.
 아시아 최초로 사람간 감염 증상이 나타난 메르스가 대한민국에 상륙……
치사율 40%고 치료제도 없다는데 어쩔;;
고열
(639)
호흡곤란
(744)
기침
(852)
사우디아라비아
(717)
중동지역
(850)
바레인
(647)
치사율
(899)
일평균 버즈량 → 594
[1주차] 첫 메르스 환자 발생으로 화제. 메르스의 증상, 발원지 등 정보 소개
5/20 ~ 5/25 5/26~5/31 6/1~6/07 6/8~6/18
 의심환자가 중국으로 출국하는 것도 몰라 중국이 반발하며 국제적 망신까지...
메르스의 치사율은 40%라지만 한국에서 가라는 출장을 안 가는 것의 치사율은
100%에 육박하기 때문에
 메르스 치사율은 40퍼 에볼라 치사율은 90퍼 쿠쿠의 취사율은 100퍼
 탄저균을 메르스가 막아주고 있는 형국 이건 정말 나라가 아니다
메르스에, 탄저균에, 국민들은 불안한데...무능정부는 또 '괴담 탓‘0
일평균 버즈량 → 24,835
[2주차] 전염이 시작됨에 따라 의심환자에 대한 관심과 우려.
가볍게 희화화한 글이 등장하며 화제
의심환자
(5,830)
전북
(920)
중국
(10,762)
쿠쿠
(6,798
)
취사율
(7,013)
탄저균
(9,391)
유언비어
(4,632)
괴담
(5,156)
5/20 ~ 5/25 5/26~5/31 6/1~6/07 6/8~6/18
 메르스에 의한 사망자는 기존에 호흡기 질환을 앓던 분들이었다고 합니다. 아직
건강하던 사람이 사망한 것이 아니니 너무 겁 먹지 마세요
 낙타와 접촉마라 낙타고기를 먹지마라..개콘도 아니고..
 서울메르스 대책본부장 박원순입니다.
서울시는 정부의 대책에 적극 협력하겠습니다
 메르스 3차 감염 문제가 불거졌는데도 정부는 '병원 비공개'를 고수….
일평균 버즈량 → 235,336
[3주차] 첫 사망자가 발생함에 따라 불안감 증폭, 감염자 발생
병원 정보 공개 여부 논란
박원순
(80,177)
낙타
(63,957)
공개
(70,525)
의사
(70,274)
정보
(41,990)
휴교
(35,264
)
사망, 사망자
(82,355)
5/20 ~ 5/25 5/26~5/31 6/1~6/07 6/8~6/18
 메르스 감염자 절반이 삼성서울병원에서 감염됐습니다.
 메르스 사망자가 3명 늘었다. 확진자도 3명 추가됐다. 확진자 3명 중 1명은
삼성서울병원 간호사다. 치명률은 13.9%로 높아졌다.
 '슈퍼 전파자' 우려가 제기됐던 부산의 두번째 메르스 확진환자 발생 엿새째인 오
늘까지 추가 감염자는 확인되지 않고 있습니다
일평균 버즈량 → 138,218
[4주차 이후] 절반 이상의 감염자를 발생시킨 삼성서울병원과 추가 확진자,
사망자 발생 현황에 관심
이재명
(30,147)
부산
(27,057
)
삼성서울병원
(59,544)
사망,사망자
(95,115)
성남시
(28,386)
Marketing
광고 초기 화제성 비교 ‘전지현’ 광고만큼 이슈화 되지 못한
‘김연아’SKT 광고
446건
55건
281건
73건
Online
Buzz
김연아 SKT광고
잘생겼다 광대역 LTE-A
2014.06.19~2014.07.18
총 2,050건 / 일 평균 68건
Online
Buzz
전지현 SKT광고
잘생겼다 LTE-A
총 3,685건 / 일 평균 122건
2014.02.09~2014.03.10
ON AIR
2주1주 3주 4주
새로운 SKT 모델인 김연아의 ‘잘생겼다 ‘ 광고는 On Air 첫 날
약 450여건의 관련 Buzz를 생산하며 화제가 되었으나,
점점 하락하여 전지현 광고 대비 일 평균 건수 50% 수준으로 떨어짐
연관 키워드 분석 김연아 광고는 ‘모델’에
전지현 광고는 ‘광고 내용’에 관심
별그대
광고
기업
품질 노래
Song
천송이
패러디모델
코믹댄스
LTE-A 속도
T월드
프로모션
SK텔레콤
캘리그라피통신사
슬로건
개통
36%
21%
16%
15%
30%
45%
18%
19%
전지현
SKT광고
김연아
SKT광고
광고/마케팅 기업 모델 상품/서비스
SKT의 새 광고 모델인 김연아와 관련된 키워드가
절반 가까이 차지함(45%)
전지현 SKT 광고의 경우,
‘잘생겼다 송’, ‘댄스’ 등 광고 내용 언급이 많았음(36%)
전지현 SKT 광고
광고
모델
기업
서비스
피겨여왕
우쿨렐레편
미공개컷
캠페인
금메달은퇴
광대역LTE-A 3배
세계최초
동계올림픽SK텔레콤
통신사영업정지
열애
요금제
세계선수권
김연아 SKT 광고
경기
영상
VOC
2,109건(33)% 4,345건(67%)
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
청약관련 업무 그외업무
1 공모주 청약 1,048
2 컴퓨터 1,011
3 977
4
5
계좌번호
씨엠에이
679
552
23 238
24 249
…
경쟁률
청약 수수료
정보 확인
0
500
1,000
1,500
청약확인 문의 경쟁률 수수료/이체 청약화면 문의
통화시간이 짧음 (약 1,589건 )
순위 키워드명 건수
* 청약 수수료와 CMA 문의
제가 CMA 계좌가 있는데
청약수수료 3,000원 무료
맞나요?
* 공모주 청약 확인 문의
OO머티리얼즈 공모주 청약을
했는데, 확인 부탁 드려요
* 화면 설명과 청약 방법 문의
이거 화면을 지금 보고 있는데,
하려면 어떻게 해야하죠?
* 실시간 경쟁률 확인 문의
OO 머티리얼즈
경쟁률이 어떻게 되나요?
현상 해결을 위해 ARS 시스템에 단순업무 안내, 챗봇 시스템을 활용한 선응대
키워드 분석으로 발견한 사건의 본질은 단순업무 비율 급증
0
200
400
600
800
1,000
1,200
1,400
1,600
1,800
2,000
콜센터 폭주 현상에 대한 원인파악을 TA솔루션을 활용하여 진행
Missile
미사일 쏘더니 대화카드
내민 북한
북한, 신년 연설에서
남북 대결상태 해소를 강조
북한 미사일,
미국 본토를 겨냥하고 있다
北 미사일 성능 꾸준히
향상...위협 수단 우려
2015년 이전 2015년 이후
국내 언론의 북한 미사일에 대한 언급은 주로
3~4월에 일어나며, 주 내용은 미사일 발사 전
후 남북간 대화를 원하는 북한의 태도
이슈가 반복적으로 언급되고, 미사일의 성능
강화로 인해 국내 뿐 아니라 일본, 미국 본토까
지 위협 가능한 수준에 대해 지속적으로 언급
Egg
0
20
40
60
80
100
120
140
160
180
0
2000
4000
6000
8000
10000
12000
1월 2월 3월 4월 5월 6월 7월 8월 9월 10월 11월 12월
계란 가격 뉴스 언급 건수
사재기
조류독감
바이러스
살처분
계란
금값
AI
계란 '금값' 여름
내내 고공행진
씨암탉 대거
살처분
AI로 계란가격
연중 최고 수준
돌파
계란 사재기 대란
현실이 되다
!
증명서
살충제
전수조사
농식품부
계란
안전관리
부적합
하다
살충제 계란
불안 확산
달걀 전수조사로
무더기 검출
계란농장
안전관리 부실
논란
조류독감
계란
사재기
Future Strategy
단기 예측 중장기 예측
특정 분야
데이터
광범위
데이터
Data
Time
Focus
• 전통적인 예측 분석
• 가능한 상세하고 정확한 데이터 수집
• 현안이나 이슈의 세부 구조와 양상 파악
• (정량)상관/회귀/클러스터링/의사결정트리
• (정성)텍스트마이닝, 네트워크분석…
• 축적된 데이터 기반 추세 모니터링
• 변인 간 상호 역동성 파악
• 지식베이스 기반 대응전략과 실행방안 도출
• 데이터와 전문가 집단지성 활용
• 추세분석, 시스템다이나믹스, 시뮬레이션…
• 전통적인 미래연구와 유사
• 광범위 환경스캔, 트렌드와 이머징 이슈 전망
• 바람직한 미래를 상정, 오피니언 리더
중심으로 사회적 합의 과정도 포함
• 비정형 데이터분석 기법이 다수
• 이상 징후 포착, 조기 전파 및 대응
• 데이터의 정확도 보다 실시간 분석/탐지
가능성이 중요
• 지수/지표 기반 모니터링, Dashboard
• 패턴분석, 초단기예측…
문제 해결 선제적 대응
조기 경보 아젠다 발굴
출처 : 빅데이터시대, 미래전략의 새로운 접근법, NIA, IT & Future Strategy, 2015-14
Thank you

Contenu connexe

Plus de eungjin cho

챗봇의 활용, 어디에서 도입하면 좋은가? - 와이즈넛 장정훈 이사
챗봇의 활용, 어디에서 도입하면 좋은가? - 와이즈넛 장정훈 이사챗봇의 활용, 어디에서 도입하면 좋은가? - 와이즈넛 장정훈 이사
챗봇의 활용, 어디에서 도입하면 좋은가? - 와이즈넛 장정훈 이사eungjin cho
 
인메모리 DBMS기반 보안 빅데이터 분석 솔루션 개발 사례 - 리얼타임테크 한혁 연구소장
인메모리 DBMS기반 보안 빅데이터 분석 솔루션 개발 사례 - 리얼타임테크 한혁 연구소장인메모리 DBMS기반 보안 빅데이터 분석 솔루션 개발 사례 - 리얼타임테크 한혁 연구소장
인메모리 DBMS기반 보안 빅데이터 분석 솔루션 개발 사례 - 리얼타임테크 한혁 연구소장eungjin cho
 
의료사업 선진화를 위한 빅데이터 분석 - 서울아산병원 심우현 교수
의료사업 선진화를 위한 빅데이터 분석 - 서울아산병원 심우현 교수의료사업 선진화를 위한 빅데이터 분석 - 서울아산병원 심우현 교수
의료사업 선진화를 위한 빅데이터 분석 - 서울아산병원 심우현 교수eungjin cho
 
빅데이터를 이용한 예측분석의 이슈와 트랜드 - 아시아나IDT 이훈석 ICT융합연구소장
빅데이터를 이용한 예측분석의 이슈와 트랜드 - 아시아나IDT 이훈석 ICT융합연구소장빅데이터를 이용한 예측분석의 이슈와 트랜드 - 아시아나IDT 이훈석 ICT융합연구소장
빅데이터를 이용한 예측분석의 이슈와 트랜드 - 아시아나IDT 이훈석 ICT융합연구소장eungjin cho
 
머신러닝 프로세스와 산업별 애플리케이션 - 위세아이텍 김종현 대표
머신러닝 프로세스와 산업별 애플리케이션 - 위세아이텍 김종현 대표머신러닝 프로세스와 산업별 애플리케이션 - 위세아이텍 김종현 대표
머신러닝 프로세스와 산업별 애플리케이션 - 위세아이텍 김종현 대표eungjin cho
 
DATA ECO와 연결의 힘 - SKT 김성우 랩장
DATA ECO와 연결의 힘 - SKT 김성우 랩장DATA ECO와 연결의 힘 - SKT 김성우 랩장
DATA ECO와 연결의 힘 - SKT 김성우 랩장eungjin cho
 
예측 분석 산업별 사례 147
예측 분석 산업별 사례 147예측 분석 산업별 사례 147
예측 분석 산업별 사례 147eungjin cho
 
예측 분석이 발견한 이상하고 놀라운 인간 행동들
예측 분석이 발견한 이상하고 놀라운 인간 행동들예측 분석이 발견한 이상하고 놀라운 인간 행동들
예측 분석이 발견한 이상하고 놀라운 인간 행동들eungjin cho
 
로보 어드바이저가 이끌 자산관리 시장의 변화 유진20160608증권
로보 어드바이저가 이끌 자산관리 시장의 변화 유진20160608증권로보 어드바이저가 이끌 자산관리 시장의 변화 유진20160608증권
로보 어드바이저가 이끌 자산관리 시장의 변화 유진20160608증권eungjin cho
 
4대 핀테크 동향과 금융산업의 파급영향
4대 핀테크 동향과 금융산업의 파급영향4대 핀테크 동향과 금융산업의 파급영향
4대 핀테크 동향과 금융산업의 파급영향eungjin cho
 
국내 로보어드바이저 시장 현황 뉴스 정리 201604
국내 로보어드바이저 시장 현황 뉴스 정리 201604국내 로보어드바이저 시장 현황 뉴스 정리 201604
국내 로보어드바이저 시장 현황 뉴스 정리 201604eungjin cho
 
저성장 시대 데이터 경제만이 살길이다
저성장 시대 데이터 경제만이 살길이다저성장 시대 데이터 경제만이 살길이다
저성장 시대 데이터 경제만이 살길이다eungjin cho
 
Fintech overview 페이게이트 박소영대표 20151006_v5
Fintech overview 페이게이트 박소영대표 20151006_v5Fintech overview 페이게이트 박소영대표 20151006_v5
Fintech overview 페이게이트 박소영대표 20151006_v5eungjin cho
 
2014 data 보안 가이드라인 그랜드컨퍼런스 20140930
2014 data 보안 가이드라인 그랜드컨퍼런스 201409302014 data 보안 가이드라인 그랜드컨퍼런스 20140930
2014 data 보안 가이드라인 그랜드컨퍼런스 20140930eungjin cho
 
정보활용과 데이터보안
정보활용과 데이터보안정보활용과 데이터보안
정보활용과 데이터보안eungjin cho
 
취약점(Vulnerability) db 구조 설명
취약점(Vulnerability) db 구조 설명취약점(Vulnerability) db 구조 설명
취약점(Vulnerability) db 구조 설명eungjin cho
 
인사 노무 업무 단계별 개인정보 처리요령 201211
인사 노무 업무 단계별 개인정보 처리요령 201211인사 노무 업무 단계별 개인정보 처리요령 201211
인사 노무 업무 단계별 개인정보 처리요령 201211eungjin cho
 
보안세미나 1 db보안, 취약점 분석 why how when 20121025
보안세미나 1 db보안, 취약점 분석 why how when 20121025보안세미나 1 db보안, 취약점 분석 why how when 20121025
보안세미나 1 db보안, 취약점 분석 why how when 20121025eungjin cho
 
2011년 보안 사고의 특징들(security trends)과 대응 방안 2 smb 중심
2011년 보안 사고의 특징들(security trends)과 대응 방안 2 smb 중심2011년 보안 사고의 특징들(security trends)과 대응 방안 2 smb 중심
2011년 보안 사고의 특징들(security trends)과 대응 방안 2 smb 중심eungjin cho
 

Plus de eungjin cho (20)

챗봇의 활용, 어디에서 도입하면 좋은가? - 와이즈넛 장정훈 이사
챗봇의 활용, 어디에서 도입하면 좋은가? - 와이즈넛 장정훈 이사챗봇의 활용, 어디에서 도입하면 좋은가? - 와이즈넛 장정훈 이사
챗봇의 활용, 어디에서 도입하면 좋은가? - 와이즈넛 장정훈 이사
 
인메모리 DBMS기반 보안 빅데이터 분석 솔루션 개발 사례 - 리얼타임테크 한혁 연구소장
인메모리 DBMS기반 보안 빅데이터 분석 솔루션 개발 사례 - 리얼타임테크 한혁 연구소장인메모리 DBMS기반 보안 빅데이터 분석 솔루션 개발 사례 - 리얼타임테크 한혁 연구소장
인메모리 DBMS기반 보안 빅데이터 분석 솔루션 개발 사례 - 리얼타임테크 한혁 연구소장
 
의료사업 선진화를 위한 빅데이터 분석 - 서울아산병원 심우현 교수
의료사업 선진화를 위한 빅데이터 분석 - 서울아산병원 심우현 교수의료사업 선진화를 위한 빅데이터 분석 - 서울아산병원 심우현 교수
의료사업 선진화를 위한 빅데이터 분석 - 서울아산병원 심우현 교수
 
빅데이터를 이용한 예측분석의 이슈와 트랜드 - 아시아나IDT 이훈석 ICT융합연구소장
빅데이터를 이용한 예측분석의 이슈와 트랜드 - 아시아나IDT 이훈석 ICT융합연구소장빅데이터를 이용한 예측분석의 이슈와 트랜드 - 아시아나IDT 이훈석 ICT융합연구소장
빅데이터를 이용한 예측분석의 이슈와 트랜드 - 아시아나IDT 이훈석 ICT융합연구소장
 
머신러닝 프로세스와 산업별 애플리케이션 - 위세아이텍 김종현 대표
머신러닝 프로세스와 산업별 애플리케이션 - 위세아이텍 김종현 대표머신러닝 프로세스와 산업별 애플리케이션 - 위세아이텍 김종현 대표
머신러닝 프로세스와 산업별 애플리케이션 - 위세아이텍 김종현 대표
 
DATA ECO와 연결의 힘 - SKT 김성우 랩장
DATA ECO와 연결의 힘 - SKT 김성우 랩장DATA ECO와 연결의 힘 - SKT 김성우 랩장
DATA ECO와 연결의 힘 - SKT 김성우 랩장
 
예측 분석 산업별 사례 147
예측 분석 산업별 사례 147예측 분석 산업별 사례 147
예측 분석 산업별 사례 147
 
예측 분석이 발견한 이상하고 놀라운 인간 행동들
예측 분석이 발견한 이상하고 놀라운 인간 행동들예측 분석이 발견한 이상하고 놀라운 인간 행동들
예측 분석이 발견한 이상하고 놀라운 인간 행동들
 
로보 어드바이저가 이끌 자산관리 시장의 변화 유진20160608증권
로보 어드바이저가 이끌 자산관리 시장의 변화 유진20160608증권로보 어드바이저가 이끌 자산관리 시장의 변화 유진20160608증권
로보 어드바이저가 이끌 자산관리 시장의 변화 유진20160608증권
 
4대 핀테크 동향과 금융산업의 파급영향
4대 핀테크 동향과 금융산업의 파급영향4대 핀테크 동향과 금융산업의 파급영향
4대 핀테크 동향과 금융산업의 파급영향
 
국내 로보어드바이저 시장 현황 뉴스 정리 201604
국내 로보어드바이저 시장 현황 뉴스 정리 201604국내 로보어드바이저 시장 현황 뉴스 정리 201604
국내 로보어드바이저 시장 현황 뉴스 정리 201604
 
저성장 시대 데이터 경제만이 살길이다
저성장 시대 데이터 경제만이 살길이다저성장 시대 데이터 경제만이 살길이다
저성장 시대 데이터 경제만이 살길이다
 
Fintech overview 페이게이트 박소영대표 20151006_v5
Fintech overview 페이게이트 박소영대표 20151006_v5Fintech overview 페이게이트 박소영대표 20151006_v5
Fintech overview 페이게이트 박소영대표 20151006_v5
 
2014 data 보안 가이드라인 그랜드컨퍼런스 20140930
2014 data 보안 가이드라인 그랜드컨퍼런스 201409302014 data 보안 가이드라인 그랜드컨퍼런스 20140930
2014 data 보안 가이드라인 그랜드컨퍼런스 20140930
 
정보활용과 데이터보안
정보활용과 데이터보안정보활용과 데이터보안
정보활용과 데이터보안
 
Advanced DQC-S
Advanced DQC-SAdvanced DQC-S
Advanced DQC-S
 
취약점(Vulnerability) db 구조 설명
취약점(Vulnerability) db 구조 설명취약점(Vulnerability) db 구조 설명
취약점(Vulnerability) db 구조 설명
 
인사 노무 업무 단계별 개인정보 처리요령 201211
인사 노무 업무 단계별 개인정보 처리요령 201211인사 노무 업무 단계별 개인정보 처리요령 201211
인사 노무 업무 단계별 개인정보 처리요령 201211
 
보안세미나 1 db보안, 취약점 분석 why how when 20121025
보안세미나 1 db보안, 취약점 분석 why how when 20121025보안세미나 1 db보안, 취약점 분석 why how when 20121025
보안세미나 1 db보안, 취약점 분석 why how when 20121025
 
2011년 보안 사고의 특징들(security trends)과 대응 방안 2 smb 중심
2011년 보안 사고의 특징들(security trends)과 대응 방안 2 smb 중심2011년 보안 사고의 특징들(security trends)과 대응 방안 2 smb 중심
2011년 보안 사고의 특징들(security trends)과 대응 방안 2 smb 중심
 

미래 예측을 위한 빅데이터 융합분석 사례와 분석방법론 - 데이타솔루션 장준호 수석

  • 1. 미래 예측을 위한 빅데이터 융합분석 사례와 분석방법론 데이타솔루션 장준호
  • 2. Kensho, 켄쇼, 見性 “골드만삭스의 직원들은 금융분석프로그램 켄쇼(Kensho)를 사용한 후 놀라움 감추지 못했다. 그들이 일주일 동안 매달리거나 사람을 고용해 처리하던 일을 켄쇼는 순식간에 해냈기 때문이다.” 뉴욕타임스는 27일(현지시간) 세계적인 금융투자기업 골드만삭스가 이용하는 ‘켄쇼’ 프로그램을 한면에 걸쳐 다루며 “로봇이 월스트리트를 침공(Invading)했다”고 보도했다. 로봇이 인간의 일자리를 빠르게 대체하고 있으며, 금융ㆍ투자와 같은 전문직도 예외는 아니라는 것이다. 켄쇼는 기업의 실적과 주요 경제수치, 주가의 움직임 등 방대한 양의 금융데이터를 분석해 투자자들의 질문에 답을 주는 프로그램이다. 시리아 내전이 경제에 미치는 영향을 파악하기 위해 켄쇼의 검색 엔진에 ‘시리아 내전 격화(Escalations in The Syrian war)’를 입력하면 켄쇼는 불과 몇 분 안에 미국과 아시아의 주가 변동, 천연가스와 유가의 움직임, 심지어 캐나다 달러의 환율 변화 등 다양한 정보를 일목요연하게 정리해 보여준다. 한국일보, 2016년 2월 28일 신문기사 중.
  • 3. Customer Needs & Trend  기본적 서비스 제공에서는 더 이상 만족을 높이기 어려움  컨텐츠와 실시간성을 활용한 고객 차별화 서비스 필요  빅데이터 분석을 통한 추천, 또 추천…  netflix(70%), google news(38%), amazon(35%) 고객 만족과 시장 선도를 위한 새로운 가치 창출 필요
  • 4. Unstructured Big Data  2011년 한 해 동안 전 세계에서 새롭게 생성/복제된 정보량 1.8ZB  전 세계 정보량은 2년 마다 2배로 증가하는 추세  2020년까지 생성되는 디지털 데이터 규모 40ZB  전 세계 해변 모래알 수의 57배  블루레이 디스크로 저장한다면 항공모함 424대의 무게 이 중 비정형 데이터는 전체의 약 80%
  • 5. Mining  Data Mining  데이터에서 유용한 정보를 발견하는 과정  데이터 마이닝을 통해 가치 있는 정보를 만들어 의사결정에 적용  Text Mining  자연어로 구성된 비정형 텍스트 데이터에서 패턴 또는 관계를 추출 하여 가치와 의미 있는 정보를 찾아내는 마이닝 기법  사람들이 말하는 언어를 기계가 이해할 수 있는 자연언어 처리 (NLP) 기술에 기반함  심층 분석 기술 : 소셜 마이닝, 오피니언 마이닝 등  Web Mining, Social Mining, Realty Mining 비정형 데이터 분석을 위한 Text Mining 도구 필요
  • 6. Big Data Driven  다양한 정보와 서비스 품질  어디서나 원하는 시점에  정형 데이터 + 비정형 데이터 1 2 3 4 5 · · · Big Data Driven 고객유형군 행동분석 정형/비정형 빅데이터 분석 예측 모델링 고객 Seg. 분석 시장 트렌드/소셜 분석 정형, 비정형 데이터 융합분석을 통한 새로운 인사이트 추천 Auto Customer Insights
  • 7. Insight  정형 데이터 통계분석을 활용한 인사이트 도출  정량적 데이터의 조합을 통한 상관성 발견  정확한 결과치를 검증해 나가며 반복적인 수행으로 예측 데이터 적재  분석  시각화  활용 데이터스토어 정형분석툴 프레젠테이션 정형보고서 Daily Data 기존 시스템 연계
  • 8. New Insight  비정형 데이터를 기반으로 의사결정 시스템에 필요한 인사이트 추천  정량적 데이터로 부터 정성적인 상관성 발견  융합분석으로 더욱 정교한 분석을 가능하게 하는 Data Intelligence 데이터 적재  분석  시각화  활용 데이터스토어 분석 엔진 프레젠테이션 정형보고서 Data Daily Update 기존 시스템 연계 데이터레이크 주제분석엔진 융합분석엔진 AI 리포트 Real Time Data 새로운 View
  • 9. Data Lake  방대한 양의 정형/비정형 데이터 적재  실시간으로 업데이트 되는 데이터 적재 및 연계 구분 일별 건수 6년 건수 내용 뉴스 약 3,200 건 약 1,000만 건 장기간 연속적으로 발생하는 정치,경제,사회 뉴스 증권 약 14,000 건 약 4,000만 건 코스닥, 코스피 종목의 시가 및 업종 평균값 기상 약 15,000 건 약 3,200만 건 농업, 종관 기상 정보 물가 약 10,000 건 약 2,400만 건 농축수산물 개별 품목의 물가 및 품목 평균가 시장금리 약 40 건 약 10만 건 콜금리, MMF 등의 시장 금리
  • 10. Topic Analysis 시계열 분석을 통한 주제 일지 제공
  • 11.
  • 12.
  • 13. Convergence Analysis  자연어 처리 기술을 활용한 주제 추출(텍스트 마이닝)  상관성 분석과 시계열 분석을 통한 데이터 그룹핑 및 추천  최적의 알고리즘 적용(ACF, Bayesian …) 구분 종목 상관도 코스닥 안랩 30% 코스피 삼성전자 15% 물가 시금치 90% 금리 MMF 49%
  • 15. AI Report  로봇 Writing 기술 적용  인터스트리 및 업무 영역의 요구에 부합하는 자동 리포트 생성  StatsMonkey, QuakeBot, 프로야구 뉴스로봇 등… 주어진 탬플릿에 정량적 정보 분석과 정성적 데이터 분석 병행
  • 16. Use case 예시 영역 데이터 기대 시나리오 비정형 정형 시장 동향 분석  뉴스  동향 보고서  증권 시세  기상  농수축산물 물가  금리 등  고객사 관련 주요 키워드를 추천, 사전 위험 감지  시장 흐름에 따른 현시점의 보고서 활용 기업 분석  경제 분야 뉴스  결산보고서  감사보고서  재무제표  경영정보  일반정보  경쟁사 혹은 자사에 대한 전반적인 분 석 및 관련 있는 주요 기업 추천 기술 동향 분석  기술 관련 뉴스  기술 동향 보고서  특허, 논문 등  특허 출원 수  IPC 코드별 출원수  논문 수  인용,피인용수 등  현재의 유망 기술에 대한 동향 분석을 통한 기술 전략 수립  경쟁사 기술 분석 보안 동향 분석  보안 관련 뉴스  보안 일일 리포트  보안 백서  일일 해킹 통계  공격 유형별 통계  국가별 공격 통계  공격의 유형 및 사전 징후 분석 및 보고 서 작성
  • 17. Transportation 기본 시계열 모형 특이사항 보정 모형
  • 18. Emergency 5/20 ~ 5/25 5/26~5/31 6/1~6/07 6/8~6/185/20 ~ 5/25 5/26~5/31 6/1~6/07 6/8~6/18  질병관리본부는 바레인에 다녀온 남성이 확진 판정을 받아 치료 중이며 아직까지 생명엔 지장이 없는 상태라고 밝혔습니다.  메르스 치사율 40% 감염질병.최초 발생 확인은 2012년. 환자는 중동 10여개국에서 97%가 발생하고 있다고 함.  아시아 최초로 사람간 감염 증상이 나타난 메르스가 대한민국에 상륙…… 치사율 40%고 치료제도 없다는데 어쩔;; 고열 (639) 호흡곤란 (744) 기침 (852) 사우디아라비아 (717) 중동지역 (850) 바레인 (647) 치사율 (899) 일평균 버즈량 → 594 [1주차] 첫 메르스 환자 발생으로 화제. 메르스의 증상, 발원지 등 정보 소개 5/20 ~ 5/25 5/26~5/31 6/1~6/07 6/8~6/18  의심환자가 중국으로 출국하는 것도 몰라 중국이 반발하며 국제적 망신까지... 메르스의 치사율은 40%라지만 한국에서 가라는 출장을 안 가는 것의 치사율은 100%에 육박하기 때문에  메르스 치사율은 40퍼 에볼라 치사율은 90퍼 쿠쿠의 취사율은 100퍼  탄저균을 메르스가 막아주고 있는 형국 이건 정말 나라가 아니다 메르스에, 탄저균에, 국민들은 불안한데...무능정부는 또 '괴담 탓‘0 일평균 버즈량 → 24,835 [2주차] 전염이 시작됨에 따라 의심환자에 대한 관심과 우려. 가볍게 희화화한 글이 등장하며 화제 의심환자 (5,830) 전북 (920) 중국 (10,762) 쿠쿠 (6,798 ) 취사율 (7,013) 탄저균 (9,391) 유언비어 (4,632) 괴담 (5,156) 5/20 ~ 5/25 5/26~5/31 6/1~6/07 6/8~6/18  메르스에 의한 사망자는 기존에 호흡기 질환을 앓던 분들이었다고 합니다. 아직 건강하던 사람이 사망한 것이 아니니 너무 겁 먹지 마세요  낙타와 접촉마라 낙타고기를 먹지마라..개콘도 아니고..  서울메르스 대책본부장 박원순입니다. 서울시는 정부의 대책에 적극 협력하겠습니다  메르스 3차 감염 문제가 불거졌는데도 정부는 '병원 비공개'를 고수…. 일평균 버즈량 → 235,336 [3주차] 첫 사망자가 발생함에 따라 불안감 증폭, 감염자 발생 병원 정보 공개 여부 논란 박원순 (80,177) 낙타 (63,957) 공개 (70,525) 의사 (70,274) 정보 (41,990) 휴교 (35,264 ) 사망, 사망자 (82,355) 5/20 ~ 5/25 5/26~5/31 6/1~6/07 6/8~6/18  메르스 감염자 절반이 삼성서울병원에서 감염됐습니다.  메르스 사망자가 3명 늘었다. 확진자도 3명 추가됐다. 확진자 3명 중 1명은 삼성서울병원 간호사다. 치명률은 13.9%로 높아졌다.  '슈퍼 전파자' 우려가 제기됐던 부산의 두번째 메르스 확진환자 발생 엿새째인 오 늘까지 추가 감염자는 확인되지 않고 있습니다 일평균 버즈량 → 138,218 [4주차 이후] 절반 이상의 감염자를 발생시킨 삼성서울병원과 추가 확진자, 사망자 발생 현황에 관심 이재명 (30,147) 부산 (27,057 ) 삼성서울병원 (59,544) 사망,사망자 (95,115) 성남시 (28,386)
  • 19. Marketing 광고 초기 화제성 비교 ‘전지현’ 광고만큼 이슈화 되지 못한 ‘김연아’SKT 광고 446건 55건 281건 73건 Online Buzz 김연아 SKT광고 잘생겼다 광대역 LTE-A 2014.06.19~2014.07.18 총 2,050건 / 일 평균 68건 Online Buzz 전지현 SKT광고 잘생겼다 LTE-A 총 3,685건 / 일 평균 122건 2014.02.09~2014.03.10 ON AIR 2주1주 3주 4주 새로운 SKT 모델인 김연아의 ‘잘생겼다 ‘ 광고는 On Air 첫 날 약 450여건의 관련 Buzz를 생산하며 화제가 되었으나, 점점 하락하여 전지현 광고 대비 일 평균 건수 50% 수준으로 떨어짐 연관 키워드 분석 김연아 광고는 ‘모델’에 전지현 광고는 ‘광고 내용’에 관심 별그대 광고 기업 품질 노래 Song 천송이 패러디모델 코믹댄스 LTE-A 속도 T월드 프로모션 SK텔레콤 캘리그라피통신사 슬로건 개통 36% 21% 16% 15% 30% 45% 18% 19% 전지현 SKT광고 김연아 SKT광고 광고/마케팅 기업 모델 상품/서비스 SKT의 새 광고 모델인 김연아와 관련된 키워드가 절반 가까이 차지함(45%) 전지현 SKT 광고의 경우, ‘잘생겼다 송’, ‘댄스’ 등 광고 내용 언급이 많았음(36%) 전지현 SKT 광고 광고 모델 기업 서비스 피겨여왕 우쿨렐레편 미공개컷 캠페인 금메달은퇴 광대역LTE-A 3배 세계최초 동계올림픽SK텔레콤 통신사영업정지 열애 요금제 세계선수권 김연아 SKT 광고 경기 영상
  • 20. VOC 2,109건(33)% 4,345건(67%) 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 청약관련 업무 그외업무 1 공모주 청약 1,048 2 컴퓨터 1,011 3 977 4 5 계좌번호 씨엠에이 679 552 23 238 24 249 … 경쟁률 청약 수수료 정보 확인 0 500 1,000 1,500 청약확인 문의 경쟁률 수수료/이체 청약화면 문의 통화시간이 짧음 (약 1,589건 ) 순위 키워드명 건수 * 청약 수수료와 CMA 문의 제가 CMA 계좌가 있는데 청약수수료 3,000원 무료 맞나요? * 공모주 청약 확인 문의 OO머티리얼즈 공모주 청약을 했는데, 확인 부탁 드려요 * 화면 설명과 청약 방법 문의 이거 화면을 지금 보고 있는데, 하려면 어떻게 해야하죠? * 실시간 경쟁률 확인 문의 OO 머티리얼즈 경쟁률이 어떻게 되나요? 현상 해결을 위해 ARS 시스템에 단순업무 안내, 챗봇 시스템을 활용한 선응대 키워드 분석으로 발견한 사건의 본질은 단순업무 비율 급증 0 200 400 600 800 1,000 1,200 1,400 1,600 1,800 2,000 콜센터 폭주 현상에 대한 원인파악을 TA솔루션을 활용하여 진행
  • 21. Missile 미사일 쏘더니 대화카드 내민 북한 북한, 신년 연설에서 남북 대결상태 해소를 강조 북한 미사일, 미국 본토를 겨냥하고 있다 北 미사일 성능 꾸준히 향상...위협 수단 우려 2015년 이전 2015년 이후 국내 언론의 북한 미사일에 대한 언급은 주로 3~4월에 일어나며, 주 내용은 미사일 발사 전 후 남북간 대화를 원하는 북한의 태도 이슈가 반복적으로 언급되고, 미사일의 성능 강화로 인해 국내 뿐 아니라 일본, 미국 본토까 지 위협 가능한 수준에 대해 지속적으로 언급
  • 22. Egg 0 20 40 60 80 100 120 140 160 180 0 2000 4000 6000 8000 10000 12000 1월 2월 3월 4월 5월 6월 7월 8월 9월 10월 11월 12월 계란 가격 뉴스 언급 건수 사재기 조류독감 바이러스 살처분 계란 금값 AI 계란 '금값' 여름 내내 고공행진 씨암탉 대거 살처분 AI로 계란가격 연중 최고 수준 돌파 계란 사재기 대란 현실이 되다 ! 증명서 살충제 전수조사 농식품부 계란 안전관리 부적합 하다 살충제 계란 불안 확산 달걀 전수조사로 무더기 검출 계란농장 안전관리 부실 논란 조류독감 계란 사재기
  • 23. Future Strategy 단기 예측 중장기 예측 특정 분야 데이터 광범위 데이터 Data Time Focus • 전통적인 예측 분석 • 가능한 상세하고 정확한 데이터 수집 • 현안이나 이슈의 세부 구조와 양상 파악 • (정량)상관/회귀/클러스터링/의사결정트리 • (정성)텍스트마이닝, 네트워크분석… • 축적된 데이터 기반 추세 모니터링 • 변인 간 상호 역동성 파악 • 지식베이스 기반 대응전략과 실행방안 도출 • 데이터와 전문가 집단지성 활용 • 추세분석, 시스템다이나믹스, 시뮬레이션… • 전통적인 미래연구와 유사 • 광범위 환경스캔, 트렌드와 이머징 이슈 전망 • 바람직한 미래를 상정, 오피니언 리더 중심으로 사회적 합의 과정도 포함 • 비정형 데이터분석 기법이 다수 • 이상 징후 포착, 조기 전파 및 대응 • 데이터의 정확도 보다 실시간 분석/탐지 가능성이 중요 • 지수/지표 기반 모니터링, Dashboard • 패턴분석, 초단기예측… 문제 해결 선제적 대응 조기 경보 아젠다 발굴 출처 : 빅데이터시대, 미래전략의 새로운 접근법, NIA, IT & Future Strategy, 2015-14