SlideShare une entreprise Scribd logo
1  sur  84
네오플 데이터분석팀
김대영 emotionalcode@gmail.com
유저동향분석에서 인게임데이터까지
뜻밖의 시리즈텍스트마이닝
뜻밖의 시리즈텍스트마이닝
뜻밖의 퇴근
이미지출처 - http://www.slrclub.com/bbs/vx2.php?id=free&no=34959092
뜻밖의 재능발견
이미지출처 - http://www.slrclub.com/bbs/vx2.php?id=free&no=34959092
네오플 데이터분석팀
김대영 emotionalcode@gmail.com
유저동향분석에서 인게임데이터까지
뜻밖의 텍스트마이닝
이야기 흐름
일어날기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
발표자 소개
통계학, 언어학, 수학 전문가가 아닙니다.
자연언어처리 분야의 개발을 해 본 경험이 없습니다.
머신러닝을 다뤄본 적이 없습니다.
이야기 흐름
일어날기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
유저동향파악을 보다 객관적으로
C................…..
………………...
A................…..
………………...
C................…..
………………...
B................…..
………………...
C................…..
………………...
C................…..
………………...
하루 2만여개의 글A라는
업데이트가
화제야
B이야기로
난리났네!
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
아이디어의 실현 – Wordcloud 시각화
이미지출처 - http://www.codefry.com/?q=node/104
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
단어 추출 워드카운팅 Wordcloud
아이디어의 실현 – Wordcloud 시각화
일어날기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
아이템 직거래 시세를 추출해냅니다.
레이드 BUS 시세 * 2를 파악합니다.
육성 캐릭터를 텍스트분석을 통해,선택합니다.
상승키워드 알림을 받고, 연관키워드를 통해
동향을 파악합니다.
할
단어 추출N LP 워드카운팅 Wordcloud
아이디어의 실현 – Wordcloud 시각화
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
워드카운팅 Wordcloud
아이디어의 실현 – Wordcloud 시각화
HanNanum
(http://semanticweb.kaist.ac.kr/home
/index.php/HanNanum)
단어 추출NLP
아이템 직거래 시세를 추출해냅니다.
레이드 BUS 시세 * 2를 파악합니다.
육성 캐릭터를 텍스트분석을 통해,선택
상승키워드 알림을 받고, 연관키워드를 통해
동향을 파악합니다.
할 합니다.
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
아이템 직거래 시세 추출
레이드 BUS 시세 * 2
육성 캐릭터 텍스트분석 선택
상승키워드 알림 연관키워드
동향
워드카운팅 Wordcloud
아이디어의 실현 – Wordcloud 시각화
HanNanum
(http://semanticweb.kaist.ac.kr/home
/index.php/HanNanum)
단어 추출NLP
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
시세 * 2아이템 직거래 시세 추출
레이드 BUS
육성 캐릭터 텍스트분석 선택
상승 알림 연관키워드
동향
워드카운팅 Wordcloud
아이디어의 실현 – Wordcloud 시각화
HanNanum
(http://semanticweb.kaist.ac.kr/home
/index.php/HanNanum)
단어 추출NLP
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
아이템
직거래
시세
추출
레이드
BUS
육성캐릭터
텍스트
분석 선택 상승
알림 연관
키워드
동향
워드카운팅 Wordcloud
아이디어의 실현 – Wordcloud 시각화
Tagxedo
(http://www.tagxedo.com/)
HanNanum
(http://semanticweb.kaist.ac.kr/home
/index.php/HanNanum)
단어 추출NLP
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
아이템
직거래
시세
추출
레이드
BUS
육성캐릭터
텍스트
분석 선택 상승
알림 연관
키워드
동향
워드카운팅 Wordcloud
아이디어의 실현 – Wordcloud 시각화
Tagxedo
(http://www.tagxedo.com/)
HanNanum
(http://semanticweb.kaist.ac.kr/home
/index.php/HanNanum)
단어 추출NLP
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
텍스트데이터의 시각화
워드카운팅 Wordcloud
Tagxedo
(http://www.tagxedo.com/)
HanNanum
(http://semanticweb.kaist.ac.kr/home
/index.php/HanNanum)
단어 추출NLP
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
텍스트데이터의 시각화
워드카운팅 Wordcloud
Tagxedo
(http://www.tagxedo.com/)
오늘자
데이터로도 또
만들어주세요
지난주말 이후
현재까지
데이터로
만들어주세요
이번 업데이트
이후 데이터로
만들어주세요
이미지출처 - http://blog.naver.com/jisun22ing/220506931005
HanNanum
(http://semanticweb.kaist.ac.kr/home
/index.php/HanNanum)
단어 추출NLP
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
텍스트데이터의 시각화
오늘자
데이터로도 또
만들어주세요
지난주말 이후
현재까지
데이터로
만들어주세요
이번 업데이트
이후 데이터로
만들어주세요
이미지출처 - http://blog.naver.com/jisun22ing/220506931005
워드카운팅 Wordcloud
Tagxedo
(http://www.tagxedo.com/)
HanNanum
(http://semanticweb.kaist.ac.kr/home
/index.php/HanNanum)
단어 추출NLP
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
무려 시스템 구축!
오늘자
데이터로도 또
만들어주세요
지난주말 이후
현재까지
데이터로
만들어주세요
이번 업데이트
이후 데이터로
만들어주세요
일어날기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
Voice Of Customer
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
<<external system>>
community sites
Crawler
WindowsService
[Every 3 minutes][Every 3 minutes]
Redis
crawl history
Redis
crawl history
Read from and writes data to
[REDIS, local]
Get data from
[HTTP]
Voice Of Customer
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
<<external system>>
community sites
Crawler
WindowsService
[Every 3 minutes][Every 3 minutes]
Redis
crawl history
Redis
crawl history
Read from and writes data to
[REDIS, local]
Get data from
[HTTP]
API
ASP.NET Web API
Write data to
[HTTP]
MQ
Push message
Voice Of Customer
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
Pop message
NLP
WindowsService
Write 'word relation' data to
[REDIS, port 0000]
Write 'word count' data to
[SQL, port 0000]
MSSQL
Article, ArticleComment,
WordFrequency
MSSQL
Article, ArticleComment,
WordFrequency
Redis
WordNetwork
Redis
WordNetwork
<<external system>>
community sites
Crawler
WindowsService
[Every 3 minutes][Every 3 minutes]
Redis
crawl history
Redis
crawl history
Read from and writes data to
[REDIS, local]
Get data from
[HTTP]
API
ASP.NET Web API
Write data to
[HTTP]
MQ
Push message
Voice Of Customer
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
Pop message
NLP
WindowsService
Write 'word relation' data to
[REDIS, port 0000]
Write 'word count' data to
[SQL, port 0000]
MSSQL
Article, ArticleComment,
WordFrequency
MSSQL
Article, ArticleComment,
WordFrequency
Redis
WordNetwork
Redis
WordNetwork
<<external system>>
community sites
Crawler
WindowsService
[Every 3 minutes][Every 3 minutes]
Redis
crawl history
Redis
crawl history
Read from and writes data to
[REDIS, local]
Get data from
[HTTP]
API
ASP.NET Web API
Write data to
[HTTP]
MQ
Push message
Get data from
[HTTP]Web Site
AngularJS Web App
Read data to
[MSSQL, 0000]
Read data to
[REDIS, port 0000]
[HTTP]
User
Voice Of Customer
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
Pop message
NLP
WindowsService
Write 'word relation' data to
[REDIS, port 0000]
Write 'word count' data to
[SQL, port 0000]
MSSQL
Article, ArticleComment,
WordFrequency
MSSQL
Article, ArticleComment,
WordFrequency
Redis
WordNetwork
Redis
WordNetwork
<<external system>>
community sites
Crawler
WindowsService
[Every 3 minutes][Every 3 minutes]
Redis
crawl history
Redis
crawl history
Read from and writes data to
[REDIS, local]
Get data from
[HTTP]
API
ASP.NET Web API
Write data to
[HTTP]
MQ
Push message
Get data from
[HTTP]Web Site
AngularJS Web App
Read data to
[MSSQL, 0000]
Read data to
[REDIS, port 0000]
[HTTP]
User
VOC system boundary
Voice Of Customer
- What are The high-level technology decisions?
- How do containers communicate with one another?
- As a developer, where do I need write code?
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
Voice Of Customer
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
Voice Of Customer
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
Voice Of C 확대적용– 사이퍼즈地下城与勇士DFOアラド戦記던파혼
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
Crawle NLP
Voice Of C 확대적용 – 사이퍼즈地下城与勇士DFOアラド戦記한중일영
BuzzCrawler
(https://github.com/emotionalcode/buzz-
crawler)
Abot
(https://github.com/sjdirect/abot)
HanNanum
(http://semanticweb.kaist.ac.kr/home
/index.php/HanNanum)
twitter-korean-text
(https://github.com/twitter/twitter-korean-text/)
MeCab
(http://taku910.github.io/mecab/)
StanfordNLP
(https://nlp.stanford.edu)
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
Wordcloud 의 한계 - 스토리텔링
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
Wordcloud 의 한계 - 스토리텔링
스토리들이 모두 파편화됨
맥락을 읽기 힘듬
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
스토리텔링 보완 - 단어 네트워크
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
스토리텔링 보완 - 단어 네트워크
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
스토리텔링 보완 – 연관 키워드 클라우드
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
스토리텔링 보완 - 연관 키워드 클라우드
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
변화에 대한 관심
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
변화에 대한 관심 – 빈도차트
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
변화에 대한 관심 – 키워드 트렌드
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
변화에 대한 관심 – 키워드 트렌드
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
변화에 대한 관심 – 키워드 트렌드
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
변화에 대한 관심 – 상승키워드
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
변화에 대한 관심 – 상승키워드
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
변화에 대한 관심 – 상승키워드
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
변화에 대한 관심 – 상승키워드
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
상승키워드 알고리즘 개선
지난주 목요일 상승키워드
“업데이트”, “패치”, “점검”
이번주 목요일 상승키워드
“업데이트”, “패치”, “점검”
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
현재 500위 이내의 키워드 중,
전주 출현빈도 평균대비 100% 이상 상승한 키워드
지난주 목요일 상승키워드
“업데이트”, “패치”, “점검”
이번주 목요일 상승키워드
“업데이트”, “패치”, “점검”
상승키워드 알고리즘 개선
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
지금 많이 언급되는 단어 이면서,
평소와는 다르게 유독 지금 많이 언급되는 단어
상승키워드 알고리즘 개선
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
상승키워드 알고리즘 개선
지금 많이 언급되는 단어 이면서,
평소와는 다르게 유독 지금 많이 언급되는 단어
L og(24시간내 출현 문서 수) *
L og(최근30일간 게시글 수 / 최근30일내 출현 문서 수)
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
상승키워드 알고리즘 개선
Log(24시간내 출현 문서 수) *
Log(최근30일간 게시글 수 / 최근30일내 출현 문서 수)
지금 많이 언급되는 단어 이면서,
평소와는 다르게 유독 지금 많이 언급되는 단어
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
상승키워드 알고리즘 개선
경주 지진발생 2016.9.12 19:44
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
상승키워드 알고리즘 개선
경주 지진발생 2016.9.12 19:44
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
상승키워드 알고리즘 개선
경주 지진발생 2016.9.12 19:44
개선된 알고리즘 - 2016.9.12 19:58
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
상승키워드 알고리즘 개선
경주 지진발생 2016.9.12 19:44
개선된 알고리즘 - 2016.9.12 19:58
이전 알고리즘 - 2016.9.12 20:17
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
다른 텍스트 분석 의뢰들
설문조사,
신청접수사연,
유저의견,
리포트,
…
일어날기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
Habituation
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
Habituation
* 10 times
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
Habituation
* 100 times
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
하트비트 메가폰
OBSERVE FIRST
DESIGN SECOND
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
하트비트 메가폰
짧다.
아이템 링크가 있다.
대부분 거래 글
- 무엇을 얼마에 거래.
- 레이드 BUS(쩔) 손님 구함.
- 파티/길드 모집.
- 득템 채널추천…
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
메가폰 텍스트분류
RuleBase 로직의 한계
Logical Flow를 명시적으로 작성하기 어려울때
=> 머신러닝
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
텍스트분류 - SupportVectorMachine
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
텍스트분류 - SupportVectorMachine
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
텍스트분류 - SupportVectorMachine
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
텍스트분류 - SupportVectorMachine
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
텍스트분류 - SupportVectorMachine
Widest Street Approach
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
하트비트 메가폰 – 학습데이터
“ 더 많은 데이터가
더 좋은 알고리즘을 이긴다 ”
More data usually beats better algorithms
아난드 라자라만 『The Mining of Massive Datasets』 의 저자
http://anand.typepad.com/datawocky/2008/03/more-data-usual.html
이미지출처 - https://natarajank.com/2012/12/12/famous-indians-in-silicon-valley/
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
하트비트 메가폰 – 학습데이터
학습데이터 생성 강제화
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
하트비트 메가폰 – 학습데이터
학습데이터 생성 강제화
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
하트비트 메가폰 – 학습데이터
학습데이터 추가 기능 보강
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
하트비트 메가폰 – 텍스트분류 결과
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
하트비트 메가폰 – 분류된 글에서 추출
아이템별 거래 호가 / 레이드BUS비 시세
일어날 기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
하트비트 메가폰 – 분류된 글에서 추출
“득템염원” 으로 분류된 키워드
이야기 흐름
일어날기 : 사내 게시판의 한 아이디어
이을 승 : 텍스트데이터의 시각화
바꿀 전 : VOC시스템 개발
맺을 결 : 인게임데이터 마이닝
이야기를 마치며
데이터시각화
프로그래밍
수학, 통계학
머신러닝
도메인지식
재밌을 것 같아서 시작해 본 것인데, 돌이켜보니
Data Scientist Profile
이야기를 마치며 – 텍스트 데이터
나에게,
텍스트 데이터란, 이다.
인용 – https://www.ted.com/talks/david_mccandless_the_beauty_of_data_visualization
이야기를 마치며 – 텍스트 데이터
전문가들의 정성적 자료를 뒷받침 해 주는 정량적 데이터가 될
수 있다.
혹은, 오히려 더 좋은 결과를 도출할 수도 있다.
나에게,
텍스트 데이터란, 이다.포텐 가득한 토양
인용 – https://www.ted.com/talks/david_mccandless_the_beauty_of_data_visualization
이야기를 마치며 – 실천법
거창한 기술과 시스템을 도입하는 것 보다,
실용성을 고려
더 나은 알고리즘보다,
꾸준하고 근면한 (메타)데이터생성을 먼저 생각
여러분이 만드시는 게임에도,
텍스트 데이터가 있나요?
감사합니다.

Contenu connexe

Similaire à [NDC2017] 뜻밖의 텍스트마이닝

NAVER의 웹/HTML5환경 대응 현황
NAVER의 웹/HTML5환경 대응 현황NAVER의 웹/HTML5환경 대응 현황
NAVER의 웹/HTML5환경 대응 현황NAVER Engineering
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Channy Yun
 
Amazon AI 및 IoT를 통한 비즈니스 혁신 - AWS Summit Seoul 2017
Amazon AI 및 IoT를 통한 비즈니스 혁신 - AWS Summit Seoul 2017Amazon AI 및 IoT를 통한 비즈니스 혁신 - AWS Summit Seoul 2017
Amazon AI 및 IoT를 통한 비즈니스 혁신 - AWS Summit Seoul 2017Amazon Web Services Korea
 
If (kakao) _ 다음(DAUM)모바일 개선 이야기
If (kakao) _ 다음(DAUM)모바일 개선 이야기If (kakao) _ 다음(DAUM)모바일 개선 이야기
If (kakao) _ 다음(DAUM)모바일 개선 이야기광영 김
 
다음 모바일 첫 화면 개선기
다음 모바일 첫 화면 개선기다음 모바일 첫 화면 개선기
다음 모바일 첫 화면 개선기if kakao
 
클라우드 기반 실시간 데이터 분석 및 예측 - 윤석찬 테크 에반젤리스트:: AWS Cloud Track 2 Advanced
클라우드 기반 실시간 데이터 분석 및 예측 - 윤석찬 테크 에반젤리스트:: AWS Cloud Track 2 Advanced클라우드 기반 실시간 데이터 분석 및 예측 - 윤석찬 테크 에반젤리스트:: AWS Cloud Track 2 Advanced
클라우드 기반 실시간 데이터 분석 및 예측 - 윤석찬 테크 에반젤리스트:: AWS Cloud Track 2 AdvancedAmazon Web Services Korea
 
삶이편해지는_백엔드_개발자_지식.pdf
삶이편해지는_백엔드_개발자_지식.pdf삶이편해지는_백엔드_개발자_지식.pdf
삶이편해지는_백엔드_개발자_지식.pdfSeung kyoo Park
 
[Korea Linux Forum] Implementing web based online multiplayer tetris with Ope...
[Korea Linux Forum] Implementing web based online multiplayer tetris with Ope...[Korea Linux Forum] Implementing web based online multiplayer tetris with Ope...
[Korea Linux Forum] Implementing web based online multiplayer tetris with Ope...JinKwon Lee
 
비즈니스 데이터 크롤링
비즈니스 데이터 크롤링비즈니스 데이터 크롤링
비즈니스 데이터 크롤링완선 이
 
MongoDB Charts로 데이터 사파리를 시작하세요! [MongoDB]
MongoDB Charts로 데이터 사파리를 시작하세요! [MongoDB]MongoDB Charts로 데이터 사파리를 시작하세요! [MongoDB]
MongoDB Charts로 데이터 사파리를 시작하세요! [MongoDB]MongoDB
 
SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)
SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)
SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)Eunchan Lee
 
이벤트: 마이크로서비스 도입, 이렇게 한다
이벤트: 마이크로서비스 도입, 이렇게 한다이벤트: 마이크로서비스 도입, 이렇게 한다
이벤트: 마이크로서비스 도입, 이렇게 한다Jay Park
 
[오픈소스컨설팅]엔터프라이즈 오픈소스 도입전략
[오픈소스컨설팅]엔터프라이즈 오픈소스 도입전략[오픈소스컨설팅]엔터프라이즈 오픈소스 도입전략
[오픈소스컨설팅]엔터프라이즈 오픈소스 도입전략Ji-Woong Choi
 
20170701 microsoft 오픈소스의 종류와 활용법
20170701 microsoft 오픈소스의 종류와 활용법20170701 microsoft 오픈소스의 종류와 활용법
20170701 microsoft 오픈소스의 종류와 활용법영욱 김
 
개발사는 모르는 퍼블리셔의 뒷 이야기
개발사는 모르는 퍼블리셔의 뒷 이야기개발사는 모르는 퍼블리셔의 뒷 이야기
개발사는 모르는 퍼블리셔의 뒷 이야기David Kim
 
2014 공개소프트웨어 대회 소프트웨어 개발 트렌드의 변화
2014 공개소프트웨어 대회 소프트웨어 개발 트렌드의 변화2014 공개소프트웨어 대회 소프트웨어 개발 트렌드의 변화
2014 공개소프트웨어 대회 소프트웨어 개발 트렌드의 변화Terry Cho
 
Podium - Private SNS for developer
Podium - Private SNS for developerPodium - Private SNS for developer
Podium - Private SNS for developerShin Yeongmin
 
[DEVIEW 2021] 1000만 글로벌 유저를 지탱하는 기술과 사람들
[DEVIEW 2021] 1000만 글로벌 유저를 지탱하는 기술과 사람들[DEVIEW 2021] 1000만 글로벌 유저를 지탱하는 기술과 사람들
[DEVIEW 2021] 1000만 글로벌 유저를 지탱하는 기술과 사람들Brian Hong
 
게임 서비스 품질 향상을 위한 데이터 분석 활용하기 - 김필중 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming
게임 서비스 품질 향상을 위한 데이터 분석 활용하기 - 김필중 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming게임 서비스 품질 향상을 위한 데이터 분석 활용하기 - 김필중 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming
게임 서비스 품질 향상을 위한 데이터 분석 활용하기 - 김필중 솔루션즈 아키텍트:: AWS Cloud Track 3 GamingAmazon Web Services Korea
 

Similaire à [NDC2017] 뜻밖의 텍스트마이닝 (20)

NAVER의 웹/HTML5환경 대응 현황
NAVER의 웹/HTML5환경 대응 현황NAVER의 웹/HTML5환경 대응 현황
NAVER의 웹/HTML5환경 대응 현황
 
Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)Realtime Big data Anaytics and Exampes of Daum (2013)
Realtime Big data Anaytics and Exampes of Daum (2013)
 
Amazon AI 및 IoT를 통한 비즈니스 혁신 - AWS Summit Seoul 2017
Amazon AI 및 IoT를 통한 비즈니스 혁신 - AWS Summit Seoul 2017Amazon AI 및 IoT를 통한 비즈니스 혁신 - AWS Summit Seoul 2017
Amazon AI 및 IoT를 통한 비즈니스 혁신 - AWS Summit Seoul 2017
 
If (kakao) _ 다음(DAUM)모바일 개선 이야기
If (kakao) _ 다음(DAUM)모바일 개선 이야기If (kakao) _ 다음(DAUM)모바일 개선 이야기
If (kakao) _ 다음(DAUM)모바일 개선 이야기
 
다음 모바일 첫 화면 개선기
다음 모바일 첫 화면 개선기다음 모바일 첫 화면 개선기
다음 모바일 첫 화면 개선기
 
클라우드 기반 실시간 데이터 분석 및 예측 - 윤석찬 테크 에반젤리스트:: AWS Cloud Track 2 Advanced
클라우드 기반 실시간 데이터 분석 및 예측 - 윤석찬 테크 에반젤리스트:: AWS Cloud Track 2 Advanced클라우드 기반 실시간 데이터 분석 및 예측 - 윤석찬 테크 에반젤리스트:: AWS Cloud Track 2 Advanced
클라우드 기반 실시간 데이터 분석 및 예측 - 윤석찬 테크 에반젤리스트:: AWS Cloud Track 2 Advanced
 
삶이편해지는_백엔드_개발자_지식.pdf
삶이편해지는_백엔드_개발자_지식.pdf삶이편해지는_백엔드_개발자_지식.pdf
삶이편해지는_백엔드_개발자_지식.pdf
 
[Korea Linux Forum] Implementing web based online multiplayer tetris with Ope...
[Korea Linux Forum] Implementing web based online multiplayer tetris with Ope...[Korea Linux Forum] Implementing web based online multiplayer tetris with Ope...
[Korea Linux Forum] Implementing web based online multiplayer tetris with Ope...
 
비즈니스 데이터 크롤링
비즈니스 데이터 크롤링비즈니스 데이터 크롤링
비즈니스 데이터 크롤링
 
MongoDB Charts로 데이터 사파리를 시작하세요! [MongoDB]
MongoDB Charts로 데이터 사파리를 시작하세요! [MongoDB]MongoDB Charts로 데이터 사파리를 시작하세요! [MongoDB]
MongoDB Charts로 데이터 사파리를 시작하세요! [MongoDB]
 
SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)
SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)
SAYAHAE - 상품평 분석 및 추천 서비스 (자연어 처리)
 
Linked Open Data
Linked Open DataLinked Open Data
Linked Open Data
 
이벤트: 마이크로서비스 도입, 이렇게 한다
이벤트: 마이크로서비스 도입, 이렇게 한다이벤트: 마이크로서비스 도입, 이렇게 한다
이벤트: 마이크로서비스 도입, 이렇게 한다
 
[오픈소스컨설팅]엔터프라이즈 오픈소스 도입전략
[오픈소스컨설팅]엔터프라이즈 오픈소스 도입전략[오픈소스컨설팅]엔터프라이즈 오픈소스 도입전략
[오픈소스컨설팅]엔터프라이즈 오픈소스 도입전략
 
20170701 microsoft 오픈소스의 종류와 활용법
20170701 microsoft 오픈소스의 종류와 활용법20170701 microsoft 오픈소스의 종류와 활용법
20170701 microsoft 오픈소스의 종류와 활용법
 
개발사는 모르는 퍼블리셔의 뒷 이야기
개발사는 모르는 퍼블리셔의 뒷 이야기개발사는 모르는 퍼블리셔의 뒷 이야기
개발사는 모르는 퍼블리셔의 뒷 이야기
 
2014 공개소프트웨어 대회 소프트웨어 개발 트렌드의 변화
2014 공개소프트웨어 대회 소프트웨어 개발 트렌드의 변화2014 공개소프트웨어 대회 소프트웨어 개발 트렌드의 변화
2014 공개소프트웨어 대회 소프트웨어 개발 트렌드의 변화
 
Podium - Private SNS for developer
Podium - Private SNS for developerPodium - Private SNS for developer
Podium - Private SNS for developer
 
[DEVIEW 2021] 1000만 글로벌 유저를 지탱하는 기술과 사람들
[DEVIEW 2021] 1000만 글로벌 유저를 지탱하는 기술과 사람들[DEVIEW 2021] 1000만 글로벌 유저를 지탱하는 기술과 사람들
[DEVIEW 2021] 1000만 글로벌 유저를 지탱하는 기술과 사람들
 
게임 서비스 품질 향상을 위한 데이터 분석 활용하기 - 김필중 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming
게임 서비스 품질 향상을 위한 데이터 분석 활용하기 - 김필중 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming게임 서비스 품질 향상을 위한 데이터 분석 활용하기 - 김필중 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming
게임 서비스 품질 향상을 위한 데이터 분석 활용하기 - 김필중 솔루션즈 아키텍트:: AWS Cloud Track 3 Gaming
 

[NDC2017] 뜻밖의 텍스트마이닝

  • 1. 네오플 데이터분석팀 김대영 emotionalcode@gmail.com 유저동향분석에서 인게임데이터까지 뜻밖의 시리즈텍스트마이닝
  • 3. 뜻밖의 퇴근 이미지출처 - http://www.slrclub.com/bbs/vx2.php?id=free&no=34959092
  • 4. 뜻밖의 재능발견 이미지출처 - http://www.slrclub.com/bbs/vx2.php?id=free&no=34959092
  • 6. 이야기 흐름 일어날기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝
  • 7. 발표자 소개 통계학, 언어학, 수학 전문가가 아닙니다. 자연언어처리 분야의 개발을 해 본 경험이 없습니다. 머신러닝을 다뤄본 적이 없습니다.
  • 8. 이야기 흐름 일어날기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝
  • 9. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 유저동향파악을 보다 객관적으로 C................….. ………………... A................….. ………………... C................….. ………………... B................….. ………………... C................….. ………………... C................….. ………………... 하루 2만여개의 글A라는 업데이트가 화제야 B이야기로 난리났네!
  • 10. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 아이디어의 실현 – Wordcloud 시각화 이미지출처 - http://www.codefry.com/?q=node/104
  • 11. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 단어 추출 워드카운팅 Wordcloud 아이디어의 실현 – Wordcloud 시각화
  • 12. 일어날기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝
  • 13. 아이템 직거래 시세를 추출해냅니다. 레이드 BUS 시세 * 2를 파악합니다. 육성 캐릭터를 텍스트분석을 통해,선택합니다. 상승키워드 알림을 받고, 연관키워드를 통해 동향을 파악합니다. 할 단어 추출N LP 워드카운팅 Wordcloud 아이디어의 실현 – Wordcloud 시각화 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝
  • 14. 워드카운팅 Wordcloud 아이디어의 실현 – Wordcloud 시각화 HanNanum (http://semanticweb.kaist.ac.kr/home /index.php/HanNanum) 단어 추출NLP 아이템 직거래 시세를 추출해냅니다. 레이드 BUS 시세 * 2를 파악합니다. 육성 캐릭터를 텍스트분석을 통해,선택 상승키워드 알림을 받고, 연관키워드를 통해 동향을 파악합니다. 할 합니다. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝
  • 15. 아이템 직거래 시세 추출 레이드 BUS 시세 * 2 육성 캐릭터 텍스트분석 선택 상승키워드 알림 연관키워드 동향 워드카운팅 Wordcloud 아이디어의 실현 – Wordcloud 시각화 HanNanum (http://semanticweb.kaist.ac.kr/home /index.php/HanNanum) 단어 추출NLP 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝
  • 16. 시세 * 2아이템 직거래 시세 추출 레이드 BUS 육성 캐릭터 텍스트분석 선택 상승 알림 연관키워드 동향 워드카운팅 Wordcloud 아이디어의 실현 – Wordcloud 시각화 HanNanum (http://semanticweb.kaist.ac.kr/home /index.php/HanNanum) 단어 추출NLP 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝
  • 17. 아이템 직거래 시세 추출 레이드 BUS 육성캐릭터 텍스트 분석 선택 상승 알림 연관 키워드 동향 워드카운팅 Wordcloud 아이디어의 실현 – Wordcloud 시각화 Tagxedo (http://www.tagxedo.com/) HanNanum (http://semanticweb.kaist.ac.kr/home /index.php/HanNanum) 단어 추출NLP 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝
  • 18. 아이템 직거래 시세 추출 레이드 BUS 육성캐릭터 텍스트 분석 선택 상승 알림 연관 키워드 동향 워드카운팅 Wordcloud 아이디어의 실현 – Wordcloud 시각화 Tagxedo (http://www.tagxedo.com/) HanNanum (http://semanticweb.kaist.ac.kr/home /index.php/HanNanum) 단어 추출NLP 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝
  • 19. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 텍스트데이터의 시각화 워드카운팅 Wordcloud Tagxedo (http://www.tagxedo.com/) HanNanum (http://semanticweb.kaist.ac.kr/home /index.php/HanNanum) 단어 추출NLP
  • 20. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 텍스트데이터의 시각화 워드카운팅 Wordcloud Tagxedo (http://www.tagxedo.com/) 오늘자 데이터로도 또 만들어주세요 지난주말 이후 현재까지 데이터로 만들어주세요 이번 업데이트 이후 데이터로 만들어주세요 이미지출처 - http://blog.naver.com/jisun22ing/220506931005 HanNanum (http://semanticweb.kaist.ac.kr/home /index.php/HanNanum) 단어 추출NLP
  • 21. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 텍스트데이터의 시각화 오늘자 데이터로도 또 만들어주세요 지난주말 이후 현재까지 데이터로 만들어주세요 이번 업데이트 이후 데이터로 만들어주세요 이미지출처 - http://blog.naver.com/jisun22ing/220506931005 워드카운팅 Wordcloud Tagxedo (http://www.tagxedo.com/) HanNanum (http://semanticweb.kaist.ac.kr/home /index.php/HanNanum) 단어 추출NLP
  • 22. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 무려 시스템 구축! 오늘자 데이터로도 또 만들어주세요 지난주말 이후 현재까지 데이터로 만들어주세요 이번 업데이트 이후 데이터로 만들어주세요
  • 23. 일어날기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝
  • 24. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 Voice Of Customer
  • 25. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 <<external system>> community sites Crawler WindowsService [Every 3 minutes][Every 3 minutes] Redis crawl history Redis crawl history Read from and writes data to [REDIS, local] Get data from [HTTP] Voice Of Customer
  • 26. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 <<external system>> community sites Crawler WindowsService [Every 3 minutes][Every 3 minutes] Redis crawl history Redis crawl history Read from and writes data to [REDIS, local] Get data from [HTTP] API ASP.NET Web API Write data to [HTTP] MQ Push message Voice Of Customer
  • 27. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 Pop message NLP WindowsService Write 'word relation' data to [REDIS, port 0000] Write 'word count' data to [SQL, port 0000] MSSQL Article, ArticleComment, WordFrequency MSSQL Article, ArticleComment, WordFrequency Redis WordNetwork Redis WordNetwork <<external system>> community sites Crawler WindowsService [Every 3 minutes][Every 3 minutes] Redis crawl history Redis crawl history Read from and writes data to [REDIS, local] Get data from [HTTP] API ASP.NET Web API Write data to [HTTP] MQ Push message Voice Of Customer
  • 28. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 Pop message NLP WindowsService Write 'word relation' data to [REDIS, port 0000] Write 'word count' data to [SQL, port 0000] MSSQL Article, ArticleComment, WordFrequency MSSQL Article, ArticleComment, WordFrequency Redis WordNetwork Redis WordNetwork <<external system>> community sites Crawler WindowsService [Every 3 minutes][Every 3 minutes] Redis crawl history Redis crawl history Read from and writes data to [REDIS, local] Get data from [HTTP] API ASP.NET Web API Write data to [HTTP] MQ Push message Get data from [HTTP]Web Site AngularJS Web App Read data to [MSSQL, 0000] Read data to [REDIS, port 0000] [HTTP] User Voice Of Customer
  • 29. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 Pop message NLP WindowsService Write 'word relation' data to [REDIS, port 0000] Write 'word count' data to [SQL, port 0000] MSSQL Article, ArticleComment, WordFrequency MSSQL Article, ArticleComment, WordFrequency Redis WordNetwork Redis WordNetwork <<external system>> community sites Crawler WindowsService [Every 3 minutes][Every 3 minutes] Redis crawl history Redis crawl history Read from and writes data to [REDIS, local] Get data from [HTTP] API ASP.NET Web API Write data to [HTTP] MQ Push message Get data from [HTTP]Web Site AngularJS Web App Read data to [MSSQL, 0000] Read data to [REDIS, port 0000] [HTTP] User VOC system boundary Voice Of Customer - What are The high-level technology decisions? - How do containers communicate with one another? - As a developer, where do I need write code?
  • 30. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 Voice Of Customer
  • 31. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 Voice Of Customer
  • 32. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 Voice Of C 확대적용– 사이퍼즈地下城与勇士DFOアラド戦記던파혼
  • 33. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 Crawle NLP Voice Of C 확대적용 – 사이퍼즈地下城与勇士DFOアラド戦記한중일영 BuzzCrawler (https://github.com/emotionalcode/buzz- crawler) Abot (https://github.com/sjdirect/abot) HanNanum (http://semanticweb.kaist.ac.kr/home /index.php/HanNanum) twitter-korean-text (https://github.com/twitter/twitter-korean-text/) MeCab (http://taku910.github.io/mecab/) StanfordNLP (https://nlp.stanford.edu)
  • 34. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 Wordcloud 의 한계 - 스토리텔링
  • 35. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 Wordcloud 의 한계 - 스토리텔링 스토리들이 모두 파편화됨 맥락을 읽기 힘듬
  • 36. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 스토리텔링 보완 - 단어 네트워크
  • 37. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 스토리텔링 보완 - 단어 네트워크
  • 38. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 스토리텔링 보완 – 연관 키워드 클라우드
  • 39. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 스토리텔링 보완 - 연관 키워드 클라우드
  • 40. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 변화에 대한 관심
  • 41. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 변화에 대한 관심 – 빈도차트
  • 42. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 변화에 대한 관심 – 키워드 트렌드
  • 43. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 변화에 대한 관심 – 키워드 트렌드
  • 44. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 변화에 대한 관심 – 키워드 트렌드
  • 45. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 변화에 대한 관심 – 상승키워드
  • 46. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 변화에 대한 관심 – 상승키워드
  • 47. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 변화에 대한 관심 – 상승키워드
  • 48. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 변화에 대한 관심 – 상승키워드
  • 49. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 상승키워드 알고리즘 개선 지난주 목요일 상승키워드 “업데이트”, “패치”, “점검” 이번주 목요일 상승키워드 “업데이트”, “패치”, “점검”
  • 50. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 현재 500위 이내의 키워드 중, 전주 출현빈도 평균대비 100% 이상 상승한 키워드 지난주 목요일 상승키워드 “업데이트”, “패치”, “점검” 이번주 목요일 상승키워드 “업데이트”, “패치”, “점검” 상승키워드 알고리즘 개선
  • 51. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 지금 많이 언급되는 단어 이면서, 평소와는 다르게 유독 지금 많이 언급되는 단어 상승키워드 알고리즘 개선
  • 52. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 상승키워드 알고리즘 개선 지금 많이 언급되는 단어 이면서, 평소와는 다르게 유독 지금 많이 언급되는 단어 L og(24시간내 출현 문서 수) * L og(최근30일간 게시글 수 / 최근30일내 출현 문서 수)
  • 53. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 상승키워드 알고리즘 개선 Log(24시간내 출현 문서 수) * Log(최근30일간 게시글 수 / 최근30일내 출현 문서 수) 지금 많이 언급되는 단어 이면서, 평소와는 다르게 유독 지금 많이 언급되는 단어
  • 54. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 상승키워드 알고리즘 개선 경주 지진발생 2016.9.12 19:44
  • 55. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 상승키워드 알고리즘 개선 경주 지진발생 2016.9.12 19:44
  • 56. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 상승키워드 알고리즘 개선 경주 지진발생 2016.9.12 19:44 개선된 알고리즘 - 2016.9.12 19:58
  • 57. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 상승키워드 알고리즘 개선 경주 지진발생 2016.9.12 19:44 개선된 알고리즘 - 2016.9.12 19:58 이전 알고리즘 - 2016.9.12 20:17
  • 58. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 다른 텍스트 분석 의뢰들 설문조사, 신청접수사연, 유저의견, 리포트, …
  • 59. 일어날기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝
  • 60. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 Habituation
  • 61. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 Habituation * 10 times
  • 62. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 Habituation * 100 times
  • 63. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 하트비트 메가폰 OBSERVE FIRST DESIGN SECOND
  • 64. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 하트비트 메가폰 짧다. 아이템 링크가 있다. 대부분 거래 글 - 무엇을 얼마에 거래. - 레이드 BUS(쩔) 손님 구함. - 파티/길드 모집. - 득템 채널추천…
  • 65. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 메가폰 텍스트분류 RuleBase 로직의 한계 Logical Flow를 명시적으로 작성하기 어려울때 => 머신러닝
  • 66. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 텍스트분류 - SupportVectorMachine
  • 67. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 텍스트분류 - SupportVectorMachine
  • 68. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 텍스트분류 - SupportVectorMachine
  • 69. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 텍스트분류 - SupportVectorMachine
  • 70. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 텍스트분류 - SupportVectorMachine Widest Street Approach
  • 71. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 하트비트 메가폰 – 학습데이터 “ 더 많은 데이터가 더 좋은 알고리즘을 이긴다 ” More data usually beats better algorithms 아난드 라자라만 『The Mining of Massive Datasets』 의 저자 http://anand.typepad.com/datawocky/2008/03/more-data-usual.html 이미지출처 - https://natarajank.com/2012/12/12/famous-indians-in-silicon-valley/
  • 72. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 하트비트 메가폰 – 학습데이터 학습데이터 생성 강제화
  • 73. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 하트비트 메가폰 – 학습데이터 학습데이터 생성 강제화
  • 74. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 하트비트 메가폰 – 학습데이터 학습데이터 추가 기능 보강
  • 75. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 하트비트 메가폰 – 텍스트분류 결과
  • 76. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 하트비트 메가폰 – 분류된 글에서 추출 아이템별 거래 호가 / 레이드BUS비 시세
  • 77. 일어날 기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝 하트비트 메가폰 – 분류된 글에서 추출 “득템염원” 으로 분류된 키워드
  • 78. 이야기 흐름 일어날기 : 사내 게시판의 한 아이디어 이을 승 : 텍스트데이터의 시각화 바꿀 전 : VOC시스템 개발 맺을 결 : 인게임데이터 마이닝
  • 79. 이야기를 마치며 데이터시각화 프로그래밍 수학, 통계학 머신러닝 도메인지식 재밌을 것 같아서 시작해 본 것인데, 돌이켜보니 Data Scientist Profile
  • 80. 이야기를 마치며 – 텍스트 데이터 나에게, 텍스트 데이터란, 이다. 인용 – https://www.ted.com/talks/david_mccandless_the_beauty_of_data_visualization
  • 81. 이야기를 마치며 – 텍스트 데이터 전문가들의 정성적 자료를 뒷받침 해 주는 정량적 데이터가 될 수 있다. 혹은, 오히려 더 좋은 결과를 도출할 수도 있다. 나에게, 텍스트 데이터란, 이다.포텐 가득한 토양 인용 – https://www.ted.com/talks/david_mccandless_the_beauty_of_data_visualization
  • 82. 이야기를 마치며 – 실천법 거창한 기술과 시스템을 도입하는 것 보다, 실용성을 고려 더 나은 알고리즘보다, 꾸준하고 근면한 (메타)데이터생성을 먼저 생각