15. Word2Vec이란?
• 2013년 구글에서 발표한
자연어 처리 머신러닝
• Word를 100차원, 200차원
의 한정된 Vector로 효율적
으로 표현것입니다.
• 2003년 bengio를 NNLM
기반으로 만들어진
Language Model.
16. NNLM
2003년 Bengio 2013년 Mikolov (구글)
혁신
•Accuracy
Skip-gram
Continuous Bag Of Word
•Fast Training
Hierarchical Softmax
Nagative Sampling
Subsampling for frequent word
참고 논문 : Efficient Estimation of Word Representations inVector Space
word2vec
X2 X7
17. • 주어진 문서에서 단어 w가
Context(c)의 단어 결합확률이
최대가 되도록 단어 w의
vector값을 학습
• 예를들어 “파이콘은 세계 각국의 파이썬 프로그래밍 언어 커뮤니
티에서 주관하는 비영리 컨퍼런스입니다.”와 같은 파이콘2015
행사 개요 문서를 학습 할 경우
• “파이콘”과 “파이썬” 비슷한 vector값을 가지도록
즉, 이 처럼 단어의 순서가 근접하여 자주 출현할 수록 두단어의
vector값이 유사하도록 학습하는 것이 목적
NNLM
22. • '139분 상영동안 눈을 뗄수가 없을 만큼 흥미진진했어요. 6인6색
예고처럼 배우들 연기력도 좋았고 그 시대에 볼거리가 풍성해서 인
상적이었어요. 특히 염석진을 따라다니던 명우라는 배우의 엔딩씬
은 특별히 기억에 남네요. 대박의 조짐이 현실이되길 조심스럽게
기대해 봅니다. Good!'
• '대박이네 꼭바야' '일본 방송 출연 못해서 안달은 자들의 애국놀이
라... '
• '시사회 봤습니다. 이야기가 뒤로 갈수록 점점 더 흥미진진해 지네
여~ 특히 마지막 이정재의 연기는 정말 압권입니다!!! 이정재 연기
력에 진심 감탄^^'
• '배우 앙상블 언제나 좋고 소재와 캐릭터도 언제나 좋아요. 드라마
구성 완성도 까지...잘 봤습니다. '
• 'ㅋㅋ혹시 왜나라 연예계에 자리없을까 걱정하는 자들이 우리 광대
들인데 다른 영화(외화) 예매 다 막아놓고 해묵은 일베충 드립질하
면 다음에서 지지받는다 하든? 알바들아 답글 좀 써봐라... '
• '하반기 대박 영화.. 역사에 기반을둔 반전있는 탄탄한 스토리 대
한독립의 의미를 되새겨주는 영화 강추합니다'
• '전지현이여서, 가능한 영화였따 그치만 이정재 하정우 역시 멋있
다 ㅎㅎ 그리고 가슴이 아프다 우리네 역사가 .. 그 시절 독립운동이
란 우리에게 주는 의미가 되새겨 진다 긴 런닝타임 손에 땀을 쥐고
파이콘 행사개요 ‘암살’ 영화리뷰
다음
32. 100개
• '139분 상영동안 눈을 뗄수가 없을 만큼 흥미진진했어요. 6인6색 예고처럼
배우들 연기력도 좋았고 그 시대에 볼거리가 풍성해서 인상적이었어요. 특히
염석진을 따라다니던 명우라는 배우의 엔딩씬은 특별히 기억에 남네요. 대박
의 조짐이 현실이되길 조심스럽게 기대해 봅니다. Good!'
• '대박이네 꼭바야' '일본 방송 출연 못해서 안달은 자들의 애국놀이라... '
• '시사회 봤습니다. 이야기가 뒤로 갈수록 점점 더 흥미진진해 지네여~ 특히
마지막 이정재의 연기는 정말 압권입니다!!! 이정재 연기력에 진심 감탄^^'
• '배우 앙상블 언제나 좋고 소재와 캐릭터도 언제나 좋아요. 드라마 구성 완성
도 까지...잘 봤습니다. '
• 'ㅋㅋ혹시 왜나라 연예계에 자리없을까 걱정하는 자들이 우리 광대들인데 다
른 영화(외화) 예매 다 막아놓고 해묵은 일베충 드립질하면 다음에서 지지받
는다 하든? 알바들아 답글 좀 써봐라... '
• '하반기 대박 영화.. 역사에 기반을둔 반전있는 탄탄한 스토리 대한독립의
의미를 되새겨주는 영화 강추합니다'
• '전지현이여서, 가능한 영화였따 그치만 이정재 하정우 역시 멋있다 ㅎㅎ 그
리고 가슴이 아프다 우리네 역사가 .. 그 시절 독립운동이란 우리에게 주는
36. 100개
• '139분 상영동안 눈을 뗄수가 없을 만큼 흥미진진했어요. 6인6색 예고처럼
배우들 연기력도 좋았고 그 시대에 볼거리가 풍성해서 인상적이었어요. 특히
염석진을 따라다니던 명우라는 배우의 엔딩씬은 특별히 기억에 남네요. 대박
의 조짐이 현실이되길 조심스럽게 기대해 봅니다. Good!'
• '대박이네 꼭바야' '일본 방송 출연 못해서 안달은 자들의 애국놀이라... '
• '시사회 봤습니다. 이야기가 뒤로 갈수록 점점 더 흥미진진해 지네여~ 특히
마지막 이정재의 연기는 정말 압권입니다!!! 이정재 연기력에 진심 감탄^^'
• '배우 앙상블 언제나 좋고 소재와 캐릭터도 언제나 좋아요. 드라마 구성 완성
도 까지...잘 봤습니다. '
• 'ㅋㅋ혹시 왜나라 연예계에 자리없을까 걱정하는 자들이 우리 광대들인데 다
른 영화(외화) 예매 다 막아놓고 해묵은 일베충 드립질하면 다음에서 지지받
는다 하든? 알바들아 답글 좀 써봐라... '
• '하반기 대박 영화.. 역사에 기반을둔 반전있는 탄탄한 스토리 대한독립의
의미를 되새겨주는 영화 강추합니다'
• '전지현이여서, 가능한 영화였따 그치만 이정재 하정우 역시 멋있다 ㅎㅎ 그
리고 가슴이 아프다 우리네 역사가 .. 그 시절 독립운동이란 우리에게 주는
# Word2Vec으로 학습
model = Word2Vec(
corpus, # review 문장
size=3, # 3차원 Vector
min_count=3, # 3회이상 출현
window=10 # 10개 단어씩
)
56. 느낀점
사용이 심플하다.
10줄이면 코딩끝.
라벨링 되지 않은 데이터로
Supervised Learning
왜 이렇게 결과가 나오는지
명확한 해석이 어려움
(머신러닝 대표 특징)
의도적인 성능 향상을
위해서는 많은 삽질이 필요
사용의 편리성에 비해 엄청난
정확도를 보여 준다.
128. 측정
• 유사도 측정
!
!
• 유사도값의 신뢰하기 위해 교차평가한 영화가 일정 수 이상만
유사도 측정
• 유사도 측정의 대표적 함수
• Jaccard, Cosine , Euclidean, Correlation, …
유저 Movie1 Movie2 Movie3 Movie4 Movie5 Movie6 Movie7
ME 4 5 4.5 3.5
A 4.5 4 3 3.5 4
교차로 평가한 영화의 별점 정보로 유사도 측정
129. Jaccard : !
상품간의 교집의 크기 Euclidean Distance!
상품간의 거리
상품1
상품2
Jaccard,
151. 연산
입력값과 가장 유사한 유저와
TopN 결과를 리턴
최소 3개 이상의 같은 영화에
평점을 매긴 유저만 측정
유사도가 높은 순으로 Top N
모든 유저와 유사도를 측정
(Brute Force)
!
- Scalability 문제
- 성능 = ( n:유저수 )
- 유사할것 끼리 클러스터 묶
어서 클러스터 내에서만
Neighborhood 연산
- 성능 :
( c : 클러스터의 유저수 )
321. 영화 군집화 과정
영화를 중심 거리 기반으로
인접 영화끼리 군집화(K-Means)
군집화된 영화들의 Tag를 수집
Signs , My Big Fat Greek Wedding , Ice Age , Matrix
Reloaded, The , I, Robot , Terminator
3: Rise of the Machines , Men in Black II
(a.k.a. MIIB), A.I. , Ring, The ,
Star Wars: Episode II -
Attack of the Clones
sci-fi, artificial intelligence, robots, dystopia,
virtual reality
30
331. 추리면
sci-fi, artificial
intelligence, robots
, dystopia, virtual
reality
32
politics,
based on a true story,
India
Woody Harrelson
election
tense, thriller,
twist ending,
Edward Norton,
courtroom drama