Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
어떻게 해야 기계에게 글을 잘 읽고
말할 수 있게 할까?
강원대학교 자연어처리 연구실
이현구
E-mail : nlphglee@kangwon.ac.kr
Homepage : http://nlp.kangwon.ac.kr
발표에서 다룰 내용
• Machine Reading Comprehension
– 어떻게 글을 기계가 잘 이해하도록 표현할까?
– 어떻게 해야 잘 읽을 수 있을까?
– 정답은 어떻게 해야 더 잘 찾아낼 수 있을까?
2
연구의 계기
• 질의응답을 함께 할 수 있는 챗봇
3
저기… 물어보고 싶은 것이 있어
그것이 무엇인가요?
미국의 대통령 이름이 뭐야?
도널드 트럼프입니다.
연구의 계기
• 기계가 질의응답을 하는 방법
4
연구의 계기
• 기계가 질의응답을 하는 방법
– 지식 베이스
• 정형화 데이터가 필요함
5
연구의 계기
• 기계가 질의응답을 하는 방법
– 지식 베이스
• 정형화 데이터가 필요함
– 학습을 통한 암기
• 암기 데이터를 제외하면 대답을 못함
6
연구의 계기
• 기계가 질의응답을 하는 방법
– 지식 베이스
• 정형화 데이터가 필요함
– 학습을 통한 암기
• 암기 데이터를 제외하면 대답을 못함
– 읽기 & 추출
• 소스 데이터에 나타나는 정확한 위치를 찾아내야 함...
연구의 계기
• 기계가 질의응답을 하는 방법
– 지식 베이스
• 정형화 데이터가 필요함
– 학습을 통한 암기
• 암기 데이터를 제외하면 대답을 못함
– 읽기 & 추출
• 소스 데이터에 나타나는 정확한 위치를 찾아내야 함...
하고 싶은 것
9
대한민국(大韓民國, 영어: Republic of Korea; ROK, 문화어: 남
조선; 南朝鮮), 약칭으로 한국(韓國), 남한(南韓)은 동아시아의
한반도 남부에 있는 공화국이다. 서쪽으로는 서해를 사...
하고 싶은 것
10
대한민국(大韓民國, 영어: Republic of Korea; ROK, 문화어: 남
조선; 南朝鮮), 약칭으로 한국(韓國), 남한(南韓)은 동아시아의
한반도 남부에 있는 공화국이다. 서쪽으로는 서해를 ...
하고 싶은 것
11
대한민국(大韓民國, 영어: Republic of Korea; ROK, 문화어: 남
조선; 南朝鮮), 약칭으로 한국(韓國), 남한(南韓)은 동아시아의
한반도 남부에 있는 공화국이다. 서쪽으로는 서해를 ...
읽기 & 추출
• WikiReading (Hewlett et al., 2016)
12
읽기 & 추출
• 질문 데이터가 필요한데…
13
14
그러다 발견
Machine Reading Comprehension
• 훌륭한 데이터(문장 형태의 답은 아니지만…)
– Stanford Question Answering Dataset(SQuAD)
• 각종 기술의 집결체
– Atten...
Machine Reading Comprehension
• 기계가 글과 질문을 읽고
16
Machine Reading Comprehension
• 기계가 글과 질문을 읽고
• 추론을 하여
17
Machine Reading Comprehension
• 기계가 글과 질문을 읽고
• 추론을 하여
• 글에서 정답을 찾아주는 것
18
Machine Reading Comprehension
19
Machine Reading Comprehension
• Bi-Directional Attention Flow (Seo et al., 2017)
20
모델들의 공통적인 구조
• Encoder
– 질의와 문맥을 벡터로 표현
• Co-attention
– 상호 Attention을 통해 문맥과 질의 간의 관계 파악
• Output
– 질문에 해당하는 정답 단어의 시작과 끝...
성능 향상의 방법
22
Encoder
좀 더 잘 표현
성능 향상의 방법
23
Encoder
좀 더 잘 표현
Co-Attention
질문을 정확히
이해
성능 향상의 방법
24
Encoder
좀 더 잘 표현
Co-Attention
질문을 정확히
이해
Output
정확한 경계
를 찾기
Encoder
• Word-level Embedding
• Character-level Embedding
• Contextual Embedding
• Feature
25
Word-level Embedding
• 단어를 기계가 알아들을 수 있는 숫자로 표현
• One-hot representation
26
One-hot representation
27
유사한 단어를 인식할 수 없음
Word2Vec
• CBOW
• Skip-gram
28
Word2Vec
• 비슷한 단어는 가까운 벡터 공간에 사상
29
Advanced Word-level Embedding
• GloVe
– 문서 전체의 동시 등장 확률을 함께 학습
• fastText
– 부분 단어(subword)로 학습하여 노이즈에 강함
30
결국 무엇을 써야하나?
• 많은 논문들은 GloVe 사용
• 개인적인 실험
– GloVe ≈ fastText
• 결국은 GloVe
– 공개된 데이터의 단어 커버리지가 높음
• GloVe : 2,196,017개
• fas...
Character-level Embedding
• RNN vs CNN
32
a p p l e
RNN
a p p l e
pooling
CNN
Character-level Embedding
• 성능
– RNN ≈ CNN
• 속도
– RNN < CNN
• RNN은 병렬화가 어려움
33
Contextual Embedding
• CoVe (McCann et al., 2017)
– MT-LSTM을 통한 사전학습
• ELMo (Peters et al., 2018)
– Language Model을 통한 사전학...
얼마나 좋길래?
• 성능이 매우 향상됨
35
Feature
• 어휘 정보 외 추가적인 정보
– Linguistic feature
• POS, Named Entity, Dependency Label…
– Term frequency
– Co-occurrence
• C...
왜 써야하나?
• 사람이 직접 문제를 풀 때를 생각
– 품사를 보고 정답 위치를 유추
• 조사의 경우 앞 혹은 뒤쪽에 정보가 나타남
• 어미의 경우 문장의 끝을 나타냄을 알 수 있음
• 고유명사, 영어, 수사, 숫자 등...
자질이 도움이 되는 예
38
… Newton was sacked by DeMarcus Ware as time
expired in the half.
Who was sacked as the first half clock e...
그런데….
39
문제가 생기는 경우
• 단순히 자질 벡터를 사용하면?
– 자질 간 간섭 문제 발생
• 개체명은 맞다고 생각하는데 의존 구문은 아니라고 판단
• 복잡도가 상승되어 성능 하락 가능성 발생
– 성능 향상에 도움되는 자질을 선...
어떻게 해결할까?
• 여러분은 어떤 문제를 해결할 때 주어진 정보가
필요 없다고 판단하면 어떻게 하시나요?
41
어떻게 해결할까?
• 여러분은 어떤 문제를 해결할 때 주어진 정보가
필요 없다고 판단하면 어떻게 하시나요?
• 중요하지 않다고 생각
42
어떻게 해결할까?
• 여러분은 어떤 문제를 해결할 때 주어진 정보가
필요 없다고 판단하면 어떻게 하시나요?
• 중요하지 않다고 생각
• 새로운 중요한 정보를 찾음
43
어떻게 해결할까?
• 여러분은 어떤 문제를 해결할 때 주어진 정보가
필요 없다고 판단하면 어떻게 하시나요?
• 중요하지 않다고 생각
• 새로운 중요한 정보를 찾음
• 기계도 똑같게 정보의 중요도를 판단하게 해주
면 됨!...
Encoding
• 문맥이 반영되도록 모델링
– Bi-RNN
– Transformer (Vaswani et al., 2017)
45
Word Embedding
Character Embedding
ELMo Vector
F...
Co-Attention
• Attention mechanism
46
…
Attention mechanism
47
Donald John Trump is the 45th and current President of the USA.
Who leads the United States?Q
C
Attention mechanism
48
Donald John Trump is the 45th and current President of the USA.
Who leads the United States?Q
C
Attention mechanism
49
Donald John Trump is the 45th and current President of the USA.
Who leads the United States?Q
C
Attention mechanism
50
Donald John Trump is the 45th and current President of the USA.
Who leads the United States?Q
C
Co-Attention
• Bi-directional Attention
• Fully-aware Attention
• Self Attention
51
Bi-directional Attention
52
• Bi-Directional Attention Flow (Seo et al., 2017)
Bi-directional Attention
53
Donald John Trump is the 45th and current President of the USA.
Who leads the United States?Q
C
Bi-directional Attention
54
Donald John Trump is the 45th and current President of the USA.
Who leads the United States?Q
C
Fully-aware Attention
• 모델이 깊어질 수록 고차원의 추상화
55
Fully-aware Attention
• FusionNet (Huang et al., 2017)
56
Self Attention
• R-Net (Wang et al., 2017)
– 자기 자신과 Attention
– 기존 Attention은 서로 다른 문장 간의 관계
– Self Attention은 같은 문장 내에 단어...
Self Attention
58
Self Attention
• 사용할 때 주의할 점
– 같은 문장을 집중
– 동일한 단어에 가중치를 주는 대각행렬 모양의 결과
59
철수 는 영희 를
철수
는
영희
를
Self Attention
• 동일한 단어의 위치를 무시
60
철수 는 영희 를
철수
는
영희
를
Output
• 정답이 나타나는 곳의 위치를 찍어주기
61
Donald John Trump is the 45th and current President of the USA.
Who leads the United Stat...
Output
• 정답이 나타나는 곳의 위치를 찍어주기
62
Donald John Trump is the 45th and current President of the USA.
Who leads the United Stat...
어떻게 찍을까?
• Start, End의 확률 분포를 통해 계산
63
어떻게 찍을까?
• Pointer Networks 통해 계산
64
여기서도 자질이 도움이 될까?
• 마피아 게임
65
1
2
34
5
정황을 봐서
는 3번이 마피
아 같은데?
여기서도 자질이 도움이 될까?
• 마피아 게임
66
1
2
34
5
3번이 말을 더
듬고 동공이
흔들렸어!
확인해보자
67
… Newton was sacked by DeMarcus Ware as time
expired in the half.
Who was sacked as the first half clock expired?...
확인해보자
68
… Newton was sacked by DeMarcus Ware as time
expired in the half.
Who was sacked as the first half clock expired?...
확인해보자
69
… Newton was sacked by DeMarcus Ware as time
expired in the half.
Who was sacked as the first half clock expired?...
학습 방법
• Negative log probability
• REINFORCE algorithm (Williams 1992)
70
강화학습을 쓰면?
• 적은 학습 데이터에서 효율
– 한국어 20,000개 데이터
• 데이터가 많으면?
– 성능은 비슷하나 학습 속도 차이가 심함
• 예측 후 학습해야 함
71
Model Exact Match F1-Sco...
어디까지 왔나?
• 사람과 유사, 혹은 더욱 잘하게 됨
72
말은 어떻게 할까?
• 가장 쉬운 접근법
– Output layer를 생성 모델로 변경
73
하지만 데이터가 없는데…
• 다른 방식을 선택
– Zero-shot learning
• Zero-Shot Relation Extraction via Reading Comprehension
(Omer et al., 201...
나아가야 할 길
• 문맥에 질문에 대한 내용이 없을 때
– SQuAD v2.0
• 자연어 문장 생성
– 단어가 아닌 자연스러운 문장
• 적은 데이터로도 확실하게
• 도메인에 종속적이지 않도록
75
자비스를 꿈꾸며
76
Q&A
77
You’ve finished this document.
Download and read it offline.
Upcoming SlideShare
What to Upload to SlideShare
Next

of

어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 1 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 2 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 3 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 4 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 5 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 6 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 7 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 8 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 9 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 10 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 11 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 12 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 13 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 14 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 15 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 16 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 17 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 18 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 19 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 20 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 21 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 22 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 23 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 24 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 25 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 26 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 27 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 28 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 29 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 30 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 31 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 32 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 33 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 34 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 35 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 36 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 37 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 38 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 39 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 40 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 41 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 42 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 43 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 44 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 45 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 46 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 47 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 48 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 49 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 50 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 51 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 52 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 53 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 54 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 55 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 56 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 57 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 58 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 59 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 60 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 61 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 62 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 63 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 64 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 65 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 66 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 67 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 68 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 69 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 70 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 71 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 72 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 73 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 74 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 75 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 76 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? Slide 77

YouTube videos are no longer supported on SlideShare

View original on YouTube

Upcoming SlideShare
What to Upload to SlideShare
Next
Download to read offline and view in fullscreen.

Share

어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까?

Download to read offline

SQuAD가 공개되고 널리 알려지면서 기계독해(Machine Reading Comprehension)가 각광받기 시작했습니다. SQuAD란 스탠포드대에서 만든, 기계가 주어진 문서를 읽고 그와 관련된 질문을 할 경우 정답을 찾아 답해주는 시스템을 위한 데이터셋을 뜻합니다. 이러한 기계독해가 어떻게 작동하는지, 어떻게 접근해야 이해를 돕게 할 수 있고 어떻게 해야 대답을 잘 할 수 있게 하는지에 대한 경험에 대해 이야기해 보고자 합니다.

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까?

  1. 1. 어떻게 해야 기계에게 글을 잘 읽고 말할 수 있게 할까? 강원대학교 자연어처리 연구실 이현구 E-mail : nlphglee@kangwon.ac.kr Homepage : http://nlp.kangwon.ac.kr
  2. 2. 발표에서 다룰 내용 • Machine Reading Comprehension – 어떻게 글을 기계가 잘 이해하도록 표현할까? – 어떻게 해야 잘 읽을 수 있을까? – 정답은 어떻게 해야 더 잘 찾아낼 수 있을까? 2
  3. 3. 연구의 계기 • 질의응답을 함께 할 수 있는 챗봇 3 저기… 물어보고 싶은 것이 있어 그것이 무엇인가요? 미국의 대통령 이름이 뭐야? 도널드 트럼프입니다.
  4. 4. 연구의 계기 • 기계가 질의응답을 하는 방법 4
  5. 5. 연구의 계기 • 기계가 질의응답을 하는 방법 – 지식 베이스 • 정형화 데이터가 필요함 5
  6. 6. 연구의 계기 • 기계가 질의응답을 하는 방법 – 지식 베이스 • 정형화 데이터가 필요함 – 학습을 통한 암기 • 암기 데이터를 제외하면 대답을 못함 6
  7. 7. 연구의 계기 • 기계가 질의응답을 하는 방법 – 지식 베이스 • 정형화 데이터가 필요함 – 학습을 통한 암기 • 암기 데이터를 제외하면 대답을 못함 – 읽기 & 추출 • 소스 데이터에 나타나는 정확한 위치를 찾아내야 함 7
  8. 8. 연구의 계기 • 기계가 질의응답을 하는 방법 – 지식 베이스 • 정형화 데이터가 필요함 – 학습을 통한 암기 • 암기 데이터를 제외하면 대답을 못함 – 읽기 & 추출 • 소스 데이터에 나타나는 정확한 위치를 찾아내야 함 8
  9. 9. 하고 싶은 것 9 대한민국(大韓民國, 영어: Republic of Korea; ROK, 문화어: 남 조선; 南朝鮮), 약칭으로 한국(韓國), 남한(南韓)은 동아시아의 한반도 남부에 있는 공화국이다. 서쪽으로는 서해를 사이에 두고 중화인민공화국이, 동쪽으로는 동해를 사이에 두고 일본 이 있으며 북쪽으로는 조선민주주의인민공화국과 맞닿아 있 다. 수도는 서울특별시이며, 국기는 태극기, 국가는 애국가, 공 용어는 한국어이다. Q: 대한민국 서쪽에는 어느 나라가 있나?
  10. 10. 하고 싶은 것 10 대한민국(大韓民國, 영어: Republic of Korea; ROK, 문화어: 남 조선; 南朝鮮), 약칭으로 한국(韓國), 남한(南韓)은 동아시아의 한반도 남부에 있는 공화국이다. 서쪽으로는 서해를 사이에 두고 중화인민공화국이, 동쪽으로는 동해를 사이에 두고 일본 이 있으며 북쪽으로는 조선민주주의인민공화국과 맞닿아 있 다. 수도는 서울특별시이며, 국기는 태극기, 국가는 애국가, 공 용어는 한국어이다. Q: 대한민국 서쪽에는 어느 나라가 있나?
  11. 11. 하고 싶은 것 11 대한민국(大韓民國, 영어: Republic of Korea; ROK, 문화어: 남 조선; 南朝鮮), 약칭으로 한국(韓國), 남한(南韓)은 동아시아의 한반도 남부에 있는 공화국이다. 서쪽으로는 서해를 사이에 두고 중화인민공화국이, 동쪽으로는 동해를 사이에 두고 일본 이 있으며 북쪽으로는 조선민주주의인민공화국과 맞닿아 있 다. 수도는 서울특별시이며, 국기는 태극기, 국가는 애국가, 공 용어는 한국어이다. Q: 대한민국 서쪽에는 어느 나라가 있나? 서쪽에는 중화인민공화국이 있네요
  12. 12. 읽기 & 추출 • WikiReading (Hewlett et al., 2016) 12
  13. 13. 읽기 & 추출 • 질문 데이터가 필요한데… 13
  14. 14. 14 그러다 발견
  15. 15. Machine Reading Comprehension • 훌륭한 데이터(문장 형태의 답은 아니지만…) – Stanford Question Answering Dataset(SQuAD) • 각종 기술의 집결체 – Attention, Embedding 등… • 오픈소스까지!! 15
  16. 16. Machine Reading Comprehension • 기계가 글과 질문을 읽고 16
  17. 17. Machine Reading Comprehension • 기계가 글과 질문을 읽고 • 추론을 하여 17
  18. 18. Machine Reading Comprehension • 기계가 글과 질문을 읽고 • 추론을 하여 • 글에서 정답을 찾아주는 것 18
  19. 19. Machine Reading Comprehension 19
  20. 20. Machine Reading Comprehension • Bi-Directional Attention Flow (Seo et al., 2017) 20
  21. 21. 모델들의 공통적인 구조 • Encoder – 질의와 문맥을 벡터로 표현 • Co-attention – 상호 Attention을 통해 문맥과 질의 간의 관계 파악 • Output – 질문에 해당하는 정답 단어의 시작과 끝 위치 출력 21
  22. 22. 성능 향상의 방법 22 Encoder 좀 더 잘 표현
  23. 23. 성능 향상의 방법 23 Encoder 좀 더 잘 표현 Co-Attention 질문을 정확히 이해
  24. 24. 성능 향상의 방법 24 Encoder 좀 더 잘 표현 Co-Attention 질문을 정확히 이해 Output 정확한 경계 를 찾기
  25. 25. Encoder • Word-level Embedding • Character-level Embedding • Contextual Embedding • Feature 25
  26. 26. Word-level Embedding • 단어를 기계가 알아들을 수 있는 숫자로 표현 • One-hot representation 26
  27. 27. One-hot representation 27 유사한 단어를 인식할 수 없음
  28. 28. Word2Vec • CBOW • Skip-gram 28
  29. 29. Word2Vec • 비슷한 단어는 가까운 벡터 공간에 사상 29
  30. 30. Advanced Word-level Embedding • GloVe – 문서 전체의 동시 등장 확률을 함께 학습 • fastText – 부분 단어(subword)로 학습하여 노이즈에 강함 30
  31. 31. 결국 무엇을 써야하나? • 많은 논문들은 GloVe 사용 • 개인적인 실험 – GloVe ≈ fastText • 결국은 GloVe – 공개된 데이터의 단어 커버리지가 높음 • GloVe : 2,196,017개 • fastText : 1,000,000개 31
  32. 32. Character-level Embedding • RNN vs CNN 32 a p p l e RNN a p p l e pooling CNN
  33. 33. Character-level Embedding • 성능 – RNN ≈ CNN • 속도 – RNN < CNN • RNN은 병렬화가 어려움 33
  34. 34. Contextual Embedding • CoVe (McCann et al., 2017) – MT-LSTM을 통한 사전학습 • ELMo (Peters et al., 2018) – Language Model을 통한 사전학습 34 나 ?? 사과 가 정말 좋 아 Language Model이란?
  35. 35. 얼마나 좋길래? • 성능이 매우 향상됨 35
  36. 36. Feature • 어휘 정보 외 추가적인 정보 – Linguistic feature • POS, Named Entity, Dependency Label… – Term frequency – Co-occurrence • Context와 Question 모두에 나타나는가? – Soft alignment • GloVe 벡터 간의 내적 유사도 36
  37. 37. 왜 써야하나? • 사람이 직접 문제를 풀 때를 생각 – 품사를 보고 정답 위치를 유추 • 조사의 경우 앞 혹은 뒤쪽에 정보가 나타남 • 어미의 경우 문장의 끝을 나타냄을 알 수 있음 • 고유명사, 영어, 수사, 숫자 등은 정답과 직접적 관련이 있음 – 구문적인 구조를 생각해 정답 위치를 유추 – 질의 타입(예: Who, Where)과 개체명을 대입 37
  38. 38. 자질이 도움이 되는 예 38 … Newton was sacked by DeMarcus Ware as time expired in the half. Who was sacked as the first half clock expired?Question Context
  39. 39. 그런데…. 39
  40. 40. 문제가 생기는 경우 • 단순히 자질 벡터를 사용하면? – 자질 간 간섭 문제 발생 • 개체명은 맞다고 생각하는데 의존 구문은 아니라고 판단 • 복잡도가 상승되어 성능 하락 가능성 발생 – 성능 향상에 도움되는 자질을 선별 필요 • 실험을 통해 판단 해야함 • 인적 자원 및 컴퓨팅 자원 낭비 – 오류 전파 • 언어 분석이 잘못되면 오류가 전파됨 40
  41. 41. 어떻게 해결할까? • 여러분은 어떤 문제를 해결할 때 주어진 정보가 필요 없다고 판단하면 어떻게 하시나요? 41
  42. 42. 어떻게 해결할까? • 여러분은 어떤 문제를 해결할 때 주어진 정보가 필요 없다고 판단하면 어떻게 하시나요? • 중요하지 않다고 생각 42
  43. 43. 어떻게 해결할까? • 여러분은 어떤 문제를 해결할 때 주어진 정보가 필요 없다고 판단하면 어떻게 하시나요? • 중요하지 않다고 생각 • 새로운 중요한 정보를 찾음 43
  44. 44. 어떻게 해결할까? • 여러분은 어떤 문제를 해결할 때 주어진 정보가 필요 없다고 판단하면 어떻게 하시나요? • 중요하지 않다고 생각 • 새로운 중요한 정보를 찾음 • 기계도 똑같게 정보의 중요도를 판단하게 해주 면 됨!! 44
  45. 45. Encoding • 문맥이 반영되도록 모델링 – Bi-RNN – Transformer (Vaswani et al., 2017) 45 Word Embedding Character Embedding ELMo Vector Feature
  46. 46. Co-Attention • Attention mechanism 46 …
  47. 47. Attention mechanism 47 Donald John Trump is the 45th and current President of the USA. Who leads the United States?Q C
  48. 48. Attention mechanism 48 Donald John Trump is the 45th and current President of the USA. Who leads the United States?Q C
  49. 49. Attention mechanism 49 Donald John Trump is the 45th and current President of the USA. Who leads the United States?Q C
  50. 50. Attention mechanism 50 Donald John Trump is the 45th and current President of the USA. Who leads the United States?Q C
  51. 51. Co-Attention • Bi-directional Attention • Fully-aware Attention • Self Attention 51
  52. 52. Bi-directional Attention 52 • Bi-Directional Attention Flow (Seo et al., 2017)
  53. 53. Bi-directional Attention 53 Donald John Trump is the 45th and current President of the USA. Who leads the United States?Q C
  54. 54. Bi-directional Attention 54 Donald John Trump is the 45th and current President of the USA. Who leads the United States?Q C
  55. 55. Fully-aware Attention • 모델이 깊어질 수록 고차원의 추상화 55
  56. 56. Fully-aware Attention • FusionNet (Huang et al., 2017) 56
  57. 57. Self Attention • R-Net (Wang et al., 2017) – 자기 자신과 Attention – 기존 Attention은 서로 다른 문장 간의 관계 – Self Attention은 같은 문장 내에 단어들 간의 관계 57
  58. 58. Self Attention 58
  59. 59. Self Attention • 사용할 때 주의할 점 – 같은 문장을 집중 – 동일한 단어에 가중치를 주는 대각행렬 모양의 결과 59 철수 는 영희 를 철수 는 영희 를
  60. 60. Self Attention • 동일한 단어의 위치를 무시 60 철수 는 영희 를 철수 는 영희 를
  61. 61. Output • 정답이 나타나는 곳의 위치를 찍어주기 61 Donald John Trump is the 45th and current President of the USA. Who leads the United States?Q C
  62. 62. Output • 정답이 나타나는 곳의 위치를 찍어주기 62 Donald John Trump is the 45th and current President of the USA. Who leads the United States?Q C Start End
  63. 63. 어떻게 찍을까? • Start, End의 확률 분포를 통해 계산 63
  64. 64. 어떻게 찍을까? • Pointer Networks 통해 계산 64
  65. 65. 여기서도 자질이 도움이 될까? • 마피아 게임 65 1 2 34 5 정황을 봐서 는 3번이 마피 아 같은데?
  66. 66. 여기서도 자질이 도움이 될까? • 마피아 게임 66 1 2 34 5 3번이 말을 더 듬고 동공이 흔들렸어!
  67. 67. 확인해보자 67 … Newton was sacked by DeMarcus Ware as time expired in the half. Who was sacked as the first half clock expired?Question Context
  68. 68. 확인해보자 68 … Newton was sacked by DeMarcus Ware as time expired in the half. Who was sacked as the first half clock expired?Question Context
  69. 69. 확인해보자 69 … Newton was sacked by DeMarcus Ware as time expired in the half. Who was sacked as the first half clock expired?Question Context
  70. 70. 학습 방법 • Negative log probability • REINFORCE algorithm (Williams 1992) 70
  71. 71. 강화학습을 쓰면? • 적은 학습 데이터에서 효율 – 한국어 20,000개 데이터 • 데이터가 많으면? – 성능은 비슷하나 학습 속도 차이가 심함 • 예측 후 학습해야 함 71 Model Exact Match F1-Score without Reinforcement Learning 43.70 69.39 with Reinforcement Learning 45.66 72.90
  72. 72. 어디까지 왔나? • 사람과 유사, 혹은 더욱 잘하게 됨 72
  73. 73. 말은 어떻게 할까? • 가장 쉬운 접근법 – Output layer를 생성 모델로 변경 73
  74. 74. 하지만 데이터가 없는데… • 다른 방식을 선택 – Zero-shot learning • Zero-Shot Relation Extraction via Reading Comprehension (Omer et al., 2017) – Knowledge-Based Question Answering • Generating Natural Answers by Incorporating Copying and Retrieving Mechanisms in Sequence-to-Sequence Learning (He et al., 2017) • 지식 기반 채팅 시스템에서의 어휘 반복 문제 해결 (김시형, 김학수, 2018) 74
  75. 75. 나아가야 할 길 • 문맥에 질문에 대한 내용이 없을 때 – SQuAD v2.0 • 자연어 문장 생성 – 단어가 아닌 자연스러운 문장 • 적은 데이터로도 확실하게 • 도메인에 종속적이지 않도록 75
  76. 76. 자비스를 꿈꾸며 76
  77. 77. Q&A 77
  • choeungjin

    Mar. 16, 2021
  • ChihoonJung

    Feb. 12, 2020
  • ssuser8d8486

    Jan. 31, 2020
  • limeorange33

    Jan. 23, 2020
  • jaeminkim5437

    Jan. 15, 2020
  • limchan53

    Jan. 14, 2020
  • jeongjoonpark7

    Apr. 7, 2019
  • HYEONGNAMLEE

    Mar. 22, 2019
  • ssuser163469

    Jan. 24, 2019
  • daekyukim585

    Dec. 19, 2018
  • gsk1047

    Sep. 24, 2018
  • rosency1

    Sep. 6, 2018

SQuAD가 공개되고 널리 알려지면서 기계독해(Machine Reading Comprehension)가 각광받기 시작했습니다. SQuAD란 스탠포드대에서 만든, 기계가 주어진 문서를 읽고 그와 관련된 질문을 할 경우 정답을 찾아 답해주는 시스템을 위한 데이터셋을 뜻합니다. 이러한 기계독해가 어떻게 작동하는지, 어떻게 접근해야 이해를 돕게 할 수 있고 어떻게 해야 대답을 잘 할 수 있게 하는지에 대한 경험에 대해 이야기해 보고자 합니다.

Views

Total views

2,433

On Slideshare

0

From embeds

0

Number of embeds

13

Actions

Downloads

82

Shares

0

Comments

0

Likes

12

×