SQuAD가 공개되고 널리 알려지면서 기계독해(Machine Reading Comprehension)가 각광받기 시작했습니다. SQuAD란 스탠포드대에서 만든, 기계가 주어진 문서를 읽고 그와 관련된 질문을 할 경우 정답을 찾아 답해주는 시스템을 위한 데이터셋을 뜻합니다. 이러한 기계독해가 어떻게 작동하는지, 어떻게 접근해야 이해를 돕게 할 수 있고 어떻게 해야 대답을 잘 할 수 있게 하는지에 대한 경험에 대해 이야기해 보고자 합니다.
5. 연구의 계기
• 기계가 질의응답을 하는 방법
– 지식 베이스
• 정형화 데이터가 필요함
5
6. 연구의 계기
• 기계가 질의응답을 하는 방법
– 지식 베이스
• 정형화 데이터가 필요함
– 학습을 통한 암기
• 암기 데이터를 제외하면 대답을 못함
6
7. 연구의 계기
• 기계가 질의응답을 하는 방법
– 지식 베이스
• 정형화 데이터가 필요함
– 학습을 통한 암기
• 암기 데이터를 제외하면 대답을 못함
– 읽기 & 추출
• 소스 데이터에 나타나는 정확한 위치를 찾아내야 함
7
8. 연구의 계기
• 기계가 질의응답을 하는 방법
– 지식 베이스
• 정형화 데이터가 필요함
– 학습을 통한 암기
• 암기 데이터를 제외하면 대답을 못함
– 읽기 & 추출
• 소스 데이터에 나타나는 정확한 위치를 찾아내야 함
8
9. 하고 싶은 것
9
대한민국(大韓民國, 영어: Republic of Korea; ROK, 문화어: 남
조선; 南朝鮮), 약칭으로 한국(韓國), 남한(南韓)은 동아시아의
한반도 남부에 있는 공화국이다. 서쪽으로는 서해를 사이에
두고 중화인민공화국이, 동쪽으로는 동해를 사이에 두고 일본
이 있으며 북쪽으로는 조선민주주의인민공화국과 맞닿아 있
다. 수도는 서울특별시이며, 국기는 태극기, 국가는 애국가, 공
용어는 한국어이다.
Q: 대한민국 서쪽에는 어느 나라가 있나?
10. 하고 싶은 것
10
대한민국(大韓民國, 영어: Republic of Korea; ROK, 문화어: 남
조선; 南朝鮮), 약칭으로 한국(韓國), 남한(南韓)은 동아시아의
한반도 남부에 있는 공화국이다. 서쪽으로는 서해를 사이에
두고 중화인민공화국이, 동쪽으로는 동해를 사이에 두고 일본
이 있으며 북쪽으로는 조선민주주의인민공화국과 맞닿아 있
다. 수도는 서울특별시이며, 국기는 태극기, 국가는 애국가, 공
용어는 한국어이다.
Q: 대한민국 서쪽에는 어느 나라가 있나?
11. 하고 싶은 것
11
대한민국(大韓民國, 영어: Republic of Korea; ROK, 문화어: 남
조선; 南朝鮮), 약칭으로 한국(韓國), 남한(南韓)은 동아시아의
한반도 남부에 있는 공화국이다. 서쪽으로는 서해를 사이에
두고 중화인민공화국이, 동쪽으로는 동해를 사이에 두고 일본
이 있으며 북쪽으로는 조선민주주의인민공화국과 맞닿아 있
다. 수도는 서울특별시이며, 국기는 태극기, 국가는 애국가, 공
용어는 한국어이다.
Q: 대한민국 서쪽에는 어느 나라가 있나?
서쪽에는 중화인민공화국이 있네요
34. Contextual Embedding
• CoVe (McCann et al., 2017)
– MT-LSTM을 통한 사전학습
• ELMo (Peters et al., 2018)
– Language Model을 통한 사전학습
34
나 ?? 사과 가 정말 좋 아
Language Model이란?
36. Feature
• 어휘 정보 외 추가적인 정보
– Linguistic feature
• POS, Named Entity, Dependency Label…
– Term frequency
– Co-occurrence
• Context와 Question 모두에 나타나는가?
– Soft alignment
• GloVe 벡터 간의 내적 유사도
36
37. 왜 써야하나?
• 사람이 직접 문제를 풀 때를 생각
– 품사를 보고 정답 위치를 유추
• 조사의 경우 앞 혹은 뒤쪽에 정보가 나타남
• 어미의 경우 문장의 끝을 나타냄을 알 수 있음
• 고유명사, 영어, 수사, 숫자 등은 정답과 직접적 관련이 있음
– 구문적인 구조를 생각해 정답 위치를 유추
– 질의 타입(예: Who, Where)과 개체명을 대입
37
38. 자질이 도움이 되는 예
38
… Newton was sacked by DeMarcus Ware as time
expired in the half.
Who was sacked as the first half clock expired?Question
Context
40. 문제가 생기는 경우
• 단순히 자질 벡터를 사용하면?
– 자질 간 간섭 문제 발생
• 개체명은 맞다고 생각하는데 의존 구문은 아니라고 판단
• 복잡도가 상승되어 성능 하락 가능성 발생
– 성능 향상에 도움되는 자질을 선별 필요
• 실험을 통해 판단 해야함
• 인적 자원 및 컴퓨팅 자원 낭비
– 오류 전파
• 언어 분석이 잘못되면 오류가 전파됨
40
65. 여기서도 자질이 도움이 될까?
• 마피아 게임
65
1
2
34
5
정황을 봐서
는 3번이 마피
아 같은데?
66. 여기서도 자질이 도움이 될까?
• 마피아 게임
66
1
2
34
5
3번이 말을 더
듬고 동공이
흔들렸어!
67. 확인해보자
67
… Newton was sacked by DeMarcus Ware as time
expired in the half.
Who was sacked as the first half clock expired?Question
Context
68. 확인해보자
68
… Newton was sacked by DeMarcus Ware as time
expired in the half.
Who was sacked as the first half clock expired?Question
Context
69. 확인해보자
69
… Newton was sacked by DeMarcus Ware as time
expired in the half.
Who was sacked as the first half clock expired?Question
Context
70. 학습 방법
• Negative log probability
• REINFORCE algorithm (Williams 1992)
70
71. 강화학습을 쓰면?
• 적은 학습 데이터에서 효율
– 한국어 20,000개 데이터
• 데이터가 많으면?
– 성능은 비슷하나 학습 속도 차이가 심함
• 예측 후 학습해야 함
71
Model Exact Match F1-Score
without Reinforcement Learning 43.70 69.39
with Reinforcement Learning 45.66 72.90
73. 말은 어떻게 할까?
• 가장 쉬운 접근법
– Output layer를 생성 모델로 변경
73
74. 하지만 데이터가 없는데…
• 다른 방식을 선택
– Zero-shot learning
• Zero-Shot Relation Extraction via Reading Comprehension
(Omer et al., 2017)
– Knowledge-Based Question Answering
• Generating Natural Answers by Incorporating Copying and
Retrieving Mechanisms in Sequence-to-Sequence Learning
(He et al., 2017)
• 지식 기반 채팅 시스템에서의 어휘 반복 문제 해결 (김시형,
김학수, 2018)
74
75. 나아가야 할 길
• 문맥에 질문에 대한 내용이 없을 때
– SQuAD v2.0
• 자연어 문장 생성
– 단어가 아닌 자연스러운 문장
• 적은 데이터로도 확실하게
• 도메인에 종속적이지 않도록
75