SlideShare a Scribd company logo
1 of 21
KorQuAD 2.0
Contents
1. KorQuAD 2.0 소개
2. 데이터 수집 과정
3. 문서 및 질문/답변 유형 분석
4. Baseline 성능 및 분석 결과
5. 결론
Quiz
회색늑
대
www.sli.do # z263
Quiz
힌트 : ‘행동’ 카테고리
회색 늑대를 길들일 때 개와 달리
음성보다 더 효과적인 방식은?
Quiz
회색 늑대를 길들일 때 개와 달리
음성보다 더 효과적인 방식은?
… 늑대는 긍정적인 반응과 보상에 더욱 많
은 반응을 보이지만, 간단한 칭찬 같은 경
우에는 다른 개과 동물과 달리 충분하지 않
게 받아들인다. 개와 달리, 늑대는 음성보
다 수신호에 더욱 반응하는 경향이 있다. …
KorQuAD 2.0 소개
KorQuAD 2.0 소개
KorQuAD 1.0 KorQuAD 2.0
여러 문단에서 답을 찾아야 하는가?
KorQuAD 2.0 소개
KorQuAD 1.0 KorQuAD 2.0
회색늑대(Canis lupus, wolf, 또는 gray/grey wolf)는 북아메리카, 유라시
아, 북아프리카 황무지에 서식하는 개과의 종으로 이리나 말승냥이
로도 불린다. 늑대는 수컷 평균 43~45 kg, 암컷 평균 36~38.5kg이고 어
깨높이는 0.6~0.9m로 개과에 속한 종 중 가장 큰 종이다. 늑대는 썰매
개 또는 저먼 셰퍼드와 모양과 비율이 비슷하나, 늑대가 큰 머리, 좁
은 가슴, 긴 다리, 똑바로 선 꼬리와 큰 발을 가지고 있는 점이 다르
다. 겨울 털은 크고 무성하며 털 색은 일반적으로 얼룩덜룩한 회색
이지만 거의 순수한 흰색, 붉은색, 갈색, 검은색 등의 다양한 색도 있
다.
늑대의 속은 개속에 속하며, 회색늑대는 더 작은 아속인 코요테나
황금자칼과 비교하여 형태학적으로 몸집이 큰 먹이를 사냥하는 데
갖춰주었고 좀 더 집단적인 성격을 갖추며, 고도의 의사소통을 갖
추어서 전문종으로 분류한다.
1~2개의 문단 위키 문서 전체
KorQuAD 2.0 소개
여러 문단에서 답을 찾아야 하는가?
표와 같이 구조화 된 문서인가?
KorQuAD 1.0 KorQuAD 2.0
KorQuAD 2.0 소개
순수 텍스트 표 혹은 리스트
회색늑대(Canis lupus, wolf, 또는 gray/grey wolf)는 북아메리카, 유라시
아, 북아프리카 황무지에 서식하는 개과의 종으로 이리나 말승냥이
로도 불린다. 늑대는 수컷 평균 43~45 kg, 암컷 평균 36~38.5kg이고 어
깨높이는 0.6~0.9m로 개과에 속한 종 중 가장 큰 종이다. 늑대는 썰매
개 또는 저먼 셰퍼드와 모양과 비율이 비슷하나, 늑대가 큰 머리, 좁
은 가슴, 긴 다리, 똑바로 선 꼬리와 큰 발을 가지고 있는 점이 다르
다. 겨울 털은 크고 무성하며 털 색은 일반적으로 얼룩덜룩한 회색
이지만 거의 순수한 흰색, 붉은색, 갈색, 검은색 등의 다양한 색도 있
다.
늑대의 속은 개속에 속하며, 회색늑대는 더 작은 아속인 코요테나
황금자칼과 비교하여 형태학적으로 몸집이 큰 먹이를 사냥하는 데
갖춰주었고 좀 더 집단적인 성격을 갖추며, 고도의 의사소통을 갖
추어서 전문종으로 분류한다.
KorQuAD 1.0 KorQuAD 2.0
KorQuAD 2.0 소개
여러 문단에서 답을 찾아야 하는가?
표와 같이 구조화 된 문서인가?
문단과 같이 긴 답변도 가능한가?
KorQuAD 1.0 KorQuAD 2.0
KorQuAD 2.0 소개
단어 혹은 구 단위의 답 문단 단위의 답도 가능
회색늑대(Canis lupus, wolf, 또는 gray/grey wolf)는 북아메리카, 유라시
아, 북아프리카 황무지에 서식하는 개과의 종으로 이리나 말승냥이
로도 불린다. 늑대는 수컷 평균 43~45 kg, 암컷 평균 36~38.5kg이고 어
깨높이는 0.6~0.9m로 개과에 속한 종 중 가장 큰 종이다. 늑대는 썰매
개 또는 저먼 셰퍼드와 모양과 비율이 비슷하나, 늑대가 큰 머리, 좁
은 가슴, 긴 다리, 똑바로 선 꼬리와 큰 발을 가지고 있는 점이 다르
다. 겨울 털은 크고 무성하며 털 색은 일반적으로 얼룩덜룩한 회색
이지만 거의 순수한 흰색, 붉은색, 갈색, 검은색 등의 다양한 색도 있
다.
늑대의 속은 개속에 속하며, 회색늑대는 더 작은 아속인 코요테나
황금자칼과 비교하여 형태학적으로 몸집이 큰 먹이를 사냥하는 데
갖춰주었고 좀 더 집단적인 성격을 갖추며, 고도의 의사소통을 갖
추어서 전문종으로 분류한다.
KorQuAD 1.0 KorQuAD 2.0
데이터 수집 과정
문서 수집
 위키 문서 중에서 page view 상위 문서 15만 건 + 임의로 선정된 5만 건의
페이지 HTML 크롤링
 수집한 문서 중 질문을 생성할 부분으로 텍스트(<p>), 표(<table>), 리스트
(<ul>, <ol>, <dl>) 추출
 어절 기준 90단어 미만의 짧은 문단 및 참고문헌 제거
질문 – 답변 생성
 크라우드 소싱을 통해 질문-답변 80,000+ 쌍 제작
 작업자는 위키 전체 문서가 아니라 소제목 단위의 문서를 보고 질문- 답
변 생성
 작업자는 사전 테스트를 통과하여야만 데이터 제작 참여 가능
 질문의 일정 부분 이상이 본문과 중복되는 경우 제출하지 못하게 하는
등의 장치를 통해 다양한 표현 유도
KorQuAD 1.0 변환
 기존의 KorQuAD 1.0 데이터 중 일부의 context를 문서 전체 HTML로 바꾸어
KorQuAD 2.0 형태로 변환
 학습, 검증, 평가 셋을 포함하여 약 2만 쌍 변환
해리포터 시리즈 언제 처음 나왔어?
데이터 분석
TRAIN DEV TEST TOTAL
문서 38,496 4,736 4,725 47,957
질문 83,686 10,165 9,309 102,960
 전체 103,193 개의 Q-A 쌍
 47,971건의 문서에 평균 2.15개 Q-A 쌍으로 다양한 주제의
문서들 포함
 답변 길이
- Short : 질문에 대한 답변이 단어 혹은 구 수준의 길이
- Long :
짧은 답으로는 부족하여 문단 전체가 답이 되는 경우.
1~2개의 <p>,<table>, <ul> tag로 쌓인 부분 전체가 답이
됨
 답변 유형
- Text : 답변이 <p> tag 내에 존재
- Table : 답변이 <table> tag 내에 존재
- List : 답변이 <ul> tag 내에 존재
데이터 Statistics
질문-답변 구성
데이터 분석
 다양한 답 길이
- 1 ~ 20 : 순수 text short answer
- 20 ~ 240 : HTML tag가 포함된 short answer
- 240 ~ : long answer
 문서 원본 HTML길이 평균 90,259자
-> 전처리 후 19,864자
- HTML 주석 제거
- <script> … </script> 제거
- Table 형식 정보인 Colspan, rowspan을 제외한 모든
attribute 제거
문서 길이 답변 길이
104
106
105
문서수
음절 수
▽ 문서의 음절 수당 문서 빈도수 ▽ 답변의 음절 수당 질문 빈도수
100
101
102
103
104
음절 수
질문/답변수
데이터 분석
구문 변형
(48.0%)
Q. 외국인들을 위해 먹는 샘물이 일시 판매되었던
년도는 언제일까?
…1988년 서울 올림픽 무렵 외국인들을 위하여 일시
매를 허용했던 적이 있으나, 다시 판매를 제한하였다
…
어휘 변형
(15.4%)
Q. 2009년 시즌 도중 경질된 지바 롯데의 감독은?
…시즌 도중에 바비 밸런타인 감독의 해임이 발표되
일부 팬들은 ‘사형’이라는 과격한 표현으로 ..
여러 문장
종합적
활용
(8.0%)
Q. 'Don't Cha'는 한국 휴대전화 기기 제조사의 휴
대전화 CM송으로도 사용되었는데 그 제조사는 어디
가?
…첫 싱글 'Don't Cha'는 영국, 오스트레일리아, 캐
등의 나라에서 1위에 …. 또한 이 노래는 한국의 휴
화 기기 제조사 SKY의 휴대전화 CM송으로 쓰여, …
표/리스트
(27.7%)
Q. 득표율 2위를 한 사람은 어느 정당 소속인가?
소제목
중복
(38%)
Q. 피터슨과 노먼 그란츠의 관계는 어떤 과정을 통해
형성되었는가?
Title. 오스카 피터슨 - #생애 - #노먼 그란츠
소제목
변형
(47%)
Q. 이경직의 가족 관계는 어떻게 이루어져 있는가?
Title. 이경직 - #가계
자체 제작
(15%)
Q. 문화재를 보존하기 위해 시행하는 법은 무엇일까?
Title. 거문오름 용암동굴계 상류동굴군 - #공개 제한
대상
시간
인물 숫자
장소
방법/원인
Short 질문 유형 Long 질문 유형
답변 유형
▽ Dev set 350 문항 sampling 분석 ▽ Dev set 200 문항 sampling 분석
Baseline 성능
성능 평가 방식
결과
검증 데이터 테스트 데이터
EM F1 EM F1
Baseline 30.8 46.8 30.2 46.0
Human - - 68.8 83.9
 Baseline 모델인 Google BERT Multilingual 을 활용하여
KorQuAD 2.0 학습 및 평가
 추론 시간 : 한 문제당 평균 13,484 ms 소요
(16 batch 기준)
▽ Machine performance vs. human performance
EM:
실제 정답과 정확하게 일치하는 예측치의 비율.
F1:
어절 단위에서 실제 정답과 예측치의 겹치는 부분을 고려한
점수. HTML tag 제거 후 순수 텍스트끼리 비교
Latency:
데이터 전처리, 모델 추론을 포함한 질문 하나당 평균소요
시간
복을 하고 난 직후에 내시가 왕이 입고 있던 옷을 재빨리 지붕
래로 … 그 옷을 덮고 5일간 살아나기를 기다렸다.
Q: 복의식 직후 왕의 옷을 아래에 있는 내시에게 던지면 곧장
죽은 왕의 몸 위에 덮고 며칠간을 기다렸는가?
Ground Truth : 5일간 (영문: for 5 days)
Predicted Answer : 5일 (영문: 5 days)
어절 단위 F1 음절 단위 F1 SQuAD (영문)
0% 80% 80%
▽ 한국어 질의응답 F1 계산 예시
KorQuAD 2.0 From 1.0
Baseline 분석
 KorQuAD 1.0 데이터를 이용하여 Google BERT Multilingual
모델 학습
 데이터에 따른 성능 차이
(* Short 질문에 대해 학습되지 않은 tag 제거 후 사용)
- A : KorQuAD 1.0 Dev set
F1 : 89.7 → Baseline
- B : KorQuAD 1.0에서 2.0 으로 변환된 Dev set
F1 : 76.0 → 문서가 길고 복잡할수록 어려움
- C : KorQuAD 2.0 Dev set에서의 표, 리스트
F1 : 45.9 → 표나 리스트의 경우 더 어려움
▽ Dev set에 대한 Machine performance
89.7
76.0
45.9
70.5
57.3
29.6
 정리
• 다양한 구조 문서의 기계독해를 위한 데이터셋 KorQuAD 2.0 구축
• 더 많은 데이터, 더 긴 문서, 더 복잡한 양식을 가진 10만건의 데이터셋 공개
• Baseline EM 30.24, F1 45.96, 추론 속도 13,484 ms로 개선해나갈 부분이 많은 어려운 태스크
• EM/F1 성능은 물론 추론 시간에 대해서도 채점하는 고도화된 리더보드 구성
 기여
• 웹 문서, 약관, 표 등 한국어 NLP 연구자가 현실 문제를 해결하는 데 필요한 데이터 확보에 기여
• Real-world task에 대해 실용적 기준으로 공정하고 객관적인 모델 성능 평가를 하는 데 이바지
 향후 계획
• 현실에서 필요로 하는 과제 해결을 위한 모든 것!
결론
Q & A
KorQuAD
2.0
AI빅데이터 연구소
ai.research@lgcns.com
Thank You

More Related Content

What's hot

[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기
[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기
[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기CONNECT FOUNDATION
 
딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향LGCNSairesearch
 
정수론적 알고리즘 - Sogang ICPC Team, 2020 Winter
정수론적 알고리즘 - Sogang ICPC Team, 2020 Winter정수론적 알고리즘 - Sogang ICPC Team, 2020 Winter
정수론적 알고리즘 - Sogang ICPC Team, 2020 WinterSuhyun Park
 
Efficient and effective passage search via contextualized late interaction ov...
Efficient and effective passage search via contextualized late interaction ov...Efficient and effective passage search via contextualized late interaction ov...
Efficient and effective passage search via contextualized late interaction ov...taeseon ryu
 
인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템NAVER D2
 
손코딩뇌컴파일눈디버깅을 소개합니다.
손코딩뇌컴파일눈디버깅을 소개합니다.손코딩뇌컴파일눈디버깅을 소개합니다.
손코딩뇌컴파일눈디버깅을 소개합니다.Kwangsung Ha
 
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019devCAT Studio, NEXON
 
Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차Taekyung Han
 
신입 개발자 생활백서 [개정판]
신입 개발자 생활백서 [개정판]신입 개발자 생활백서 [개정판]
신입 개발자 생활백서 [개정판]Yurim Jin
 
오토인코더의 모든 것
오토인코더의 모든 것오토인코더의 모든 것
오토인코더의 모든 것NAVER Engineering
 
한국어 띄어쓰기 프로그램 도전기
한국어 띄어쓰기 프로그램 도전기한국어 띄어쓰기 프로그램 도전기
한국어 띄어쓰기 프로그램 도전기Ted Taekyoon Choi
 
Data Engineering 101
Data Engineering 101Data Engineering 101
Data Engineering 101DaeMyung Kang
 
기계독해를 위한 BERT 언어처리 모델 활용
기계독해를 위한 BERT 언어처리 모델 활용기계독해를 위한 BERT 언어처리 모델 활용
기계독해를 위한 BERT 언어처리 모델 활용Kenneth Jung
 
딥러닝 기반 자연어 언어모델 BERT
딥러닝 기반 자연어 언어모델 BERT딥러닝 기반 자연어 언어모델 BERT
딥러닝 기반 자연어 언어모델 BERTSeonghyun Kim
 
RoFormer: Enhanced Transformer with Rotary Position Embedding
RoFormer: Enhanced Transformer with Rotary Position EmbeddingRoFormer: Enhanced Transformer with Rotary Position Embedding
RoFormer: Enhanced Transformer with Rotary Position Embeddingtaeseon ryu
 
코딩 테스트 및 알고리즘 문제해결 공부 방법 (고려대학교 KUCC, 2022년 4월)
코딩 테스트 및 알고리즘 문제해결 공부 방법 (고려대학교 KUCC, 2022년 4월)코딩 테스트 및 알고리즘 문제해결 공부 방법 (고려대학교 KUCC, 2022년 4월)
코딩 테스트 및 알고리즘 문제해결 공부 방법 (고려대학교 KUCC, 2022년 4월)Suhyun Park
 
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016Taehoon Kim
 
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)WON JOON YOO
 
머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018
머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018
머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018Taehoon Kim
 
쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전Modulabs
 

What's hot (20)

[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기
[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기
[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기
 
딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향딥러닝 기반의 자연어처리 최근 연구 동향
딥러닝 기반의 자연어처리 최근 연구 동향
 
정수론적 알고리즘 - Sogang ICPC Team, 2020 Winter
정수론적 알고리즘 - Sogang ICPC Team, 2020 Winter정수론적 알고리즘 - Sogang ICPC Team, 2020 Winter
정수론적 알고리즘 - Sogang ICPC Team, 2020 Winter
 
Efficient and effective passage search via contextualized late interaction ov...
Efficient and effective passage search via contextualized late interaction ov...Efficient and effective passage search via contextualized late interaction ov...
Efficient and effective passage search via contextualized late interaction ov...
 
인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템
 
손코딩뇌컴파일눈디버깅을 소개합니다.
손코딩뇌컴파일눈디버깅을 소개합니다.손코딩뇌컴파일눈디버깅을 소개합니다.
손코딩뇌컴파일눈디버깅을 소개합니다.
 
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
홍성우, 게임 서버의 목차 - 시작부터 출시까지, NDC2019
 
Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차Python을 활용한 챗봇 서비스 개발 1일차
Python을 활용한 챗봇 서비스 개발 1일차
 
신입 개발자 생활백서 [개정판]
신입 개발자 생활백서 [개정판]신입 개발자 생활백서 [개정판]
신입 개발자 생활백서 [개정판]
 
오토인코더의 모든 것
오토인코더의 모든 것오토인코더의 모든 것
오토인코더의 모든 것
 
한국어 띄어쓰기 프로그램 도전기
한국어 띄어쓰기 프로그램 도전기한국어 띄어쓰기 프로그램 도전기
한국어 띄어쓰기 프로그램 도전기
 
Data Engineering 101
Data Engineering 101Data Engineering 101
Data Engineering 101
 
기계독해를 위한 BERT 언어처리 모델 활용
기계독해를 위한 BERT 언어처리 모델 활용기계독해를 위한 BERT 언어처리 모델 활용
기계독해를 위한 BERT 언어처리 모델 활용
 
딥러닝 기반 자연어 언어모델 BERT
딥러닝 기반 자연어 언어모델 BERT딥러닝 기반 자연어 언어모델 BERT
딥러닝 기반 자연어 언어모델 BERT
 
RoFormer: Enhanced Transformer with Rotary Position Embedding
RoFormer: Enhanced Transformer with Rotary Position EmbeddingRoFormer: Enhanced Transformer with Rotary Position Embedding
RoFormer: Enhanced Transformer with Rotary Position Embedding
 
코딩 테스트 및 알고리즘 문제해결 공부 방법 (고려대학교 KUCC, 2022년 4월)
코딩 테스트 및 알고리즘 문제해결 공부 방법 (고려대학교 KUCC, 2022년 4월)코딩 테스트 및 알고리즘 문제해결 공부 방법 (고려대학교 KUCC, 2022년 4월)
코딩 테스트 및 알고리즘 문제해결 공부 방법 (고려대학교 KUCC, 2022년 4월)
 
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
 
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
 
머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018
머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018
머신러닝 해외 취업 준비: 닳고 닳은 이력서와 고통스러웠던 면접을 돌아보며 SNU 2018
 
쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전쫄지말자딥러닝2 - CNN RNN 포함버전
쫄지말자딥러닝2 - CNN RNN 포함버전
 

More from LGCNSairesearch

Episodic Memory Reader: Learning What to Remember for Question Answering from...
Episodic Memory Reader: Learning What to Remember for Question Answering from...Episodic Memory Reader: Learning What to Remember for Question Answering from...
Episodic Memory Reader: Learning What to Remember for Question Answering from...LGCNSairesearch
 
[saltlux] KorQuAD v1.0 참관기
[saltlux] KorQuAD v1.0 참관기[saltlux] KorQuAD v1.0 참관기
[saltlux] KorQuAD v1.0 참관기LGCNSairesearch
 
NLU Tech Talk with KorBERT
NLU Tech Talk with KorBERTNLU Tech Talk with KorBERT
NLU Tech Talk with KorBERTLGCNSairesearch
 
Textbook Question Answering (TQA) with Multi-modal Context Graph Understandin...
Textbook Question Answering (TQA) with Multi-modal Context Graph Understandin...Textbook Question Answering (TQA) with Multi-modal Context Graph Understandin...
Textbook Question Answering (TQA) with Multi-modal Context Graph Understandin...LGCNSairesearch
 

More from LGCNSairesearch (6)

Episodic Memory Reader: Learning What to Remember for Question Answering from...
Episodic Memory Reader: Learning What to Remember for Question Answering from...Episodic Memory Reader: Learning What to Remember for Question Answering from...
Episodic Memory Reader: Learning What to Remember for Question Answering from...
 
[saltlux] KorQuAD v1.0 참관기
[saltlux] KorQuAD v1.0 참관기[saltlux] KorQuAD v1.0 참관기
[saltlux] KorQuAD v1.0 참관기
 
KorQuAD v1.0 Turn up
KorQuAD v1.0 Turn upKorQuAD v1.0 Turn up
KorQuAD v1.0 Turn up
 
On-Device AI
On-Device AIOn-Device AI
On-Device AI
 
NLU Tech Talk with KorBERT
NLU Tech Talk with KorBERTNLU Tech Talk with KorBERT
NLU Tech Talk with KorBERT
 
Textbook Question Answering (TQA) with Multi-modal Context Graph Understandin...
Textbook Question Answering (TQA) with Multi-modal Context Graph Understandin...Textbook Question Answering (TQA) with Multi-modal Context Graph Understandin...
Textbook Question Answering (TQA) with Multi-modal Context Graph Understandin...
 

KorQuAD v2.0 소개

  • 2. Contents 1. KorQuAD 2.0 소개 2. 데이터 수집 과정 3. 문서 및 질문/답변 유형 분석 4. Baseline 성능 및 분석 결과 5. 결론
  • 4. Quiz 힌트 : ‘행동’ 카테고리 회색 늑대를 길들일 때 개와 달리 음성보다 더 효과적인 방식은?
  • 5. Quiz 회색 늑대를 길들일 때 개와 달리 음성보다 더 효과적인 방식은? … 늑대는 긍정적인 반응과 보상에 더욱 많 은 반응을 보이지만, 간단한 칭찬 같은 경 우에는 다른 개과 동물과 달리 충분하지 않 게 받아들인다. 개와 달리, 늑대는 음성보 다 수신호에 더욱 반응하는 경향이 있다. …
  • 7. KorQuAD 2.0 소개 KorQuAD 1.0 KorQuAD 2.0 여러 문단에서 답을 찾아야 하는가?
  • 8. KorQuAD 2.0 소개 KorQuAD 1.0 KorQuAD 2.0 회색늑대(Canis lupus, wolf, 또는 gray/grey wolf)는 북아메리카, 유라시 아, 북아프리카 황무지에 서식하는 개과의 종으로 이리나 말승냥이 로도 불린다. 늑대는 수컷 평균 43~45 kg, 암컷 평균 36~38.5kg이고 어 깨높이는 0.6~0.9m로 개과에 속한 종 중 가장 큰 종이다. 늑대는 썰매 개 또는 저먼 셰퍼드와 모양과 비율이 비슷하나, 늑대가 큰 머리, 좁 은 가슴, 긴 다리, 똑바로 선 꼬리와 큰 발을 가지고 있는 점이 다르 다. 겨울 털은 크고 무성하며 털 색은 일반적으로 얼룩덜룩한 회색 이지만 거의 순수한 흰색, 붉은색, 갈색, 검은색 등의 다양한 색도 있 다. 늑대의 속은 개속에 속하며, 회색늑대는 더 작은 아속인 코요테나 황금자칼과 비교하여 형태학적으로 몸집이 큰 먹이를 사냥하는 데 갖춰주었고 좀 더 집단적인 성격을 갖추며, 고도의 의사소통을 갖 추어서 전문종으로 분류한다. 1~2개의 문단 위키 문서 전체
  • 9. KorQuAD 2.0 소개 여러 문단에서 답을 찾아야 하는가? 표와 같이 구조화 된 문서인가? KorQuAD 1.0 KorQuAD 2.0
  • 10. KorQuAD 2.0 소개 순수 텍스트 표 혹은 리스트 회색늑대(Canis lupus, wolf, 또는 gray/grey wolf)는 북아메리카, 유라시 아, 북아프리카 황무지에 서식하는 개과의 종으로 이리나 말승냥이 로도 불린다. 늑대는 수컷 평균 43~45 kg, 암컷 평균 36~38.5kg이고 어 깨높이는 0.6~0.9m로 개과에 속한 종 중 가장 큰 종이다. 늑대는 썰매 개 또는 저먼 셰퍼드와 모양과 비율이 비슷하나, 늑대가 큰 머리, 좁 은 가슴, 긴 다리, 똑바로 선 꼬리와 큰 발을 가지고 있는 점이 다르 다. 겨울 털은 크고 무성하며 털 색은 일반적으로 얼룩덜룩한 회색 이지만 거의 순수한 흰색, 붉은색, 갈색, 검은색 등의 다양한 색도 있 다. 늑대의 속은 개속에 속하며, 회색늑대는 더 작은 아속인 코요테나 황금자칼과 비교하여 형태학적으로 몸집이 큰 먹이를 사냥하는 데 갖춰주었고 좀 더 집단적인 성격을 갖추며, 고도의 의사소통을 갖 추어서 전문종으로 분류한다. KorQuAD 1.0 KorQuAD 2.0
  • 11. KorQuAD 2.0 소개 여러 문단에서 답을 찾아야 하는가? 표와 같이 구조화 된 문서인가? 문단과 같이 긴 답변도 가능한가? KorQuAD 1.0 KorQuAD 2.0
  • 12. KorQuAD 2.0 소개 단어 혹은 구 단위의 답 문단 단위의 답도 가능 회색늑대(Canis lupus, wolf, 또는 gray/grey wolf)는 북아메리카, 유라시 아, 북아프리카 황무지에 서식하는 개과의 종으로 이리나 말승냥이 로도 불린다. 늑대는 수컷 평균 43~45 kg, 암컷 평균 36~38.5kg이고 어 깨높이는 0.6~0.9m로 개과에 속한 종 중 가장 큰 종이다. 늑대는 썰매 개 또는 저먼 셰퍼드와 모양과 비율이 비슷하나, 늑대가 큰 머리, 좁 은 가슴, 긴 다리, 똑바로 선 꼬리와 큰 발을 가지고 있는 점이 다르 다. 겨울 털은 크고 무성하며 털 색은 일반적으로 얼룩덜룩한 회색 이지만 거의 순수한 흰색, 붉은색, 갈색, 검은색 등의 다양한 색도 있 다. 늑대의 속은 개속에 속하며, 회색늑대는 더 작은 아속인 코요테나 황금자칼과 비교하여 형태학적으로 몸집이 큰 먹이를 사냥하는 데 갖춰주었고 좀 더 집단적인 성격을 갖추며, 고도의 의사소통을 갖 추어서 전문종으로 분류한다. KorQuAD 1.0 KorQuAD 2.0
  • 13. 데이터 수집 과정 문서 수집  위키 문서 중에서 page view 상위 문서 15만 건 + 임의로 선정된 5만 건의 페이지 HTML 크롤링  수집한 문서 중 질문을 생성할 부분으로 텍스트(<p>), 표(<table>), 리스트 (<ul>, <ol>, <dl>) 추출  어절 기준 90단어 미만의 짧은 문단 및 참고문헌 제거 질문 – 답변 생성  크라우드 소싱을 통해 질문-답변 80,000+ 쌍 제작  작업자는 위키 전체 문서가 아니라 소제목 단위의 문서를 보고 질문- 답 변 생성  작업자는 사전 테스트를 통과하여야만 데이터 제작 참여 가능  질문의 일정 부분 이상이 본문과 중복되는 경우 제출하지 못하게 하는 등의 장치를 통해 다양한 표현 유도 KorQuAD 1.0 변환  기존의 KorQuAD 1.0 데이터 중 일부의 context를 문서 전체 HTML로 바꾸어 KorQuAD 2.0 형태로 변환  학습, 검증, 평가 셋을 포함하여 약 2만 쌍 변환 해리포터 시리즈 언제 처음 나왔어?
  • 14. 데이터 분석 TRAIN DEV TEST TOTAL 문서 38,496 4,736 4,725 47,957 질문 83,686 10,165 9,309 102,960  전체 103,193 개의 Q-A 쌍  47,971건의 문서에 평균 2.15개 Q-A 쌍으로 다양한 주제의 문서들 포함  답변 길이 - Short : 질문에 대한 답변이 단어 혹은 구 수준의 길이 - Long : 짧은 답으로는 부족하여 문단 전체가 답이 되는 경우. 1~2개의 <p>,<table>, <ul> tag로 쌓인 부분 전체가 답이 됨  답변 유형 - Text : 답변이 <p> tag 내에 존재 - Table : 답변이 <table> tag 내에 존재 - List : 답변이 <ul> tag 내에 존재 데이터 Statistics 질문-답변 구성
  • 15. 데이터 분석  다양한 답 길이 - 1 ~ 20 : 순수 text short answer - 20 ~ 240 : HTML tag가 포함된 short answer - 240 ~ : long answer  문서 원본 HTML길이 평균 90,259자 -> 전처리 후 19,864자 - HTML 주석 제거 - <script> … </script> 제거 - Table 형식 정보인 Colspan, rowspan을 제외한 모든 attribute 제거 문서 길이 답변 길이 104 106 105 문서수 음절 수 ▽ 문서의 음절 수당 문서 빈도수 ▽ 답변의 음절 수당 질문 빈도수 100 101 102 103 104 음절 수 질문/답변수
  • 16. 데이터 분석 구문 변형 (48.0%) Q. 외국인들을 위해 먹는 샘물이 일시 판매되었던 년도는 언제일까? …1988년 서울 올림픽 무렵 외국인들을 위하여 일시 매를 허용했던 적이 있으나, 다시 판매를 제한하였다 … 어휘 변형 (15.4%) Q. 2009년 시즌 도중 경질된 지바 롯데의 감독은? …시즌 도중에 바비 밸런타인 감독의 해임이 발표되 일부 팬들은 ‘사형’이라는 과격한 표현으로 .. 여러 문장 종합적 활용 (8.0%) Q. 'Don't Cha'는 한국 휴대전화 기기 제조사의 휴 대전화 CM송으로도 사용되었는데 그 제조사는 어디 가? …첫 싱글 'Don't Cha'는 영국, 오스트레일리아, 캐 등의 나라에서 1위에 …. 또한 이 노래는 한국의 휴 화 기기 제조사 SKY의 휴대전화 CM송으로 쓰여, … 표/리스트 (27.7%) Q. 득표율 2위를 한 사람은 어느 정당 소속인가? 소제목 중복 (38%) Q. 피터슨과 노먼 그란츠의 관계는 어떤 과정을 통해 형성되었는가? Title. 오스카 피터슨 - #생애 - #노먼 그란츠 소제목 변형 (47%) Q. 이경직의 가족 관계는 어떻게 이루어져 있는가? Title. 이경직 - #가계 자체 제작 (15%) Q. 문화재를 보존하기 위해 시행하는 법은 무엇일까? Title. 거문오름 용암동굴계 상류동굴군 - #공개 제한 대상 시간 인물 숫자 장소 방법/원인 Short 질문 유형 Long 질문 유형 답변 유형 ▽ Dev set 350 문항 sampling 분석 ▽ Dev set 200 문항 sampling 분석
  • 17. Baseline 성능 성능 평가 방식 결과 검증 데이터 테스트 데이터 EM F1 EM F1 Baseline 30.8 46.8 30.2 46.0 Human - - 68.8 83.9  Baseline 모델인 Google BERT Multilingual 을 활용하여 KorQuAD 2.0 학습 및 평가  추론 시간 : 한 문제당 평균 13,484 ms 소요 (16 batch 기준) ▽ Machine performance vs. human performance EM: 실제 정답과 정확하게 일치하는 예측치의 비율. F1: 어절 단위에서 실제 정답과 예측치의 겹치는 부분을 고려한 점수. HTML tag 제거 후 순수 텍스트끼리 비교 Latency: 데이터 전처리, 모델 추론을 포함한 질문 하나당 평균소요 시간 복을 하고 난 직후에 내시가 왕이 입고 있던 옷을 재빨리 지붕 래로 … 그 옷을 덮고 5일간 살아나기를 기다렸다. Q: 복의식 직후 왕의 옷을 아래에 있는 내시에게 던지면 곧장 죽은 왕의 몸 위에 덮고 며칠간을 기다렸는가? Ground Truth : 5일간 (영문: for 5 days) Predicted Answer : 5일 (영문: 5 days) 어절 단위 F1 음절 단위 F1 SQuAD (영문) 0% 80% 80% ▽ 한국어 질의응답 F1 계산 예시
  • 18. KorQuAD 2.0 From 1.0 Baseline 분석  KorQuAD 1.0 데이터를 이용하여 Google BERT Multilingual 모델 학습  데이터에 따른 성능 차이 (* Short 질문에 대해 학습되지 않은 tag 제거 후 사용) - A : KorQuAD 1.0 Dev set F1 : 89.7 → Baseline - B : KorQuAD 1.0에서 2.0 으로 변환된 Dev set F1 : 76.0 → 문서가 길고 복잡할수록 어려움 - C : KorQuAD 2.0 Dev set에서의 표, 리스트 F1 : 45.9 → 표나 리스트의 경우 더 어려움 ▽ Dev set에 대한 Machine performance 89.7 76.0 45.9 70.5 57.3 29.6
  • 19.  정리 • 다양한 구조 문서의 기계독해를 위한 데이터셋 KorQuAD 2.0 구축 • 더 많은 데이터, 더 긴 문서, 더 복잡한 양식을 가진 10만건의 데이터셋 공개 • Baseline EM 30.24, F1 45.96, 추론 속도 13,484 ms로 개선해나갈 부분이 많은 어려운 태스크 • EM/F1 성능은 물론 추론 시간에 대해서도 채점하는 고도화된 리더보드 구성  기여 • 웹 문서, 약관, 표 등 한국어 NLP 연구자가 현실 문제를 해결하는 데 필요한 데이터 확보에 기여 • Real-world task에 대해 실용적 기준으로 공정하고 객관적인 모델 성능 평가를 하는 데 이바지  향후 계획 • 현실에서 필요로 하는 과제 해결을 위한 모든 것! 결론
  • 20. Q & A

Editor's Notes

  1. 안녕하세요 AI빅데이터 연구소 김영민입니다. 앞서 Korquad 1.0 설명 과 참여기 잘 들으셨나요? 저는 직접 참여하지는 못했지만 참여자 분들의 결과가 등록되고 순위가 바뀌는 것을 보면서 저도 설레기도 했습니다. 어떻게 이렇게 성능을 올렸지 하는 궁금증들도 많았는데 오늘 강의를 들으니까 조금 도움이 되네요. 이번에는 korquad 2.0을 소개시켜드리고자 합니다. 1.0과 같이 MRC 데이터인데요. 새로 추가된 부분들이 많으니 흥미롭게 들어주시면 감사하겠습니다.
  2. 오늘 korquad 2.0 소개 발표 목차입니다. 먼저 간단하게 특징과 수집과정 설명드리고 데이터 분석과 성능평가에 대해 말씀드리겠습니다.
  3. 설명을 시작하기 전에 Quiz! 핸폰으로 위키피디아 회색늑대 문서에 들어가시면 됩니다. 구글 검색 혹은 QR 코드를 활용해주세요. 정답은 위키피디아 문서에서 찾으셔야 합니다. 그리고 정답은 slildo에 올리셔야 하니 slido도 준비해주세요!! # slido 링크 준비 다 준비되셨으면 문제 드리겠습니다!
  4. 질문 읽기 정답은 …에 올려주세요 가장 먼저 맞추신 분께 소정의 상품 드리겠습니다.
  5. 개와 달리 늑대는 음성보다 수신호에 더욱 반응하는 경향이 있다 정답은 수신호 입니다. 어떠셨나요?? 지문이 너무 길어서 어렵지 않으셨나요? 저희가 풀려고 하는 문제는 방금 하신 것과 같이, 사람에게 오래걸리는 이 작업을 머신러닝을 사용하여 풀자 라는 것 입니다. 그러려면 당연히 데이터가 필요하겠죠?
  6. 이런 질문 데이터는 기존에도 korquad 1.0이 있었습니다. 리더보드도 운영해서 많은 분들이 참여해주셨었어요. 이번에 새로 반든 2.0에서도 리더보드를 운영할 계획입니다. 이번에도 많은 참여 부탁 드립니다. 아마 이번엔 저희도 참여를 해보려고 합니다. 그런데 이런 질문을 하실 수 있을 것 같아요. 기존에도 이런 MRC QA 데이터는 1.0이 있는데 뭐가 달라진거지? 이미 있는거 또 만든거 아니야? 그래서, 그 차이점을 간단히 설명 드리겠습니다.
  7. 먼저 첫 번째 차이점. 여러 문단에서 답을 찾아야 하는가? 입니다.
  8. 기존의 Kor 1은 1~2개의 문단 정도로 짧은 문서에서 답을 찾는 문제입니다, 하지만 이번 kor 2 는 위키피디아 문서 전체에 대해서 답을 찾는 문제입니다. 아까 퀴즈 푸실때 느끼셨겠지만 문서 전체에서 답을 찾는 것이 정말 어렵고 시간도 오래 걸리더라고요. Korquad 2.0에서는 긴 문서의 학습 방법에 대해서 그리고 탐색 시간도 고려하셔야 할 것 같습니다.
  9. 두 번째 차이점! 표와 같이 구조화 된 문서 인가?
  10. 전에 보셨듯이 Korquad 1.0은 순수 텍스트만 있는 문서입니다. 하지만 2.0은 예시와 같은 표나 리스트들도 문서에 포함되어 있고 이중에서 답을 찾는 문제도 있습니다. 꼭 표 형식이 아니더라도 문서 전체가 HTML형식으로 된 구조를 가지고 있기 때문에 구조 정보를 활용할 수 있을 것이라 생각됩니다.
  11. 마지막! 문단과 같이 긴 답변도 가능한가? 마찬가지로 1.0은 안되고 2.0은 가능합니다.
  12. 기존에는 답변이 단어나 구, 혹은 길어야 한두 문장 정도 였습니다. 하지만 이번 2.0에서는 답변이 문단인 경우들도 포함되어 있습니다. 예를 들어 이 지문에서 회색 늑대에 대해 개략적으로 알려줘 하는 질문을 하면 위키의 앞쪽 문단을 리턴해야 하겠죠. 여기서 편의상 왼쪽과 같이 짧은 답을 Short, 오른쪽과 같이 긴 답변을 long이라 부르겠습니다. 이제 차이점에 대해서 대략적으로 이해 하셨을 것 같습니다. 앞으로 데이터 제작 방식 및 분서 결과를 말씀 드리겠습니다.
  13. 먼저 일차적으로는 위키에서 문서를 수집하였습니다. 한글 문서 중 조회수 상위 15만 문서와 임의의 문서 5만건을 크롤링 하였고, 그림이나 주석, 짧은 문단 등은 제거 후 특정 테그 안에서만 질문 답변을 생성하였습니다. 질문 생성으로는 두가지 방법이 있는데요. 하나는 크라우드 소싱이고 나머지는 Korquad 1.0데이터를 2.0에 맞게 변환하는 방식입니다. 크라우드 소싱에서는 작업자에게 문단을 보여주고 문단으로부터 질문과 답변을 생성하는 작업을 했습니다. 왼쪽 그림처럼.. 문단에서.. 답변을 드래그하고 질문을 적는 방식입니다. 좋은 질문을 만들기 위해서, 사전테스트를 만들어서 통과한 사람들만 참여 가능하도록 하였고, 질문의 일정 부분 이상이 본문과 중복되는 경우 제출하지못하게 하는 등의 방법을 사용하였습니다. Korquad 1.0 변환은 저희가 기존에 가지고있던 데이터중 일부를 본문을 문단에서 전체 문서로 바꾸는 식으로 변환을 하였습니다. 이렇게 대략 2만건정도 활용하였습니다.
  14. 데이터 간단 통계 분석입니다. 문서는 대략 5만건 정도 사용하여 질문 10만건을 제작하였구요. 그래서 문서당 평균 2개정도로 최대한 다양한 문서를 활용할 수 있도록 했습니다. 기존 korqua 1.0은 약 1500개 문서 사용한 것에 비하면 상당히 많은 문서를 사용하였구요. 이를 통해 다양한 도메인에 대해 general한 모델을 만들 수 있기를 기대합니다. 질문 답변 구성을 보시면 먼저 답변 길이로 2가지로 구분이 가능한데요. Short 와 long은 아까 말씀드렸듯이 말 그대로 단어정도의 답변과 문단 전체가 답이 되는 답변으로 나뉩니다. 유형에 따라서는 답변이 <p>tag와 같이 일반 문단인지, table 인지 list인지에 따라 구분됩니다. 가장 많은 비율은 short text가 되겠고 Long이 대략 5분의1정도 됩니다.
  15. 길이 관련 분석입니다. 먼저 문서 길이를 보시면 만자 정도에서 십만자가 넘는 경우도 있습니다. 그런데 원본 HTML은 평균 9만자 정도 되더라고요. 그래서 어느 정도 전처리를 통해 대략 2만자정도로 줄였습니다. 필요없는 주석이나.. 문서 스타일과 관련된 부분 등 제거하였고요. 데이터 배포시에는 이 두가지를 다 포함시켜서 하려고 합니다. 답변 길이도 다양한데요. 길이가 만자를 넘는 경우도 있네요. 첫번째 그룹은 순수 텍스트만 답인 경우고 두번째 그룹은 HTML 테그가 답에 포함되어있어 길어진 short 답변인 것 같습니다. 링크테그 등등.. 마지막 부분은 long 답변이네요 보시는 것 처럼 문서도 길고, 긴 답변도 많습니다. 그런데 다들 많이 사용하시는 BERT는 길이 512 토큰까지밖에 커버하지 못하잖아요. 좋은 성능을 내기 위해서는 긴 문서를 처리하는 방법도 고민하셔야 할 것 같습니다.
  16. 이번에는 질문과 답변 유형 분석입니다. 사실 short 질문은 korquad 1.0때도 했던 분석인데요. 구문변형, 어휘변형, 문장 종합적 활용과 표 등으로 나눌 수 있을 것 같습니다. Long은 이번에 새로 추가된 부분인데 데이터를 보니 3가지 정도로 나눌 수 있었습니다. 먼저 제일 간단한 소제목 중복. 데이터 제작할 때 소제목을 같이 보여주어서 그런지 소제목을 그대로 이용하여 문제를 내는 경우가 꽤 많았습니다. 그 다음은 소제목 변형인데요. 소제목의 가계 대신 가족관계라고 고쳐서 질문을 만든 경우입니다. 마지막으로 자체제작은 질문만 봐서는 어느 소제목에서 낸 문제인지 알 수 없는 경우인데요. 정답을 찾기 가장 어려울 것 같습니다.
  17. 이제 성능평가 방식 및 베이스라인 결과입니다. 먼저 성능평가는 세가지 기준이 있는데요. EM과 F1 그리고 Latency입니다. EM 과 F1은 squad나 korquad에서도 쓰이던 방식이니 다들 아실 것 같은데요, EM은 … F1은 … Latency는 시간과 관련된 부분입니다. 모델 추론과 전처리를 포함하여 전체 실행에 걸리는 시간을 질문 수로 나눠 질문 하나당 평균 시간을 의미합니다. 아래 결과를 보시면 베이스라인 모델 결과와 휴먼 퍼포먼스가 있습니다. 베이스라인은 공개되어있는 구글 버트 멀티링구얼을 학습 하여 사용하였구요. 휴먼 퍼포먼스는 저희가 직접 한땀한땀 풀어가며 측정한 결과입니다. 아직 baseline이 상당히 낮네요. 특히 Long은 아직 갈 길이 먼것같습니다. 그래도 Table short의 경우 낮긴 하지만 어느정도 답을 찾긴 하는 것 같습니다. 순수 baseline 모델이 이정도 성능이라 조금만 튜닝해도 성능 오를것 -> 많이 도전부탁
  18. 추가적으로 몇가지 실험을 더 해보았습니다. 먼저 위에 실험은 KorQuAD 1.0데이터로 학습한 모델로 추론을 해보았는데요. 기존 데이터로 학습한 모델이 새 데이터에서 얼마나 잘하는지 확인해본 실험입니다. 먼저 이 에메랄드 색이 korquad 1.0 데이터셋에 대한 결과입니다.F1기준 대략 90정도 나오네요. 그 옆에 주황색 B는 주어지는 본문이 문단이었던 것을 긴 문서로 바꾸었을 때 결과인데요. 문서가 길어짐에 따라 대략 14%정도 성능이 하락하는 것 같습니다. 마지막 회식은 새로 만든 데이터 중 표와 리스트에 대해서 평가한 결과입니다. 구조에 대해 학습되지 않았기 때문에 거의 절반에 가까운 성능하락이 있네요. 아래 실험에서는 질문과 본문의 중복 비율에 따른 성능 비교입니다. 질문에서 형태소 분석을 통해 조사나 어미는 제거를 하고 중복비율을 확인했는데요. 중복 비율이 높을 수록 높은 성능이 나오는 것을 확인할 수 있습니다. 중복비율이 높을 수록 명확하지만 그만큼 쉬운 문제라 할 수 있고, 반대로 낮으면 어렵고 좋은 문제인 것 같지만 질문이 명확하지 않기때문일 수 있습니다. 단순히 중복 비율이 높거나 낮다는 것 만으로 데이터가 좋다 나쁘다 애기하긴 어려울 것 같습니다.
  19. 정리하자면, 이번에 저희는 더 많고 길이도 길고 복잡한 양식의 문서들에 대해서 10만건의 새로운 MRC 데이터셋을 구축하였습니다. 아직 성능도 낮고 추론속도도 오래걸리기 때문에 앞으로 개선할 부분이 많이 남았습니다. 많은 분들이 참여하셔서 재미있는 결과를 보여주셨으면 좋겠습니다. 마지막으로 드리고싶은 말씀은.. 딥러닝 일화 최근 AI의 정의는 체스를 완벽히 둘수 있는 머신을 뜻한다고 합니다. 그런데 그 방에서는 불이 나고 있는.. LG CNS는 정해진 환경과 제약 조건에서만 잘 되는 연구가 아니라 현실의 문제를 해결하기 위한 연구, 사람들이 실제로 필요한 과제를 해결하기 위해 노력하겠습니다!! LGCNS의 연구와 사업에 관심이 있으신 분은 ai.research@lgcns.com으로 연락주세요!!