SlideShare une entreprise Scribd logo
1  sur  19
Télécharger pour lire hors ligne
Question Answering
B2B를 위한 질의응답 연구
LGCNS AI연구팀
Contents 1. Machine Reading Comprehension
2. KorQuAD 소개
3. MRC for B2B task
 TabQA
 TreeQA
2/ 24
1. Machine Reading Comprehension
기계 독해 기반의 Question Answering
“LG CNS” 입니다.
Question
Machine User
Answer
Context
Reading
Comprehension
LG CNS뉴스 일부,한국경제
세계 AI 경진대회,
LG CNS “4위”
LG CNS가 세계적 인공지능(AI) 학회인
인공신경망학회(NeurIPS) 주최 AI경진
대회에서 톱5에 진입하는 성과를 거뒀다
고 20일 밝혔다. LG CNS는 NeurIPS의
AI경진대회 중 ‘이미지 인식 AI 대회’에
서 미국 카네기멜론대(1위), 중국 칭화대
(2위), 캐나다 몬트리올 고등기술대(3위)
에 이어 4위에 올랐다. 톱5 수상팀 가운
데 기업은 LG CNS가 유일하다.
…<후략>
세계적인 AI 경진대회에서
톱5에 든 기업 어디야?Reading
3/ 24
2. KorQuAD
한국어 Machine Reading Comprehension을 위한 데이터 셋
표준
데이터
현존하는 다양한 영문 데이터
SQuAD
MS MARCO
HotpotQA
 연구자들이 쉽게 데이터 확보
 논문 저술 등 연구 활동에 활발하게 활용
리더보드
 연구 성과 공유의 장
 객관적인 기준으로 알고리즘 성능 평가
VS
한국어 데이터 셋 부재
4/ 24
2. KorQuAD
한국어 위키백과를 대상으로 대규모 extractive MRC 데이터 구축
TRAIN 60,407 / DEV 5,774 / TEST 3,898
GITHUB
SQuAD v1.0
데이터 생성 방식을
벤치마크하여 표준성 확보
MRC 질의응답 과제를 위한
다량의 학습데이터를
연구자들이 쉽게 확보
객관적인 기준을 가진
연구 결과 성능 공유의 장
5/ 24
2. KorQuAD
KorQuAD Main Page Submission Tutorial (Coda Lab)
CodaLab을 통해 모형 평가 후 TEST Set에서의 Score은
리더보드에 등재
6/ 24
2. KorQuAD_ data collection
▶ 대상 문서 수집 ▶ 질문/답변 생성 ▶ 2차 답변 태깅
알찬 글
좋은 글
기타
문서
(위키 백과에서 선정한
구성이 좋은 글)
Document Crawling
위키 백과
[알찬 글]& [좋은 글] 목록으로부터
각각 100건, 143건의 문서 우선 수집
→ 양질의 문서 우선 확보
추가적으로 위키백과 랜덤 탐색을 통해
총 1,637건의 문서 수집
Extract Passages
수집한 문서는 문단 단위로 정제
이미지/표/URL 제거
Passage Curation
300자 미만의 짧은 문단 제거
수식이 포함된 문단 제거
7/ 24
2. KorQuAD_ data collection
▶ 대상 문서 수집 ▶ 질문/답변 생성 ▶ 2차 답변 태깅
《해리 포터》(Harry Potter)는 1997년부터
2007년까지 연재된 영국의 작가 J.K. 롤링의
판타지 소설 시리즈다. 이모네 집 계단 밑 벽장
에서 생활하던 11살 소년 해리 포터가 호그와
트 마법학교에 가면서 겪게 되는 판타지 이야기
를 그리고 있다. 1997년 6월 첫 번째 책인 《해
리 포터와 마법사의 돌》이 출판되었으며,
2007년 7월 마지막 책인 《해리 포터와 죽음의
성물》이 출판되었다. 해리포터 시리즈가 큰 성
공을 거두면서 전 세계적으로 인기를 얻었으며,
영화를 비롯한 비디오 게임 및 다양한 상품들이
제작되었다.
질문을 입력하세요:
답변 영역을 드래그하세요:
작업 환경 예시
띄어쓰기 단위로 정답 영역 선택 후
조사 등을 삭제해 최소 영역 선택
작업자
구성
 크라우드소싱을 통해 QA 70,000+쌍 생성
 일정 등급 이상의 작업자만 참여 가능
작업 방식
 한 사람은 하나의 문단에 대해 2-3개 질문 생성
 하나의 문단은 3명에게 할당함
 → 한 문단 당 총 6~9개의 질문 생성
 → 질문 어휘의 다양성을 유도
환경 구성
 작업 환경 구성 시 Copy& Paste를 방지
 자신의 단어로 질문을 생성할 것을 강력하게 명시
 질문 예시에 대한 상세 가이드라인 제시
8/ 24
2. KorQuAD_ data collection
▶ 대상 문서 수집 ▶ 질문/답변 생성 ▶ 2차 답변 태깅
TRAIN DEV TEST TOTAL
문서 1,420 140 77 1,637
질문 60,407 5,774 3,898 70,079
KorQuAD 데이터 셋 통계
2차 답변 태깅 대상
목적  Human performance 측정
방법
140개 문서에 대해
각각 2개의 질의를 랜덤 추출
 2차 작업자는 문단 & 질문을 보고 답변 영역 선택
결과
 TEST 데이터 EM 80.17% / F1 91.20%
 (참고) SQuAD v1.1 human performance
9/ 24
2. KorQuAD_ dataset analysis
구문 변형
(56.4%)
Q: 제 1회 문학동네 작가상을 수상한 작품으로, 96년 발표
된 장편소설은?
… 작품활동을 시작하였고 이듬해 96년 장편 《나는 나를 파
괴할 권리가 있다》로 제1회 문학동네 작가상을 수상하였
다.
어휘 변형
(유의어 )
(13.6%)
Q: … 서덜랜드가 무엇을 발전시킨 것을 시작으로 연구가 시
작되었는가?
서덜랜드가 see-through HMD를 발전시킨 것을 시초로 연
구… 증강현실은 …
어휘 변형
(일반상식)
(3.9%)
Q: 해외에서 활동하는 Kayip, Superdrive와 결성한 프로젝
트 그룹의 이름은?
영국에서 활동하고 있는 Kayip, 베를린에서 … Superdrive와
… ‘모텟’을 결성
여러 문장
근거 종합
적 활용
(19.6%)
Q: 클레멘스가 명예의 전당에 입성하지 못한 이유는?
… 이 투수들이 클레멘스를 제외하고 모두 명예의 전당에
올랐기 때문이다. 클레멘스만이 … 받았다. 그는 경기력 향
상 약물 사용에 연루되어 있기 때문에 입성 여부가 불확
실...
논리적 추
론 요구
(3.6%)
Q. 대한민국 제17대 대통령 선거 당시 후보로 등록했으나
예비경선의 경선 후보로 뽑히지 못한 사람 중 법무부와
관련 있는 사람은?
정동영 전 열린우리당 의장, …, 천정배 전 법무부 장관, …
등이 후보로 등록하였고… 예비경선으로 정동영, 손학규,
이해찬, 한명숙, 유시민 후보가 경선 후보로 결정되었다.
기타
출제 오류
(2.9%)
Q. 티베트 고원에서 발원하는 강은?
… 강들이 티베트 고원에서 발원하는데, 창장, 황허, (…), 살
윈 강 등이 포함된다.
56.4% 13.6% 3.9% 19.6% 3.6% 2.9%
구문 변형 (유의어) (일반상식) 여러 문장의 근거 활용
논리적
추론(오류)
어휘 변형
KorQuAD 질문 유형
10/ 24
2. KorQuAD_ dataset analysis
0% 20% 40% 60% 80% 100%
SQuAD
KorQuAD
대상 인물 시간 장소 방법 원인
55.4% 23.2% 8.9% 7.5% 4.3% 0.7%
대상 인물
시
간
장
소
방
법
원인
KorQuAD 답변 유형
⇒ 영문 표준 데이터와 특성이 유사함을 확인
11/ 24
2. KorQuAD_ baseline model analysis
METRIC RESULT
복을 하고 난 직후에 내시가 왕이 입고 있던 옷을 재빨리 지
붕 아래로 … 그 옷을 덮고 5일간 살아나기를 기다렸다.
Q: 복의식 직후 왕의 옷을 아래에 있는 내시에게 던지면 곧장
죽은 왕의 몸 위에 덮고 며칠간을 기다렸는가?
Ground Truth : 5일간 (영문: for 5 days)
Predicted Answer : 5일 (영문: 5 days)
어절 단위 F1 음절 단위 F1 SQuAD (영문)
0% 80% 80%
EM:
실제 정답과 정확하게 일치하는 예측치의 비율.
F1:
실제 정답과 예측치의 겹치는 부분을 고려한 점수로, EM보
다 완화된 평가 척도.
한국어에서 어절 단위로 F1을 구할 경우 다양한 활용형태로
인해 영문의 F1보다 낮게 측정되어 음절 단위의 F1을 도입.
검증 데이터 테스트 데이터
EM F1 EM F1
Baseline* 71.68% 82.87% 71.52% 82.99%
Human - - 80.17% 91.20%
▽ 질문 유형에 따른 Performance 비교
E2E NN model을 KorQuAD 학습 데이터를 100 epoch만큼 학습
▽ Machine performance vs. human performance
▽ KorQuAD F1 계산 예시
𝑆3-Net(Park, 2017)
구문 변형
어휘 변형
(유의어
활용)
어휘 변형
(일반상식
활용)
여러
문장의
근거 활용
논리적
추론 요구
Machine EM 69.62% 60.53% 72.73% 72.73% 70.00%
Human EM 74.68% 76.32% 90.91% 83.64% 80.00%
40%
50%
60%
70%
80%
90%
12/ 24
3. MRC for B2B task
다양한 구조양식을 가진 기업용 데이터를 위한 MRC
LG CNS는 1987년 1월 설립된 LG그룹의 IT 계열사이다.
LG그룹과 미국 EDS가 50:50 합작으로 설립하여 사명은
STM이였으나, 1995년 LG-EDS시스템으로 변경하였고, 합작
계약이 종료된 후 2002년 현재의 이름으로 바꿨다. CNS의
C는 Consulting, Communication, Connection, Collaboration,
N은 Network, New, And, S는 Solution, System, Service 등
다양한 의미… <후략>
LG CNS는 몇 년도에 현재의 이름을 갖게 되었죠?
Answer : “2002년”
Start index : 119
현재의 MRC 기술/연구는 정제된 plain text를 대상
- 구조를 가진 문서를 전처리하여 평문화해야 함
- 개조식 구조의 상하계층 정보를 반영할 수 없음
- 표, 목록에 대한 처리가 어려움
- 제목과 내용이 멀어질 경우 제대로 응답할 수 없음
실제 기업에서 보유한 문서는 구조가 있는 경우가 대부분
- 구조가 있는 문서를 그대로 반영하여 input으로 사용하자 !
- 표, 계층구조, 목록에 대해 최대한 유연하게 처리하자 !
- Table에 대한 MRC 가능성을 확인하자 !
- 양식을 가진 문서에 대한 MRC 가능성을 확장하야 확인하자 !
AS-IS TO-BE
13/ 24
3. MRC for B2B task - Table QA
연구 의의
 다양한 구조를 가진 문서에 대한 자연어 질의응답 가능성을
알아보는 연구 첫 걸음
주요 특징
 표의 형식에 구애 받지 않고 여러 가지 형태의 표를 처리
 표의 2차원 구조를 그대로 이용하여 질의응답 가능
 표 안의 각각의 셀에 대해서 여러 feature를 추가한
풍부한 분산 표현의 표 임베딩 이용
성과
 단일 모델 EM 스코어 96.0%를 가지는 모델 TabQA 개발
 구조를 가진 비정형 데이터에 대해서도 자연어로 질의하여
원하는 답을 찾을 수 있는 가능성 확인
너무나 다양한 표의 양식…
……
그냥…전처리 하지 말까?
표를 위한 MRC model 만들기
14/ 24
3. MRC for B2B task - Table QA
표를 image처럼 행/열 구조를 그대로 받아들이도록 처리한 TabQA
TabQA 아키텍쳐
박소윤 外, 2018 KHCLT, TabQA : 표 양식의 데이터에 대한 질의응답 모델
15/ 24
모델 결과 Lv1. Lv2. Lv3. Lv4. Lv5.
Baseline 71.41% - - - - -
Baseline + field 91.06% 88.13% 97.65% 98.00% 85.95% 85.58%
Baseline + field + q-aware 94.00% 93.15% 97.45% 97.43% 91.05% 90.93%
Baseline + field + q-aware + row 93.42% 91.75% 97.18% 97.35% 90.68% 90.15%
Baseline + field + q-aware + col 96.00% 96.73% 98.80% 98.88% 92.68% 92.93%
Baseline + field + q-aware + col + row 94.96% 94.60% 99.10% 99.03% 91.35% 90.70%
Baseline + field + q-aware + col + row 90.66% 88.90% 96.70% 96.53% 86.20% 84.98%
3. MRC for B2B task - Table QA
TabQA 모델 inference 예시 및 성능평가
Table MRC
16/ 24
3. MRC for B2B task - Tree QA
양식 문서용 MRC 알고리즘을 위한 input data 처리
Tree-Node input data
 Tree-Node 형식으로 HTML, JSON, Word 등의 자료구조를 전처리
 Hierarchical한 text의 Parent-Child 관계 표현 가능
 List/Table/Plain text 표현 가능
Web(HTML) Cleansing
17/ 24
3. MRC for B2B task - Tree QA
양식 문서 MRC를 위한 TreeQA 알고리즘 idea
4
Question-aware
Embedding
엘지 짠순이
적금 우대금리
적용이율
세제 혜택
1. 신규시점에 다음
조건 충족 시..
조회기준일 :
2018.08.09…..
<table><tbody>…..
구분…
본인 한도 내 비과세
종합저축으로…..
2. 다음 항목 충족 시
최대 0.8%....
3
Children을 고려한
Embedding
(bottom-up)
2
Parent를 고려한
Embedding
(Top-down)
Node의 contents를
요약한 embedding
1
엘지 짠순이 적금
우대금리 받으려면
어떻게 해야 되나요?
엘지 짠순이 적금 ?
Kai Sheng Tai, et al., 2015 ; han Cai, et al., 2018
Tree-LSTM
Summarization
Abigail See, et al., 2017
감사합니다
김명지 선임연구원
kmj0614@lgcns.com
임승영 연구원
seungyoung.lim@lgcns.com
이주열 팀장
jooyoul.lee@lgcns.com

Contenu connexe

Tendances

자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.Yongho Ha
 
[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?NAVER D2
 
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)WON JOON YOO
 
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016Taehoon Kim
 
기계독해를 위한 BERT 언어처리 모델 활용
기계독해를 위한 BERT 언어처리 모델 활용기계독해를 위한 BERT 언어처리 모델 활용
기계독해를 위한 BERT 언어처리 모델 활용Kenneth Jung
 
[기초개념] Graph Convolutional Network (GCN)
[기초개념] Graph Convolutional Network (GCN)[기초개념] Graph Convolutional Network (GCN)
[기초개념] Graph Convolutional Network (GCN)Donghyeon Kim
 
[기초개념] Recurrent Neural Network (RNN) 소개
[기초개념] Recurrent Neural Network (RNN) 소개[기초개념] Recurrent Neural Network (RNN) 소개
[기초개념] Recurrent Neural Network (RNN) 소개Donghyeon Kim
 
[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기
[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기
[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기CONNECT FOUNDATION
 
오토인코더의 모든 것
오토인코더의 모든 것오토인코더의 모든 것
오토인코더의 모든 것NAVER Engineering
 
[모두의연구소] 쫄지말자딥러닝
[모두의연구소] 쫄지말자딥러닝[모두의연구소] 쫄지말자딥러닝
[모두의연구소] 쫄지말자딥러닝Modulabs
 
딥러닝 - 역사와 이론적 기초
딥러닝 - 역사와 이론적 기초딥러닝 - 역사와 이론적 기초
딥러닝 - 역사와 이론적 기초Hyungsoo Ryoo
 
SSDC2022 - AI for Everyone 딥러닝 논문읽고 성장하는 모임이야기
SSDC2022 - AI for Everyone 딥러닝 논문읽고 성장하는 모임이야기SSDC2022 - AI for Everyone 딥러닝 논문읽고 성장하는 모임이야기
SSDC2022 - AI for Everyone 딥러닝 논문읽고 성장하는 모임이야기taeseon ryu
 
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)徹 上野山
 
[야생의 땅: 듀랑고] 서버 아키텍처 - SPOF 없는 분산 MMORPG 서버
[야생의 땅: 듀랑고] 서버 아키텍처 - SPOF 없는 분산 MMORPG 서버[야생의 땅: 듀랑고] 서버 아키텍처 - SPOF 없는 분산 MMORPG 서버
[야생의 땅: 듀랑고] 서버 아키텍처 - SPOF 없는 분산 MMORPG 서버Heungsub Lee
 
카카오톡으로 여친 만들기 2013.06.29
카카오톡으로 여친 만들기 2013.06.29카카오톡으로 여친 만들기 2013.06.29
카카오톡으로 여친 만들기 2013.06.29Taehoon Kim
 
DeBERTA : Decoding-Enhanced BERT with Disentangled Attention
DeBERTA : Decoding-Enhanced BERT with Disentangled AttentionDeBERTA : Decoding-Enhanced BERT with Disentangled Attention
DeBERTA : Decoding-Enhanced BERT with Disentangled Attentiontaeseon ryu
 
[第2版]Python機械学習プログラミング 第11章
[第2版]Python機械学習プログラミング 第11章[第2版]Python機械学習プログラミング 第11章
[第2版]Python機械学習プログラミング 第11章Haruki Eguchi
 
코로나19로 인해 변화된 우리 시대의 데이터 트랜드
코로나19로 인해 변화된 우리 시대의 데이터 트랜드코로나19로 인해 변화된 우리 시대의 데이터 트랜드
코로나19로 인해 변화된 우리 시대의 데이터 트랜드Yongho Ha
 
지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016
지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016
지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016Taehoon Kim
 
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)Tomoyuki Hioki
 

Tendances (20)

자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다.
 
[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?[223]기계독해 QA: 검색인가, NLP인가?
[223]기계독해 QA: 검색인가, NLP인가?
 
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
딥 러닝 자연어 처리를 학습을 위한 파워포인트. (Deep Learning for Natural Language Processing)
 
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
텐서플로우 설치도 했고 튜토리얼도 봤고 기초 예제도 짜봤다면 TensorFlow KR Meetup 2016
 
기계독해를 위한 BERT 언어처리 모델 활용
기계독해를 위한 BERT 언어처리 모델 활용기계독해를 위한 BERT 언어처리 모델 활용
기계독해를 위한 BERT 언어처리 모델 활용
 
[기초개념] Graph Convolutional Network (GCN)
[기초개념] Graph Convolutional Network (GCN)[기초개념] Graph Convolutional Network (GCN)
[기초개념] Graph Convolutional Network (GCN)
 
[기초개념] Recurrent Neural Network (RNN) 소개
[기초개념] Recurrent Neural Network (RNN) 소개[기초개념] Recurrent Neural Network (RNN) 소개
[기초개념] Recurrent Neural Network (RNN) 소개
 
[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기
[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기
[부스트캠프 Tech Talk] 진명훈_datasets로 협업하기
 
오토인코더의 모든 것
오토인코더의 모든 것오토인코더의 모든 것
오토인코더의 모든 것
 
[모두의연구소] 쫄지말자딥러닝
[모두의연구소] 쫄지말자딥러닝[모두의연구소] 쫄지말자딥러닝
[모두의연구소] 쫄지말자딥러닝
 
딥러닝 - 역사와 이론적 기초
딥러닝 - 역사와 이론적 기초딥러닝 - 역사와 이론적 기초
딥러닝 - 역사와 이론적 기초
 
SSDC2022 - AI for Everyone 딥러닝 논문읽고 성장하는 모임이야기
SSDC2022 - AI for Everyone 딥러닝 논문읽고 성장하는 모임이야기SSDC2022 - AI for Everyone 딥러닝 논문읽고 성장하는 모임이야기
SSDC2022 - AI for Everyone 딥러닝 논문읽고 성장하는 모임이야기
 
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った 機械学習ことはじめ (GDG京都 機械学習勉強会)
 
[야생의 땅: 듀랑고] 서버 아키텍처 - SPOF 없는 분산 MMORPG 서버
[야생의 땅: 듀랑고] 서버 아키텍처 - SPOF 없는 분산 MMORPG 서버[야생의 땅: 듀랑고] 서버 아키텍처 - SPOF 없는 분산 MMORPG 서버
[야생의 땅: 듀랑고] 서버 아키텍처 - SPOF 없는 분산 MMORPG 서버
 
카카오톡으로 여친 만들기 2013.06.29
카카오톡으로 여친 만들기 2013.06.29카카오톡으로 여친 만들기 2013.06.29
카카오톡으로 여친 만들기 2013.06.29
 
DeBERTA : Decoding-Enhanced BERT with Disentangled Attention
DeBERTA : Decoding-Enhanced BERT with Disentangled AttentionDeBERTA : Decoding-Enhanced BERT with Disentangled Attention
DeBERTA : Decoding-Enhanced BERT with Disentangled Attention
 
[第2版]Python機械学習プログラミング 第11章
[第2版]Python機械学習プログラミング 第11章[第2版]Python機械学習プログラミング 第11章
[第2版]Python機械学習プログラミング 第11章
 
코로나19로 인해 변화된 우리 시대의 데이터 트랜드
코로나19로 인해 변화된 우리 시대의 데이터 트랜드코로나19로 인해 변화된 우리 시대의 데이터 트랜드
코로나19로 인해 변화된 우리 시대의 데이터 트랜드
 
지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016
지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016
지적 대화를 위한 깊고 넓은 딥러닝 PyCon APAC 2016
 
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
 

Similaire à 한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례

Deep Learning for AI (1)
Deep Learning for AI (1)Deep Learning for AI (1)
Deep Learning for AI (1)Dongheon Lee
 
T ka kr_4th
T ka kr_4thT ka kr_4th
T ka kr_4thSubin An
 
Into The Unknown - A Gentle Introduction to AI.pptx
Into The Unknown - A Gentle Introduction to AI.pptxInto The Unknown - A Gentle Introduction to AI.pptx
Into The Unknown - A Gentle Introduction to AI.pptxMyungHoKim10
 
Machine learning and deep learning (AiBB Lab)
Machine learning and deep learning (AiBB Lab)Machine learning and deep learning (AiBB Lab)
Machine learning and deep learning (AiBB Lab)Don Chang
 
Things Data Scientists Should Keep in Mind
Things Data Scientists Should Keep in MindThings Data Scientists Should Keep in Mind
Things Data Scientists Should Keep in MindDataya Nolja
 
Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차Taekyung Han
 
Workshop 210417 dhlee
Workshop 210417 dhleeWorkshop 210417 dhlee
Workshop 210417 dhleeDongheon Lee
 
RLHF_Lessons_learned.pdf
RLHF_Lessons_learned.pdfRLHF_Lessons_learned.pdf
RLHF_Lessons_learned.pdfssuser1bc84b
 
Coding interview
Coding interviewCoding interview
Coding interviewSoohan Ahn
 
[오컴 Clip IT 세미나] 머신러닝과 인공지능의 현재와 미래
[오컴 Clip IT 세미나] 머신러닝과 인공지능의 현재와 미래[오컴 Clip IT 세미나] 머신러닝과 인공지능의 현재와 미래
[오컴 Clip IT 세미나] 머신러닝과 인공지능의 현재와 미래Taehoon Ko
 
Deep learning framework 제작
Deep learning framework 제작Deep learning framework 제작
Deep learning framework 제작Tae Young Lee
 
PYCON KR 2017 - 구름이 하늘의 일이라면 (윤상웅)
PYCON KR 2017 - 구름이 하늘의 일이라면 (윤상웅)PYCON KR 2017 - 구름이 하늘의 일이라면 (윤상웅)
PYCON KR 2017 - 구름이 하늘의 일이라면 (윤상웅)Haezoom Inc.
 
Mrc based cdqa_Seoul chatbot
Mrc based cdqa_Seoul chatbotMrc based cdqa_Seoul chatbot
Mrc based cdqa_Seoul chatbotJun-Hyeong Lee
 
[네이버AI해커톤]어떻게 걱정을 멈추고 베이스라인을 사랑하는 법을 배우게 되었는가
[네이버AI해커톤]어떻게 걱정을 멈추고 베이스라인을 사랑하는 법을 배우게 되었는가[네이버AI해커톤]어떻게 걱정을 멈추고 베이스라인을 사랑하는 법을 배우게 되었는가
[네이버AI해커톤]어떻게 걱정을 멈추고 베이스라인을 사랑하는 법을 배우게 되었는가NAVER Engineering
 
딥러닝을 활용한 비디오 스토리 질의응답: 뽀로로QA와 심층 임베딩 메모리망
딥러닝을 활용한 비디오 스토리 질의응답: 뽀로로QA와 심층 임베딩 메모리망딥러닝을 활용한 비디오 스토리 질의응답: 뽀로로QA와 심층 임베딩 메모리망
딥러닝을 활용한 비디오 스토리 질의응답: 뽀로로QA와 심층 임베딩 메모리망NAVER Engineering
 
이미 와있는 미래와 소프트웨어씽킹
이미 와있는 미래와 소프트웨어씽킹이미 와있는 미래와 소프트웨어씽킹
이미 와있는 미래와 소프트웨어씽킹JeongHeon Lee
 
[216]딥러닝예제로보는개발자를위한통계 최재걸
[216]딥러닝예제로보는개발자를위한통계 최재걸[216]딥러닝예제로보는개발자를위한통계 최재걸
[216]딥러닝예제로보는개발자를위한통계 최재걸NAVER D2
 
앙상블 학습 기반의 추천시스템 개발
앙상블 학습 기반의 추천시스템 개발앙상블 학습 기반의 추천시스템 개발
앙상블 학습 기반의 추천시스템 개발Jungkyu Lee
 
[D2대학생세미나]lovely algrorithm
[D2대학생세미나]lovely algrorithm[D2대학생세미나]lovely algrorithm
[D2대학생세미나]lovely algrorithmNAVER D2
 

Similaire à 한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례 (20)

Deep Learning for AI (1)
Deep Learning for AI (1)Deep Learning for AI (1)
Deep Learning for AI (1)
 
T ka kr_4th
T ka kr_4thT ka kr_4th
T ka kr_4th
 
Into The Unknown - A Gentle Introduction to AI.pptx
Into The Unknown - A Gentle Introduction to AI.pptxInto The Unknown - A Gentle Introduction to AI.pptx
Into The Unknown - A Gentle Introduction to AI.pptx
 
Machine learning and deep learning (AiBB Lab)
Machine learning and deep learning (AiBB Lab)Machine learning and deep learning (AiBB Lab)
Machine learning and deep learning (AiBB Lab)
 
Things Data Scientists Should Keep in Mind
Things Data Scientists Should Keep in MindThings Data Scientists Should Keep in Mind
Things Data Scientists Should Keep in Mind
 
Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차
 
Workshop 210417 dhlee
Workshop 210417 dhleeWorkshop 210417 dhlee
Workshop 210417 dhlee
 
RLHF_Lessons_learned.pdf
RLHF_Lessons_learned.pdfRLHF_Lessons_learned.pdf
RLHF_Lessons_learned.pdf
 
Coding interview
Coding interviewCoding interview
Coding interview
 
[오컴 Clip IT 세미나] 머신러닝과 인공지능의 현재와 미래
[오컴 Clip IT 세미나] 머신러닝과 인공지능의 현재와 미래[오컴 Clip IT 세미나] 머신러닝과 인공지능의 현재와 미래
[오컴 Clip IT 세미나] 머신러닝과 인공지능의 현재와 미래
 
Deep learning framework 제작
Deep learning framework 제작Deep learning framework 제작
Deep learning framework 제작
 
PYCON KR 2017 - 구름이 하늘의 일이라면 (윤상웅)
PYCON KR 2017 - 구름이 하늘의 일이라면 (윤상웅)PYCON KR 2017 - 구름이 하늘의 일이라면 (윤상웅)
PYCON KR 2017 - 구름이 하늘의 일이라면 (윤상웅)
 
Mrc based cdqa_Seoul chatbot
Mrc based cdqa_Seoul chatbotMrc based cdqa_Seoul chatbot
Mrc based cdqa_Seoul chatbot
 
[네이버AI해커톤]어떻게 걱정을 멈추고 베이스라인을 사랑하는 법을 배우게 되었는가
[네이버AI해커톤]어떻게 걱정을 멈추고 베이스라인을 사랑하는 법을 배우게 되었는가[네이버AI해커톤]어떻게 걱정을 멈추고 베이스라인을 사랑하는 법을 배우게 되었는가
[네이버AI해커톤]어떻게 걱정을 멈추고 베이스라인을 사랑하는 법을 배우게 되었는가
 
딥러닝을 활용한 비디오 스토리 질의응답: 뽀로로QA와 심층 임베딩 메모리망
딥러닝을 활용한 비디오 스토리 질의응답: 뽀로로QA와 심층 임베딩 메모리망딥러닝을 활용한 비디오 스토리 질의응답: 뽀로로QA와 심층 임베딩 메모리망
딥러닝을 활용한 비디오 스토리 질의응답: 뽀로로QA와 심층 임베딩 메모리망
 
이미 와있는 미래와 소프트웨어씽킹
이미 와있는 미래와 소프트웨어씽킹이미 와있는 미래와 소프트웨어씽킹
이미 와있는 미래와 소프트웨어씽킹
 
[216]딥러닝예제로보는개발자를위한통계 최재걸
[216]딥러닝예제로보는개발자를위한통계 최재걸[216]딥러닝예제로보는개발자를위한통계 최재걸
[216]딥러닝예제로보는개발자를위한통계 최재걸
 
앙상블 학습 기반의 추천시스템 개발
앙상블 학습 기반의 추천시스템 개발앙상블 학습 기반의 추천시스템 개발
앙상블 학습 기반의 추천시스템 개발
 
KorQuAD v1.0 Turn up
KorQuAD v1.0 Turn upKorQuAD v1.0 Turn up
KorQuAD v1.0 Turn up
 
[D2대학생세미나]lovely algrorithm
[D2대학생세미나]lovely algrorithm[D2대학생세미나]lovely algrorithm
[D2대학생세미나]lovely algrorithm
 

Plus de NAVER Engineering

디자인 시스템에 직방 ZUIX
디자인 시스템에 직방 ZUIX디자인 시스템에 직방 ZUIX
디자인 시스템에 직방 ZUIXNAVER Engineering
 
진화하는 디자인 시스템(걸음마 편)
진화하는 디자인 시스템(걸음마 편)진화하는 디자인 시스템(걸음마 편)
진화하는 디자인 시스템(걸음마 편)NAVER Engineering
 
서비스 운영을 위한 디자인시스템 프로젝트
서비스 운영을 위한 디자인시스템 프로젝트서비스 운영을 위한 디자인시스템 프로젝트
서비스 운영을 위한 디자인시스템 프로젝트NAVER Engineering
 
BPL(Banksalad Product Language) 무야호
BPL(Banksalad Product Language) 무야호BPL(Banksalad Product Language) 무야호
BPL(Banksalad Product Language) 무야호NAVER Engineering
 
이번 생에 디자인 시스템은 처음이라
이번 생에 디자인 시스템은 처음이라이번 생에 디자인 시스템은 처음이라
이번 생에 디자인 시스템은 처음이라NAVER Engineering
 
날고 있는 여러 비행기 넘나 들며 정비하기
날고 있는 여러 비행기 넘나 들며 정비하기날고 있는 여러 비행기 넘나 들며 정비하기
날고 있는 여러 비행기 넘나 들며 정비하기NAVER Engineering
 
쏘카프레임 구축 배경과 과정
 쏘카프레임 구축 배경과 과정 쏘카프레임 구축 배경과 과정
쏘카프레임 구축 배경과 과정NAVER Engineering
 
플랫폼 디자이너 없이 디자인 시스템을 구축하는 프로덕트 디자이너의 우당탕탕 고통 연대기
플랫폼 디자이너 없이 디자인 시스템을 구축하는 프로덕트 디자이너의 우당탕탕 고통 연대기플랫폼 디자이너 없이 디자인 시스템을 구축하는 프로덕트 디자이너의 우당탕탕 고통 연대기
플랫폼 디자이너 없이 디자인 시스템을 구축하는 프로덕트 디자이너의 우당탕탕 고통 연대기NAVER Engineering
 
200820 NAVER TECH CONCERT 15_Code Review is Horse(코드리뷰는 말이야)(feat.Latte)
200820 NAVER TECH CONCERT 15_Code Review is Horse(코드리뷰는 말이야)(feat.Latte)200820 NAVER TECH CONCERT 15_Code Review is Horse(코드리뷰는 말이야)(feat.Latte)
200820 NAVER TECH CONCERT 15_Code Review is Horse(코드리뷰는 말이야)(feat.Latte)NAVER Engineering
 
200819 NAVER TECH CONCERT 03_화려한 코루틴이 내 앱을 감싸네! 코루틴으로 작성해보는 깔끔한 비동기 코드
200819 NAVER TECH CONCERT 03_화려한 코루틴이 내 앱을 감싸네! 코루틴으로 작성해보는 깔끔한 비동기 코드200819 NAVER TECH CONCERT 03_화려한 코루틴이 내 앱을 감싸네! 코루틴으로 작성해보는 깔끔한 비동기 코드
200819 NAVER TECH CONCERT 03_화려한 코루틴이 내 앱을 감싸네! 코루틴으로 작성해보는 깔끔한 비동기 코드NAVER Engineering
 
200819 NAVER TECH CONCERT 10_맥북에서도 아이맥프로에서 빌드하는 것처럼 빌드 속도 빠르게 하기
200819 NAVER TECH CONCERT 10_맥북에서도 아이맥프로에서 빌드하는 것처럼 빌드 속도 빠르게 하기200819 NAVER TECH CONCERT 10_맥북에서도 아이맥프로에서 빌드하는 것처럼 빌드 속도 빠르게 하기
200819 NAVER TECH CONCERT 10_맥북에서도 아이맥프로에서 빌드하는 것처럼 빌드 속도 빠르게 하기NAVER Engineering
 
200819 NAVER TECH CONCERT 08_성능을 고민하는 슬기로운 개발자 생활
200819 NAVER TECH CONCERT 08_성능을 고민하는 슬기로운 개발자 생활200819 NAVER TECH CONCERT 08_성능을 고민하는 슬기로운 개발자 생활
200819 NAVER TECH CONCERT 08_성능을 고민하는 슬기로운 개발자 생활NAVER Engineering
 
200819 NAVER TECH CONCERT 05_모르면 손해보는 Android 디버깅/분석 꿀팁 대방출
200819 NAVER TECH CONCERT 05_모르면 손해보는 Android 디버깅/분석 꿀팁 대방출200819 NAVER TECH CONCERT 05_모르면 손해보는 Android 디버깅/분석 꿀팁 대방출
200819 NAVER TECH CONCERT 05_모르면 손해보는 Android 디버깅/분석 꿀팁 대방출NAVER Engineering
 
200819 NAVER TECH CONCERT 09_Case.xcodeproj - 좋은 동료로 거듭나기 위한 노하우
200819 NAVER TECH CONCERT 09_Case.xcodeproj - 좋은 동료로 거듭나기 위한 노하우200819 NAVER TECH CONCERT 09_Case.xcodeproj - 좋은 동료로 거듭나기 위한 노하우
200819 NAVER TECH CONCERT 09_Case.xcodeproj - 좋은 동료로 거듭나기 위한 노하우NAVER Engineering
 
200820 NAVER TECH CONCERT 14_야 너두 할 수 있어. 비전공자, COBOL 개발자를 거쳐 네이버에서 FE 개발하게 된...
200820 NAVER TECH CONCERT 14_야 너두 할 수 있어. 비전공자, COBOL 개발자를 거쳐 네이버에서 FE 개발하게 된...200820 NAVER TECH CONCERT 14_야 너두 할 수 있어. 비전공자, COBOL 개발자를 거쳐 네이버에서 FE 개발하게 된...
200820 NAVER TECH CONCERT 14_야 너두 할 수 있어. 비전공자, COBOL 개발자를 거쳐 네이버에서 FE 개발하게 된...NAVER Engineering
 
200820 NAVER TECH CONCERT 13_네이버에서 오픈 소스 개발을 통해 성장하는 방법
200820 NAVER TECH CONCERT 13_네이버에서 오픈 소스 개발을 통해 성장하는 방법200820 NAVER TECH CONCERT 13_네이버에서 오픈 소스 개발을 통해 성장하는 방법
200820 NAVER TECH CONCERT 13_네이버에서 오픈 소스 개발을 통해 성장하는 방법NAVER Engineering
 
200820 NAVER TECH CONCERT 12_상반기 네이버 인턴을 돌아보며
200820 NAVER TECH CONCERT 12_상반기 네이버 인턴을 돌아보며200820 NAVER TECH CONCERT 12_상반기 네이버 인턴을 돌아보며
200820 NAVER TECH CONCERT 12_상반기 네이버 인턴을 돌아보며NAVER Engineering
 
200820 NAVER TECH CONCERT 11_빠르게 성장하는 슈퍼루키로 거듭나기
200820 NAVER TECH CONCERT 11_빠르게 성장하는 슈퍼루키로 거듭나기200820 NAVER TECH CONCERT 11_빠르게 성장하는 슈퍼루키로 거듭나기
200820 NAVER TECH CONCERT 11_빠르게 성장하는 슈퍼루키로 거듭나기NAVER Engineering
 
200819 NAVER TECH CONCERT 07_신입 iOS 개발자 개발업무 적응기
200819 NAVER TECH CONCERT 07_신입 iOS 개발자 개발업무 적응기200819 NAVER TECH CONCERT 07_신입 iOS 개발자 개발업무 적응기
200819 NAVER TECH CONCERT 07_신입 iOS 개발자 개발업무 적응기NAVER Engineering
 

Plus de NAVER Engineering (20)

React vac pattern
React vac patternReact vac pattern
React vac pattern
 
디자인 시스템에 직방 ZUIX
디자인 시스템에 직방 ZUIX디자인 시스템에 직방 ZUIX
디자인 시스템에 직방 ZUIX
 
진화하는 디자인 시스템(걸음마 편)
진화하는 디자인 시스템(걸음마 편)진화하는 디자인 시스템(걸음마 편)
진화하는 디자인 시스템(걸음마 편)
 
서비스 운영을 위한 디자인시스템 프로젝트
서비스 운영을 위한 디자인시스템 프로젝트서비스 운영을 위한 디자인시스템 프로젝트
서비스 운영을 위한 디자인시스템 프로젝트
 
BPL(Banksalad Product Language) 무야호
BPL(Banksalad Product Language) 무야호BPL(Banksalad Product Language) 무야호
BPL(Banksalad Product Language) 무야호
 
이번 생에 디자인 시스템은 처음이라
이번 생에 디자인 시스템은 처음이라이번 생에 디자인 시스템은 처음이라
이번 생에 디자인 시스템은 처음이라
 
날고 있는 여러 비행기 넘나 들며 정비하기
날고 있는 여러 비행기 넘나 들며 정비하기날고 있는 여러 비행기 넘나 들며 정비하기
날고 있는 여러 비행기 넘나 들며 정비하기
 
쏘카프레임 구축 배경과 과정
 쏘카프레임 구축 배경과 과정 쏘카프레임 구축 배경과 과정
쏘카프레임 구축 배경과 과정
 
플랫폼 디자이너 없이 디자인 시스템을 구축하는 프로덕트 디자이너의 우당탕탕 고통 연대기
플랫폼 디자이너 없이 디자인 시스템을 구축하는 프로덕트 디자이너의 우당탕탕 고통 연대기플랫폼 디자이너 없이 디자인 시스템을 구축하는 프로덕트 디자이너의 우당탕탕 고통 연대기
플랫폼 디자이너 없이 디자인 시스템을 구축하는 프로덕트 디자이너의 우당탕탕 고통 연대기
 
200820 NAVER TECH CONCERT 15_Code Review is Horse(코드리뷰는 말이야)(feat.Latte)
200820 NAVER TECH CONCERT 15_Code Review is Horse(코드리뷰는 말이야)(feat.Latte)200820 NAVER TECH CONCERT 15_Code Review is Horse(코드리뷰는 말이야)(feat.Latte)
200820 NAVER TECH CONCERT 15_Code Review is Horse(코드리뷰는 말이야)(feat.Latte)
 
200819 NAVER TECH CONCERT 03_화려한 코루틴이 내 앱을 감싸네! 코루틴으로 작성해보는 깔끔한 비동기 코드
200819 NAVER TECH CONCERT 03_화려한 코루틴이 내 앱을 감싸네! 코루틴으로 작성해보는 깔끔한 비동기 코드200819 NAVER TECH CONCERT 03_화려한 코루틴이 내 앱을 감싸네! 코루틴으로 작성해보는 깔끔한 비동기 코드
200819 NAVER TECH CONCERT 03_화려한 코루틴이 내 앱을 감싸네! 코루틴으로 작성해보는 깔끔한 비동기 코드
 
200819 NAVER TECH CONCERT 10_맥북에서도 아이맥프로에서 빌드하는 것처럼 빌드 속도 빠르게 하기
200819 NAVER TECH CONCERT 10_맥북에서도 아이맥프로에서 빌드하는 것처럼 빌드 속도 빠르게 하기200819 NAVER TECH CONCERT 10_맥북에서도 아이맥프로에서 빌드하는 것처럼 빌드 속도 빠르게 하기
200819 NAVER TECH CONCERT 10_맥북에서도 아이맥프로에서 빌드하는 것처럼 빌드 속도 빠르게 하기
 
200819 NAVER TECH CONCERT 08_성능을 고민하는 슬기로운 개발자 생활
200819 NAVER TECH CONCERT 08_성능을 고민하는 슬기로운 개발자 생활200819 NAVER TECH CONCERT 08_성능을 고민하는 슬기로운 개발자 생활
200819 NAVER TECH CONCERT 08_성능을 고민하는 슬기로운 개발자 생활
 
200819 NAVER TECH CONCERT 05_모르면 손해보는 Android 디버깅/분석 꿀팁 대방출
200819 NAVER TECH CONCERT 05_모르면 손해보는 Android 디버깅/분석 꿀팁 대방출200819 NAVER TECH CONCERT 05_모르면 손해보는 Android 디버깅/분석 꿀팁 대방출
200819 NAVER TECH CONCERT 05_모르면 손해보는 Android 디버깅/분석 꿀팁 대방출
 
200819 NAVER TECH CONCERT 09_Case.xcodeproj - 좋은 동료로 거듭나기 위한 노하우
200819 NAVER TECH CONCERT 09_Case.xcodeproj - 좋은 동료로 거듭나기 위한 노하우200819 NAVER TECH CONCERT 09_Case.xcodeproj - 좋은 동료로 거듭나기 위한 노하우
200819 NAVER TECH CONCERT 09_Case.xcodeproj - 좋은 동료로 거듭나기 위한 노하우
 
200820 NAVER TECH CONCERT 14_야 너두 할 수 있어. 비전공자, COBOL 개발자를 거쳐 네이버에서 FE 개발하게 된...
200820 NAVER TECH CONCERT 14_야 너두 할 수 있어. 비전공자, COBOL 개발자를 거쳐 네이버에서 FE 개발하게 된...200820 NAVER TECH CONCERT 14_야 너두 할 수 있어. 비전공자, COBOL 개발자를 거쳐 네이버에서 FE 개발하게 된...
200820 NAVER TECH CONCERT 14_야 너두 할 수 있어. 비전공자, COBOL 개발자를 거쳐 네이버에서 FE 개발하게 된...
 
200820 NAVER TECH CONCERT 13_네이버에서 오픈 소스 개발을 통해 성장하는 방법
200820 NAVER TECH CONCERT 13_네이버에서 오픈 소스 개발을 통해 성장하는 방법200820 NAVER TECH CONCERT 13_네이버에서 오픈 소스 개발을 통해 성장하는 방법
200820 NAVER TECH CONCERT 13_네이버에서 오픈 소스 개발을 통해 성장하는 방법
 
200820 NAVER TECH CONCERT 12_상반기 네이버 인턴을 돌아보며
200820 NAVER TECH CONCERT 12_상반기 네이버 인턴을 돌아보며200820 NAVER TECH CONCERT 12_상반기 네이버 인턴을 돌아보며
200820 NAVER TECH CONCERT 12_상반기 네이버 인턴을 돌아보며
 
200820 NAVER TECH CONCERT 11_빠르게 성장하는 슈퍼루키로 거듭나기
200820 NAVER TECH CONCERT 11_빠르게 성장하는 슈퍼루키로 거듭나기200820 NAVER TECH CONCERT 11_빠르게 성장하는 슈퍼루키로 거듭나기
200820 NAVER TECH CONCERT 11_빠르게 성장하는 슈퍼루키로 거듭나기
 
200819 NAVER TECH CONCERT 07_신입 iOS 개발자 개발업무 적응기
200819 NAVER TECH CONCERT 07_신입 iOS 개발자 개발업무 적응기200819 NAVER TECH CONCERT 07_신입 iOS 개발자 개발업무 적응기
200819 NAVER TECH CONCERT 07_신입 iOS 개발자 개발업무 적응기
 

한국어 MRC 연구를 위한 표준 데이터셋(KorQuAD) 소개 및 B2B를 위한 MRC 연구 사례

  • 1. Question Answering B2B를 위한 질의응답 연구 LGCNS AI연구팀
  • 2. Contents 1. Machine Reading Comprehension 2. KorQuAD 소개 3. MRC for B2B task  TabQA  TreeQA
  • 3. 2/ 24 1. Machine Reading Comprehension 기계 독해 기반의 Question Answering “LG CNS” 입니다. Question Machine User Answer Context Reading Comprehension LG CNS뉴스 일부,한국경제 세계 AI 경진대회, LG CNS “4위” LG CNS가 세계적 인공지능(AI) 학회인 인공신경망학회(NeurIPS) 주최 AI경진 대회에서 톱5에 진입하는 성과를 거뒀다 고 20일 밝혔다. LG CNS는 NeurIPS의 AI경진대회 중 ‘이미지 인식 AI 대회’에 서 미국 카네기멜론대(1위), 중국 칭화대 (2위), 캐나다 몬트리올 고등기술대(3위) 에 이어 4위에 올랐다. 톱5 수상팀 가운 데 기업은 LG CNS가 유일하다. …<후략> 세계적인 AI 경진대회에서 톱5에 든 기업 어디야?Reading
  • 4. 3/ 24 2. KorQuAD 한국어 Machine Reading Comprehension을 위한 데이터 셋 표준 데이터 현존하는 다양한 영문 데이터 SQuAD MS MARCO HotpotQA  연구자들이 쉽게 데이터 확보  논문 저술 등 연구 활동에 활발하게 활용 리더보드  연구 성과 공유의 장  객관적인 기준으로 알고리즘 성능 평가 VS 한국어 데이터 셋 부재
  • 5. 4/ 24 2. KorQuAD 한국어 위키백과를 대상으로 대규모 extractive MRC 데이터 구축 TRAIN 60,407 / DEV 5,774 / TEST 3,898 GITHUB SQuAD v1.0 데이터 생성 방식을 벤치마크하여 표준성 확보 MRC 질의응답 과제를 위한 다량의 학습데이터를 연구자들이 쉽게 확보 객관적인 기준을 가진 연구 결과 성능 공유의 장
  • 6. 5/ 24 2. KorQuAD KorQuAD Main Page Submission Tutorial (Coda Lab) CodaLab을 통해 모형 평가 후 TEST Set에서의 Score은 리더보드에 등재
  • 7. 6/ 24 2. KorQuAD_ data collection ▶ 대상 문서 수집 ▶ 질문/답변 생성 ▶ 2차 답변 태깅 알찬 글 좋은 글 기타 문서 (위키 백과에서 선정한 구성이 좋은 글) Document Crawling 위키 백과 [알찬 글]& [좋은 글] 목록으로부터 각각 100건, 143건의 문서 우선 수집 → 양질의 문서 우선 확보 추가적으로 위키백과 랜덤 탐색을 통해 총 1,637건의 문서 수집 Extract Passages 수집한 문서는 문단 단위로 정제 이미지/표/URL 제거 Passage Curation 300자 미만의 짧은 문단 제거 수식이 포함된 문단 제거
  • 8. 7/ 24 2. KorQuAD_ data collection ▶ 대상 문서 수집 ▶ 질문/답변 생성 ▶ 2차 답변 태깅 《해리 포터》(Harry Potter)는 1997년부터 2007년까지 연재된 영국의 작가 J.K. 롤링의 판타지 소설 시리즈다. 이모네 집 계단 밑 벽장 에서 생활하던 11살 소년 해리 포터가 호그와 트 마법학교에 가면서 겪게 되는 판타지 이야기 를 그리고 있다. 1997년 6월 첫 번째 책인 《해 리 포터와 마법사의 돌》이 출판되었으며, 2007년 7월 마지막 책인 《해리 포터와 죽음의 성물》이 출판되었다. 해리포터 시리즈가 큰 성 공을 거두면서 전 세계적으로 인기를 얻었으며, 영화를 비롯한 비디오 게임 및 다양한 상품들이 제작되었다. 질문을 입력하세요: 답변 영역을 드래그하세요: 작업 환경 예시 띄어쓰기 단위로 정답 영역 선택 후 조사 등을 삭제해 최소 영역 선택 작업자 구성  크라우드소싱을 통해 QA 70,000+쌍 생성  일정 등급 이상의 작업자만 참여 가능 작업 방식  한 사람은 하나의 문단에 대해 2-3개 질문 생성  하나의 문단은 3명에게 할당함  → 한 문단 당 총 6~9개의 질문 생성  → 질문 어휘의 다양성을 유도 환경 구성  작업 환경 구성 시 Copy& Paste를 방지  자신의 단어로 질문을 생성할 것을 강력하게 명시  질문 예시에 대한 상세 가이드라인 제시
  • 9. 8/ 24 2. KorQuAD_ data collection ▶ 대상 문서 수집 ▶ 질문/답변 생성 ▶ 2차 답변 태깅 TRAIN DEV TEST TOTAL 문서 1,420 140 77 1,637 질문 60,407 5,774 3,898 70,079 KorQuAD 데이터 셋 통계 2차 답변 태깅 대상 목적  Human performance 측정 방법 140개 문서에 대해 각각 2개의 질의를 랜덤 추출  2차 작업자는 문단 & 질문을 보고 답변 영역 선택 결과  TEST 데이터 EM 80.17% / F1 91.20%  (참고) SQuAD v1.1 human performance
  • 10. 9/ 24 2. KorQuAD_ dataset analysis 구문 변형 (56.4%) Q: 제 1회 문학동네 작가상을 수상한 작품으로, 96년 발표 된 장편소설은? … 작품활동을 시작하였고 이듬해 96년 장편 《나는 나를 파 괴할 권리가 있다》로 제1회 문학동네 작가상을 수상하였 다. 어휘 변형 (유의어 ) (13.6%) Q: … 서덜랜드가 무엇을 발전시킨 것을 시작으로 연구가 시 작되었는가? 서덜랜드가 see-through HMD를 발전시킨 것을 시초로 연 구… 증강현실은 … 어휘 변형 (일반상식) (3.9%) Q: 해외에서 활동하는 Kayip, Superdrive와 결성한 프로젝 트 그룹의 이름은? 영국에서 활동하고 있는 Kayip, 베를린에서 … Superdrive와 … ‘모텟’을 결성 여러 문장 근거 종합 적 활용 (19.6%) Q: 클레멘스가 명예의 전당에 입성하지 못한 이유는? … 이 투수들이 클레멘스를 제외하고 모두 명예의 전당에 올랐기 때문이다. 클레멘스만이 … 받았다. 그는 경기력 향 상 약물 사용에 연루되어 있기 때문에 입성 여부가 불확 실... 논리적 추 론 요구 (3.6%) Q. 대한민국 제17대 대통령 선거 당시 후보로 등록했으나 예비경선의 경선 후보로 뽑히지 못한 사람 중 법무부와 관련 있는 사람은? 정동영 전 열린우리당 의장, …, 천정배 전 법무부 장관, … 등이 후보로 등록하였고… 예비경선으로 정동영, 손학규, 이해찬, 한명숙, 유시민 후보가 경선 후보로 결정되었다. 기타 출제 오류 (2.9%) Q. 티베트 고원에서 발원하는 강은? … 강들이 티베트 고원에서 발원하는데, 창장, 황허, (…), 살 윈 강 등이 포함된다. 56.4% 13.6% 3.9% 19.6% 3.6% 2.9% 구문 변형 (유의어) (일반상식) 여러 문장의 근거 활용 논리적 추론(오류) 어휘 변형 KorQuAD 질문 유형
  • 11. 10/ 24 2. KorQuAD_ dataset analysis 0% 20% 40% 60% 80% 100% SQuAD KorQuAD 대상 인물 시간 장소 방법 원인 55.4% 23.2% 8.9% 7.5% 4.3% 0.7% 대상 인물 시 간 장 소 방 법 원인 KorQuAD 답변 유형 ⇒ 영문 표준 데이터와 특성이 유사함을 확인
  • 12. 11/ 24 2. KorQuAD_ baseline model analysis METRIC RESULT 복을 하고 난 직후에 내시가 왕이 입고 있던 옷을 재빨리 지 붕 아래로 … 그 옷을 덮고 5일간 살아나기를 기다렸다. Q: 복의식 직후 왕의 옷을 아래에 있는 내시에게 던지면 곧장 죽은 왕의 몸 위에 덮고 며칠간을 기다렸는가? Ground Truth : 5일간 (영문: for 5 days) Predicted Answer : 5일 (영문: 5 days) 어절 단위 F1 음절 단위 F1 SQuAD (영문) 0% 80% 80% EM: 실제 정답과 정확하게 일치하는 예측치의 비율. F1: 실제 정답과 예측치의 겹치는 부분을 고려한 점수로, EM보 다 완화된 평가 척도. 한국어에서 어절 단위로 F1을 구할 경우 다양한 활용형태로 인해 영문의 F1보다 낮게 측정되어 음절 단위의 F1을 도입. 검증 데이터 테스트 데이터 EM F1 EM F1 Baseline* 71.68% 82.87% 71.52% 82.99% Human - - 80.17% 91.20% ▽ 질문 유형에 따른 Performance 비교 E2E NN model을 KorQuAD 학습 데이터를 100 epoch만큼 학습 ▽ Machine performance vs. human performance ▽ KorQuAD F1 계산 예시 𝑆3-Net(Park, 2017) 구문 변형 어휘 변형 (유의어 활용) 어휘 변형 (일반상식 활용) 여러 문장의 근거 활용 논리적 추론 요구 Machine EM 69.62% 60.53% 72.73% 72.73% 70.00% Human EM 74.68% 76.32% 90.91% 83.64% 80.00% 40% 50% 60% 70% 80% 90%
  • 13. 12/ 24 3. MRC for B2B task 다양한 구조양식을 가진 기업용 데이터를 위한 MRC LG CNS는 1987년 1월 설립된 LG그룹의 IT 계열사이다. LG그룹과 미국 EDS가 50:50 합작으로 설립하여 사명은 STM이였으나, 1995년 LG-EDS시스템으로 변경하였고, 합작 계약이 종료된 후 2002년 현재의 이름으로 바꿨다. CNS의 C는 Consulting, Communication, Connection, Collaboration, N은 Network, New, And, S는 Solution, System, Service 등 다양한 의미… <후략> LG CNS는 몇 년도에 현재의 이름을 갖게 되었죠? Answer : “2002년” Start index : 119 현재의 MRC 기술/연구는 정제된 plain text를 대상 - 구조를 가진 문서를 전처리하여 평문화해야 함 - 개조식 구조의 상하계층 정보를 반영할 수 없음 - 표, 목록에 대한 처리가 어려움 - 제목과 내용이 멀어질 경우 제대로 응답할 수 없음 실제 기업에서 보유한 문서는 구조가 있는 경우가 대부분 - 구조가 있는 문서를 그대로 반영하여 input으로 사용하자 ! - 표, 계층구조, 목록에 대해 최대한 유연하게 처리하자 ! - Table에 대한 MRC 가능성을 확인하자 ! - 양식을 가진 문서에 대한 MRC 가능성을 확장하야 확인하자 ! AS-IS TO-BE
  • 14. 13/ 24 3. MRC for B2B task - Table QA 연구 의의  다양한 구조를 가진 문서에 대한 자연어 질의응답 가능성을 알아보는 연구 첫 걸음 주요 특징  표의 형식에 구애 받지 않고 여러 가지 형태의 표를 처리  표의 2차원 구조를 그대로 이용하여 질의응답 가능  표 안의 각각의 셀에 대해서 여러 feature를 추가한 풍부한 분산 표현의 표 임베딩 이용 성과  단일 모델 EM 스코어 96.0%를 가지는 모델 TabQA 개발  구조를 가진 비정형 데이터에 대해서도 자연어로 질의하여 원하는 답을 찾을 수 있는 가능성 확인 너무나 다양한 표의 양식… …… 그냥…전처리 하지 말까? 표를 위한 MRC model 만들기
  • 15. 14/ 24 3. MRC for B2B task - Table QA 표를 image처럼 행/열 구조를 그대로 받아들이도록 처리한 TabQA TabQA 아키텍쳐 박소윤 外, 2018 KHCLT, TabQA : 표 양식의 데이터에 대한 질의응답 모델
  • 16. 15/ 24 모델 결과 Lv1. Lv2. Lv3. Lv4. Lv5. Baseline 71.41% - - - - - Baseline + field 91.06% 88.13% 97.65% 98.00% 85.95% 85.58% Baseline + field + q-aware 94.00% 93.15% 97.45% 97.43% 91.05% 90.93% Baseline + field + q-aware + row 93.42% 91.75% 97.18% 97.35% 90.68% 90.15% Baseline + field + q-aware + col 96.00% 96.73% 98.80% 98.88% 92.68% 92.93% Baseline + field + q-aware + col + row 94.96% 94.60% 99.10% 99.03% 91.35% 90.70% Baseline + field + q-aware + col + row 90.66% 88.90% 96.70% 96.53% 86.20% 84.98% 3. MRC for B2B task - Table QA TabQA 모델 inference 예시 및 성능평가 Table MRC
  • 17. 16/ 24 3. MRC for B2B task - Tree QA 양식 문서용 MRC 알고리즘을 위한 input data 처리 Tree-Node input data  Tree-Node 형식으로 HTML, JSON, Word 등의 자료구조를 전처리  Hierarchical한 text의 Parent-Child 관계 표현 가능  List/Table/Plain text 표현 가능 Web(HTML) Cleansing
  • 18. 17/ 24 3. MRC for B2B task - Tree QA 양식 문서 MRC를 위한 TreeQA 알고리즘 idea 4 Question-aware Embedding 엘지 짠순이 적금 우대금리 적용이율 세제 혜택 1. 신규시점에 다음 조건 충족 시.. 조회기준일 : 2018.08.09….. <table><tbody>….. 구분… 본인 한도 내 비과세 종합저축으로….. 2. 다음 항목 충족 시 최대 0.8%.... 3 Children을 고려한 Embedding (bottom-up) 2 Parent를 고려한 Embedding (Top-down) Node의 contents를 요약한 embedding 1 엘지 짠순이 적금 우대금리 받으려면 어떻게 해야 되나요? 엘지 짠순이 적금 ? Kai Sheng Tai, et al., 2015 ; han Cai, et al., 2018 Tree-LSTM Summarization Abigail See, et al., 2017