SlideShare une entreprise Scribd logo
1  sur  12
Télécharger pour lire hors ligne
Дипломная работа



    Реализация метода
автоматического разрешения
лексической многозначности

                             Леонид Сошинский

           научный руководитель: Н.В. Лукашевич
Основные понятия
            Лексическая многозначность
                                            Примеры:
                  Зелёные листья малины украшали сад.
            Ещё совсем зелёные, новички пахали огород.




Разрешение лексической многозначности (WSD, word sense
disambiguation) – это задача выбора значения
многозначного слова или словосочетания в зависимости от
контекста.
Методы разрешения лексической многозначности

                    4 основных типа:


1. методы, основанные на знаниях (используются словари,
простые правила)
2. методы обучения с учителем (supervised methods,
используют размеченные корпуса текстов для тренировки
классификатора)
3. методы частичного обучения с учителем (semi-supervised,
исп-ся вторичные знания, косвенные знания)
4. методы обучения без учителя (unsupervised methods,
кластеризация, используется неразмеченный корпус)
Постановка задачи
1. Изучить методы обучения с учителем для разрешения
лексической многозначности и выбрать один для исследования
2. Подготовить для исследования выбранного метода:
– репрезентативную выборку многозначных слов русского языка
– размеченный корпус контекстов этих слов
3. Провести исследование метода и на этой основе подобрать
признаки с параметрами, обеспечивающие наибольшую точность
разрешения лексической многозначности
Выбор метода
5 наиболее распространённых методов:
● SVM / метод опорных векторов (+ высокая эффективность)

● AdaBoost (– чувствительна к шуму в данных)

● kNN / метод N ближайших соседей (+ легко-реализуемый)

● NaïveBayes (–требует независимости признаков,+требует мало

данных)
● Decision Lists / списки принятия решений (+ высокая скорость

работы)
NB! всем методам для работы необходим размеченный корпус.

Выбран: метод ближайших соседей (kNN), т.к. все методы близки
друг к другу по точности, а выбранный метод интуитивно лёгок для
понимания, а также наиболее эффективен среди простых методов

Легкоустраняемые недостатки:
– чувствительность к нерелевантным признакам → введение весов
– перевешивание количества далёких соседей над близкими →
введение весов у объектов (соседей)
Метод ближайших соседей (kNN)
●
  Основная идея: объект присваивается тому классу, который
является наиболее распространённым среди его N ближайших соседей.
●
  Расстояние между соседями:


●
  Параметры:
k – количество соседей
w — веса каждого из признаков
m – метрика расст-я (δ) между примерами
d – дополнительные веса расстояний

●
    Пример работы алгоритма (при k=3 и k=5)

●
    Программная реализация:
       машина TiMBL (нах-ся в свободном доступе)
Формирование тестовой выборки слов
Тезаурусы: WordNet, EuroWordNet, BalkanNet, MultiWordNet, ruWordnet
(3 разных проекта), РуТез,...
Выбрано: РуТез (рус. тезаурус, 45 т. понятий, 107 т. слов и выраж.)
Структура многозначного слова в РуТез:
 слово —       значение          —       синонимы
КОРЗИНКА — КОРЗИНКА (СОЦВЕТИЕ)   —   КОРЗИНКА СОЦВЕТИЯ, КОРЗИНОЧНЫЙ
КОРЗИНКА — ПЛЕТЕНАЯ КОРЗИНА      — ЛУКОШКО, ПЛЕТЕНАЯ КОРЗИНА

Формирование тестовой коллекции:
Был написан модуль, с помощью которого слова разбиваются на 18
групп:
– по частотности
– части речи
– по степени многозначности
и случайным образом было выбрано 84 слова (по 7 в каждой группе),
чем и обеспечивалась репрезентативность.
Формирование размеченного корпуса контекстов
     Возможные методы:
– выдача поисковых движков
– bootstrapping
– двуязычные выравненные корпусы
– каталоги веб-страниц
– коллаборативное пополнение корпуса

●
    Выбрано: поисковая машина Яндекс, сервис Yandex.XML

●
 Принцип работы: получение контекстов с помощью включения в поисковый
запрос не самого многозначного слова, а его однозначных синонимов и других
семантически связанных с ним слов (гипонимы, гиперонимы, дериваты и т.д.)

●
 Как выглядят запросы:
– художественная коллекция                       host:lib.rus.ec inurl:read
– русскоязычные документы                                           lang:ru
– основная часть запроса                  !!ПОСТАВИТЬ && /1 !!ПОДПИСЬ
– фильтры
Полученный корпус
Результат: каждому значению слову было получено около 500-1000 контекстов

Структура корпуса: состоит из определённых групп контекстов, что позволяет
добиться его разнообразия и репрезентативности:
– ¼: контексты однозначных синонимов, взятые из интернета
– ¼: контексты однозначных синонимов, взятые из художественной коллекции
– 1/6: контексты однозначных синонимов другой части речи
– 1/6: контексты многозначных синонимов
– 1/6: контексты гипонимов-гиперонимов

Пример работы фильтров:
●
  контексты, в которых присутствует шум, чаще словарные контексты:
"ОБЕДНЕЛЫЙ, -ая, -ое; -ел (разг.) || сущ. обеднелость, -и, ж."     ~~ словарь
●
  слишком короткие контексты, не несущие смысла
●
  контексты на других языках
●
  убирание дублей

Качество корпуса: была проведена выборочная проверка (проверено 6 слов,
все их значения, около 10% их контекстов, плохие тезаурусные данные не
рассматривались), эффективность: ~88-90%
Исследование метода kNN
●
    Выбор признаков (характеристики контекстов)
Для слов контекста [w-3, w-2, w-1, w, w+1, w+2, w+3] учитываются локальные
признаки: морфологические (падежи, спряжения, переходность, аспект
глаголов и т.п.) и стилистические (обсцентная, устаревшая, редкая,
разговорная лексика, неологизмы,...)

Всего около 80 признаков, глобальных нет, в качестве морфологического
анализатора используется mystem (Яндекс).

●
    Подбор параметров обучения
1. количество соседей (5, 10, 15, 20, 30)
2. алгоритм вычисления веса признаков w (без весов, Gain Ratio, Info
Gain, хи-квадрат, Shared variance weighting)
3. метрика m расстояния между соседями (перекрывающая метрика,
Jeffrey divergence, MVDM, Numeric, Dice coefficient)
4. дополнительные веса расстояний d (без весов, Inverse Distance,
Inverse Linear, Exponential Decay)

●
 Выбрано: 10 соседей, веса – алгоритм Gain Ratio, метрика — Dice
coefficient, доп. веса — Inverse Linear
Работа программной системы
     модуль
  формирования       Тезаурус
тестовой выборки

                                       mystem



                                      Модуль
          Модуль       контексты   формирования признаки
        получения                    признаков               TiMBL
        контекстов                 для обучения


                                                           результаты

          Yandex.XML
Результаты работы
1. Были изучены методы обучения с учителем для разрешения лексиче-
    ской многозначности
2. Была разработана программная система, позволяющая проводить про-
    цесс разрешения для слов и включающая:
        –   модуль формирования тестовой выборки
        –   модуль получения размеченного корпуса
        –   модуль обработки контекстов и формирования признаков
3. С помощью неё была выбрана репрезентативная выборка многозначных
    слов русского языка, а для неё получен размеченный корпус для обу-
    чения.
4. Было исследовано наиболее эффективное сочетание параметров мето-
    да разрешения лексической многозначности; полученные результаты
    точности: 71-90%.

Contenu connexe

Tendances

Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)NLPseminar
 
07 автоматическое реферирование
07 автоматическое реферирование07 автоматическое реферирование
07 автоматическое реферированиеLidia Pivovarova
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферированияArtem Lukanin
 
Question Classification by Fedor Vityugin
Question Classification by Fedor VityuginQuestion Classification by Fedor Vityugin
Question Classification by Fedor VityuginFedor
 
08 машинный перевод
08 машинный перевод08 машинный перевод
08 машинный переводLidia Pivovarova
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовYandex
 
RuSSIR 2008. Как это было...
RuSSIR 2008. Как это было...RuSSIR 2008. Как это было...
RuSSIR 2008. Как это было...NLPseminar
 
Презентация
ПрезентацияПрезентация
Презентацияdfcbkmtdf
 

Tendances (15)

Извлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстовИзвлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстов
 
Языконезависимое определение авторства текста на базе языковых моделей
Языконезависимое определение авторства текста на базе языковых моделейЯзыконезависимое определение авторства текста на базе языковых моделей
Языконезависимое определение авторства текста на базе языковых моделей
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 
Комбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоименийКомбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоимений
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)
 
07 автоматическое реферирование
07 автоматическое реферирование07 автоматическое реферирование
07 автоматическое реферирование
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферирования
 
Системы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератовСистемы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератов
 
PressPortrets
PressPortretsPressPortrets
PressPortrets
 
Question Classification by Fedor Vityugin
Question Classification by Fedor VityuginQuestion Classification by Fedor Vityugin
Question Classification by Fedor Vityugin
 
08 машинный перевод
08 машинный перевод08 машинный перевод
08 машинный перевод
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстов
 
RuSSIR 2008. Как это было...
RuSSIR 2008. Как это было...RuSSIR 2008. Как это было...
RuSSIR 2008. Как это было...
 
Презентация
ПрезентацияПрезентация
Презентация
 
Информационный поиск. Методы оценки качества поиска. Эволюция результатов
Информационный поиск. Методы оценки качества поиска. Эволюция результатовИнформационный поиск. Методы оценки качества поиска. Эволюция результатов
Информационный поиск. Методы оценки качества поиска. Эволюция результатов
 

En vedette

20120415 videorecognition konushin_lecture05
20120415 videorecognition konushin_lecture0520120415 videorecognition konushin_lecture05
20120415 videorecognition konushin_lecture05Computer Science Club
 
FaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewFaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewKhryashchev
 
JetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformaticsJetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformaticsolegshpynov
 
Supervised ML in Practice: Tips & Tricks
Supervised ML in Practice:  Tips & TricksSupervised ML in Practice:  Tips & Tricks
Supervised ML in Practice: Tips & TricksDzianis Pirshtuk
 
L11: Метод ансамблей
L11: Метод ансамблейL11: Метод ансамблей
L11: Метод ансамблейTechnosphere1
 
Локализация лиц с помощью детектора Виолы-Джонс
Локализация лиц с помощью детектора Виолы-ДжонсЛокализация лиц с помощью детектора Виолы-Джонс
Локализация лиц с помощью детектора Виолы-ДжонсArtyom Shklovets
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Technosphere1
 
К.В. Воронцов "Линейные методы классификации"
К.В. Воронцов "Линейные методы классификации"К.В. Воронцов "Линейные методы классификации"
К.В. Воронцов "Линейные методы классификации"Yandex
 
GBM package in r
GBM package in rGBM package in r
GBM package in rmark_landry
 

En vedette (10)

Marta_Egorova
Marta_EgorovaMarta_Egorova
Marta_Egorova
 
20120415 videorecognition konushin_lecture05
20120415 videorecognition konushin_lecture0520120415 videorecognition konushin_lecture05
20120415 videorecognition konushin_lecture05
 
FaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewFaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_review
 
JetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformaticsJetPoint meeting @JetBrains on bioinformatics
JetPoint meeting @JetBrains on bioinformatics
 
Supervised ML in Practice: Tips & Tricks
Supervised ML in Practice:  Tips & TricksSupervised ML in Practice:  Tips & Tricks
Supervised ML in Practice: Tips & Tricks
 
L11: Метод ансамблей
L11: Метод ансамблейL11: Метод ансамблей
L11: Метод ансамблей
 
Локализация лиц с помощью детектора Виолы-Джонс
Локализация лиц с помощью детектора Виолы-ДжонсЛокализация лиц с помощью детектора Виолы-Джонс
Локализация лиц с помощью детектора Виолы-Джонс
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение"
 
К.В. Воронцов "Линейные методы классификации"
К.В. Воронцов "Линейные методы классификации"К.В. Воронцов "Линейные методы классификации"
К.В. Воронцов "Линейные методы классификации"
 
GBM package in r
GBM package in rGBM package in r
GBM package in r
 

Similaire à Реализация метода автоматического разрешения лексической многозначности

AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...GeeksLab Odessa
 
В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...
В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...
В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...ЗПШ СПбГУ
 
проект урока
проект урокапроект урока
проект урокаGulja
 
Пособие "Технология разработки дистанционного курса"
Пособие "Технология разработки дистанционного курса"Пособие "Технология разработки дистанционного курса"
Пособие "Технология разработки дистанционного курса"Vladimir Kukharenko
 
определение наиболее эффективного варианта работы над ошибками в пятом классе
определение наиболее эффективного варианта работы над ошибками в пятом классеопределение наиболее эффективного варианта работы над ошибками в пятом классе
определение наиболее эффективного варианта работы над ошибками в пятом классеНаталья Тарасова
 
Презентация пособия "Технология разработки дистанционного курса. Кухаренко В....
Презентация пособия "Технология разработки дистанционного курса. Кухаренко В....Презентация пособия "Технология разработки дистанционного курса. Кухаренко В....
Презентация пособия "Технология разработки дистанционного курса. Кухаренко В....Сообщество eLearning PRO
 
ме имя существительное
ме  имя существительноеме  имя существительное
ме имя существительное15041982
 
ме имя существительное
ме  имя существительноеме  имя существительное
ме имя существительное15041982
 
ме имя существительное
ме  имя существительноеме  имя существительное
ме имя существительное15041982
 
Системы автоматического синтеза речи
Системы автоматического синтеза речиСистемы автоматического синтеза речи
Системы автоматического синтеза речиArtem Lukanin
 
УЧЕБНО-МЕТОДИЧЕСКИЙ КОМПЛЕКС «Современные технологии в обучении русскому язык...
УЧЕБНО-МЕТОДИЧЕСКИЙ КОМПЛЕКС «Современные технологии в обучении русскому язык...УЧЕБНО-МЕТОДИЧЕСКИЙ КОМПЛЕКС «Современные технологии в обучении русскому язык...
УЧЕБНО-МЕТОДИЧЕСКИЙ КОМПЛЕКС «Современные технологии в обучении русскому язык...menrf
 
17.03 большакова
17.03 большакова17.03 большакова
17.03 большаковаNatalia Ostapuk
 

Similaire à Реализация метода автоматического разрешения лексической многозначности (20)

Разрешение лексической неоднозначности
Разрешение лексической неоднозначностиРазрешение лексической неоднозначности
Разрешение лексической неоднозначности
 
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
Автоматическое построение лексико-синтаксических шаблонов по текстам предметн...
 
нити
нитинити
нити
 
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с...
 
В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...
В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...
В.Ф.Спиридонов "Психология языка, или почему психологи так плохо различают ба...
 
проект урока
проект урокапроект урока
проект урока
 
Извлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусовИзвлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусов
 
Пособие "Технология разработки дистанционного курса"
Пособие "Технология разработки дистанционного курса"Пособие "Технология разработки дистанционного курса"
Пособие "Технология разработки дистанционного курса"
 
Ruwikt
RuwiktRuwikt
Ruwikt
 
определение наиболее эффективного варианта работы над ошибками в пятом классе
определение наиболее эффективного варианта работы над ошибками в пятом классеопределение наиболее эффективного варианта работы над ошибками в пятом классе
определение наиболее эффективного варианта работы над ошибками в пятом классе
 
Презентация пособия "Технология разработки дистанционного курса. Кухаренко В....
Презентация пособия "Технология разработки дистанционного курса. Кухаренко В....Презентация пособия "Технология разработки дистанционного курса. Кухаренко В....
Презентация пособия "Технология разработки дистанционного курса. Кухаренко В....
 
ме имя существительное
ме  имя существительноеме  имя существительное
ме имя существительное
 
ме имя существительное
ме  имя существительноеме  имя существительное
ме имя существительное
 
ме имя существительное
ме  имя существительноеме  имя существительное
ме имя существительное
 
план урока
план урокаплан урока
план урока
 
Кластеризация русскоязычных текстов на основе латентно-семантического анализа
Кластеризация русскоязычных текстов на основе латентно-семантического анализаКластеризация русскоязычных текстов на основе латентно-семантического анализа
Кластеризация русскоязычных текстов на основе латентно-семантического анализа
 
Программные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстахПрограммные средства выявления теминологических вариантов в текстах
Программные средства выявления теминологических вариантов в текстах
 
Системы автоматического синтеза речи
Системы автоматического синтеза речиСистемы автоматического синтеза речи
Системы автоматического синтеза речи
 
УЧЕБНО-МЕТОДИЧЕСКИЙ КОМПЛЕКС «Современные технологии в обучении русскому язык...
УЧЕБНО-МЕТОДИЧЕСКИЙ КОМПЛЕКС «Современные технологии в обучении русскому язык...УЧЕБНО-МЕТОДИЧЕСКИЙ КОМПЛЕКС «Современные технологии в обучении русскому язык...
УЧЕБНО-МЕТОДИЧЕСКИЙ КОМПЛЕКС «Современные технологии в обучении русскому язык...
 
17.03 большакова
17.03 большакова17.03 большакова
17.03 большакова
 

Plus de Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

Plus de Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (20)

Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
Можарова. Автоматическое извлечение именованных сущностей методами машинного ...
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 
Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 
Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)
 
Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2
 
смирнов Data mining
смирнов Data miningсмирнов Data mining
смирнов Data mining
 
рогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированиюрогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированию
 
курышев рекомендательные системы
курышев рекомендательные системыкурышев рекомендательные системы
курышев рекомендательные системы
 
куликов Sketch engine ord
куликов Sketch engine ordкуликов Sketch engine ord
куликов Sketch engine ord
 
кулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выраженийкулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выражений
 

Реализация метода автоматического разрешения лексической многозначности

  • 1. Дипломная работа Реализация метода автоматического разрешения лексической многозначности Леонид Сошинский научный руководитель: Н.В. Лукашевич
  • 2. Основные понятия Лексическая многозначность Примеры: Зелёные листья малины украшали сад. Ещё совсем зелёные, новички пахали огород. Разрешение лексической многозначности (WSD, word sense disambiguation) – это задача выбора значения многозначного слова или словосочетания в зависимости от контекста.
  • 3. Методы разрешения лексической многозначности 4 основных типа: 1. методы, основанные на знаниях (используются словари, простые правила) 2. методы обучения с учителем (supervised methods, используют размеченные корпуса текстов для тренировки классификатора) 3. методы частичного обучения с учителем (semi-supervised, исп-ся вторичные знания, косвенные знания) 4. методы обучения без учителя (unsupervised methods, кластеризация, используется неразмеченный корпус)
  • 4. Постановка задачи 1. Изучить методы обучения с учителем для разрешения лексической многозначности и выбрать один для исследования 2. Подготовить для исследования выбранного метода: – репрезентативную выборку многозначных слов русского языка – размеченный корпус контекстов этих слов 3. Провести исследование метода и на этой основе подобрать признаки с параметрами, обеспечивающие наибольшую точность разрешения лексической многозначности
  • 5. Выбор метода 5 наиболее распространённых методов: ● SVM / метод опорных векторов (+ высокая эффективность) ● AdaBoost (– чувствительна к шуму в данных) ● kNN / метод N ближайших соседей (+ легко-реализуемый) ● NaïveBayes (–требует независимости признаков,+требует мало данных) ● Decision Lists / списки принятия решений (+ высокая скорость работы) NB! всем методам для работы необходим размеченный корпус. Выбран: метод ближайших соседей (kNN), т.к. все методы близки друг к другу по точности, а выбранный метод интуитивно лёгок для понимания, а также наиболее эффективен среди простых методов Легкоустраняемые недостатки: – чувствительность к нерелевантным признакам → введение весов – перевешивание количества далёких соседей над близкими → введение весов у объектов (соседей)
  • 6. Метод ближайших соседей (kNN) ● Основная идея: объект присваивается тому классу, который является наиболее распространённым среди его N ближайших соседей. ● Расстояние между соседями: ● Параметры: k – количество соседей w — веса каждого из признаков m – метрика расст-я (δ) между примерами d – дополнительные веса расстояний ● Пример работы алгоритма (при k=3 и k=5) ● Программная реализация: машина TiMBL (нах-ся в свободном доступе)
  • 7. Формирование тестовой выборки слов Тезаурусы: WordNet, EuroWordNet, BalkanNet, MultiWordNet, ruWordnet (3 разных проекта), РуТез,... Выбрано: РуТез (рус. тезаурус, 45 т. понятий, 107 т. слов и выраж.) Структура многозначного слова в РуТез: слово — значение — синонимы КОРЗИНКА — КОРЗИНКА (СОЦВЕТИЕ) — КОРЗИНКА СОЦВЕТИЯ, КОРЗИНОЧНЫЙ КОРЗИНКА — ПЛЕТЕНАЯ КОРЗИНА — ЛУКОШКО, ПЛЕТЕНАЯ КОРЗИНА Формирование тестовой коллекции: Был написан модуль, с помощью которого слова разбиваются на 18 групп: – по частотности – части речи – по степени многозначности и случайным образом было выбрано 84 слова (по 7 в каждой группе), чем и обеспечивалась репрезентативность.
  • 8. Формирование размеченного корпуса контекстов Возможные методы: – выдача поисковых движков – bootstrapping – двуязычные выравненные корпусы – каталоги веб-страниц – коллаборативное пополнение корпуса ● Выбрано: поисковая машина Яндекс, сервис Yandex.XML ● Принцип работы: получение контекстов с помощью включения в поисковый запрос не самого многозначного слова, а его однозначных синонимов и других семантически связанных с ним слов (гипонимы, гиперонимы, дериваты и т.д.) ● Как выглядят запросы: – художественная коллекция host:lib.rus.ec inurl:read – русскоязычные документы lang:ru – основная часть запроса !!ПОСТАВИТЬ && /1 !!ПОДПИСЬ – фильтры
  • 9. Полученный корпус Результат: каждому значению слову было получено около 500-1000 контекстов Структура корпуса: состоит из определённых групп контекстов, что позволяет добиться его разнообразия и репрезентативности: – ¼: контексты однозначных синонимов, взятые из интернета – ¼: контексты однозначных синонимов, взятые из художественной коллекции – 1/6: контексты однозначных синонимов другой части речи – 1/6: контексты многозначных синонимов – 1/6: контексты гипонимов-гиперонимов Пример работы фильтров: ● контексты, в которых присутствует шум, чаще словарные контексты: "ОБЕДНЕЛЫЙ, -ая, -ое; -ел (разг.) || сущ. обеднелость, -и, ж." ~~ словарь ● слишком короткие контексты, не несущие смысла ● контексты на других языках ● убирание дублей Качество корпуса: была проведена выборочная проверка (проверено 6 слов, все их значения, около 10% их контекстов, плохие тезаурусные данные не рассматривались), эффективность: ~88-90%
  • 10. Исследование метода kNN ● Выбор признаков (характеристики контекстов) Для слов контекста [w-3, w-2, w-1, w, w+1, w+2, w+3] учитываются локальные признаки: морфологические (падежи, спряжения, переходность, аспект глаголов и т.п.) и стилистические (обсцентная, устаревшая, редкая, разговорная лексика, неологизмы,...) Всего около 80 признаков, глобальных нет, в качестве морфологического анализатора используется mystem (Яндекс). ● Подбор параметров обучения 1. количество соседей (5, 10, 15, 20, 30) 2. алгоритм вычисления веса признаков w (без весов, Gain Ratio, Info Gain, хи-квадрат, Shared variance weighting) 3. метрика m расстояния между соседями (перекрывающая метрика, Jeffrey divergence, MVDM, Numeric, Dice coefficient) 4. дополнительные веса расстояний d (без весов, Inverse Distance, Inverse Linear, Exponential Decay) ● Выбрано: 10 соседей, веса – алгоритм Gain Ratio, метрика — Dice coefficient, доп. веса — Inverse Linear
  • 11. Работа программной системы модуль формирования Тезаурус тестовой выборки mystem Модуль Модуль контексты формирования признаки получения признаков TiMBL контекстов для обучения результаты Yandex.XML
  • 12. Результаты работы 1. Были изучены методы обучения с учителем для разрешения лексиче- ской многозначности 2. Была разработана программная система, позволяющая проводить про- цесс разрешения для слов и включающая: – модуль формирования тестовой выборки – модуль получения размеченного корпуса – модуль обработки контекстов и формирования признаков 3. С помощью неё была выбрана репрезентативная выборка многозначных слов русского языка, а для неё получен размеченный корпус для обу- чения. 4. Было исследовано наиболее эффективное сочетание параметров мето- да разрешения лексической многозначности; полученные результаты точности: 71-90%.