кулагин поиск близких по смыслу языковых выражений
Реализация метода автоматического разрешения лексической многозначности
1. Дипломная работа
Реализация метода
автоматического разрешения
лексической многозначности
Леонид Сошинский
научный руководитель: Н.В. Лукашевич
2. Основные понятия
Лексическая многозначность
Примеры:
Зелёные листья малины украшали сад.
Ещё совсем зелёные, новички пахали огород.
Разрешение лексической многозначности (WSD, word sense
disambiguation) – это задача выбора значения
многозначного слова или словосочетания в зависимости от
контекста.
3. Методы разрешения лексической многозначности
4 основных типа:
1. методы, основанные на знаниях (используются словари,
простые правила)
2. методы обучения с учителем (supervised methods,
используют размеченные корпуса текстов для тренировки
классификатора)
3. методы частичного обучения с учителем (semi-supervised,
исп-ся вторичные знания, косвенные знания)
4. методы обучения без учителя (unsupervised methods,
кластеризация, используется неразмеченный корпус)
4. Постановка задачи
1. Изучить методы обучения с учителем для разрешения
лексической многозначности и выбрать один для исследования
2. Подготовить для исследования выбранного метода:
– репрезентативную выборку многозначных слов русского языка
– размеченный корпус контекстов этих слов
3. Провести исследование метода и на этой основе подобрать
признаки с параметрами, обеспечивающие наибольшую точность
разрешения лексической многозначности
5. Выбор метода
5 наиболее распространённых методов:
● SVM / метод опорных векторов (+ высокая эффективность)
● AdaBoost (– чувствительна к шуму в данных)
● kNN / метод N ближайших соседей (+ легко-реализуемый)
● NaïveBayes (–требует независимости признаков,+требует мало
данных)
● Decision Lists / списки принятия решений (+ высокая скорость
работы)
NB! всем методам для работы необходим размеченный корпус.
Выбран: метод ближайших соседей (kNN), т.к. все методы близки
друг к другу по точности, а выбранный метод интуитивно лёгок для
понимания, а также наиболее эффективен среди простых методов
Легкоустраняемые недостатки:
– чувствительность к нерелевантным признакам → введение весов
– перевешивание количества далёких соседей над близкими →
введение весов у объектов (соседей)
6. Метод ближайших соседей (kNN)
●
Основная идея: объект присваивается тому классу, который
является наиболее распространённым среди его N ближайших соседей.
●
Расстояние между соседями:
●
Параметры:
k – количество соседей
w — веса каждого из признаков
m – метрика расст-я (δ) между примерами
d – дополнительные веса расстояний
●
Пример работы алгоритма (при k=3 и k=5)
●
Программная реализация:
машина TiMBL (нах-ся в свободном доступе)
7. Формирование тестовой выборки слов
Тезаурусы: WordNet, EuroWordNet, BalkanNet, MultiWordNet, ruWordnet
(3 разных проекта), РуТез,...
Выбрано: РуТез (рус. тезаурус, 45 т. понятий, 107 т. слов и выраж.)
Структура многозначного слова в РуТез:
слово — значение — синонимы
КОРЗИНКА — КОРЗИНКА (СОЦВЕТИЕ) — КОРЗИНКА СОЦВЕТИЯ, КОРЗИНОЧНЫЙ
КОРЗИНКА — ПЛЕТЕНАЯ КОРЗИНА — ЛУКОШКО, ПЛЕТЕНАЯ КОРЗИНА
Формирование тестовой коллекции:
Был написан модуль, с помощью которого слова разбиваются на 18
групп:
– по частотности
– части речи
– по степени многозначности
и случайным образом было выбрано 84 слова (по 7 в каждой группе),
чем и обеспечивалась репрезентативность.
8. Формирование размеченного корпуса контекстов
Возможные методы:
– выдача поисковых движков
– bootstrapping
– двуязычные выравненные корпусы
– каталоги веб-страниц
– коллаборативное пополнение корпуса
●
Выбрано: поисковая машина Яндекс, сервис Yandex.XML
●
Принцип работы: получение контекстов с помощью включения в поисковый
запрос не самого многозначного слова, а его однозначных синонимов и других
семантически связанных с ним слов (гипонимы, гиперонимы, дериваты и т.д.)
●
Как выглядят запросы:
– художественная коллекция host:lib.rus.ec inurl:read
– русскоязычные документы lang:ru
– основная часть запроса !!ПОСТАВИТЬ && /1 !!ПОДПИСЬ
– фильтры
9. Полученный корпус
Результат: каждому значению слову было получено около 500-1000 контекстов
Структура корпуса: состоит из определённых групп контекстов, что позволяет
добиться его разнообразия и репрезентативности:
– ¼: контексты однозначных синонимов, взятые из интернета
– ¼: контексты однозначных синонимов, взятые из художественной коллекции
– 1/6: контексты однозначных синонимов другой части речи
– 1/6: контексты многозначных синонимов
– 1/6: контексты гипонимов-гиперонимов
Пример работы фильтров:
●
контексты, в которых присутствует шум, чаще словарные контексты:
"ОБЕДНЕЛЫЙ, -ая, -ое; -ел (разг.) || сущ. обеднелость, -и, ж." ~~ словарь
●
слишком короткие контексты, не несущие смысла
●
контексты на других языках
●
убирание дублей
Качество корпуса: была проведена выборочная проверка (проверено 6 слов,
все их значения, около 10% их контекстов, плохие тезаурусные данные не
рассматривались), эффективность: ~88-90%
10. Исследование метода kNN
●
Выбор признаков (характеристики контекстов)
Для слов контекста [w-3, w-2, w-1, w, w+1, w+2, w+3] учитываются локальные
признаки: морфологические (падежи, спряжения, переходность, аспект
глаголов и т.п.) и стилистические (обсцентная, устаревшая, редкая,
разговорная лексика, неологизмы,...)
Всего около 80 признаков, глобальных нет, в качестве морфологического
анализатора используется mystem (Яндекс).
●
Подбор параметров обучения
1. количество соседей (5, 10, 15, 20, 30)
2. алгоритм вычисления веса признаков w (без весов, Gain Ratio, Info
Gain, хи-квадрат, Shared variance weighting)
3. метрика m расстояния между соседями (перекрывающая метрика,
Jeffrey divergence, MVDM, Numeric, Dice coefficient)
4. дополнительные веса расстояний d (без весов, Inverse Distance,
Inverse Linear, Exponential Decay)
●
Выбрано: 10 соседей, веса – алгоритм Gain Ratio, метрика — Dice
coefficient, доп. веса — Inverse Linear
11. Работа программной системы
модуль
формирования Тезаурус
тестовой выборки
mystem
Модуль
Модуль контексты формирования признаки
получения признаков TiMBL
контекстов для обучения
результаты
Yandex.XML
12. Результаты работы
1. Были изучены методы обучения с учителем для разрешения лексиче-
ской многозначности
2. Была разработана программная система, позволяющая проводить про-
цесс разрешения для слов и включающая:
– модуль формирования тестовой выборки
– модуль получения размеченного корпуса
– модуль обработки контекстов и формирования признаков
3. С помощью неё была выбрана репрезентативная выборка многозначных
слов русского языка, а для неё получен размеченный корпус для обу-
чения.
4. Было исследовано наиболее эффективное сочетание параметров мето-
да разрешения лексической многозначности; полученные результаты
точности: 71-90%.