2. Компютри и език?
● Компютрите разбират ли езика?
● Защо е нужно компютрите да разбират езика?
● Какво е компютърна лингвистика?
3. Основни “инструменти”
● Стеминг (stemming)
● Откриване на части на речта (PoS tagging)
● Синтактичен анализ
● Семантичен анализ
4. Части на речта
● части на речта + морфологичен анализ
● списък с думи със съответната им част на речта? (гори, lead)
● контекст, вероятности (зелени гори, the lead)
● скрити вериги на Марков, Витерби, динамично програмине, машинно
самообучение, статистика… ко? да..
5. Стеминг
● таблица с форми
● правила за премахване на афикси
● лематизация
o каква част на речта е?
o премахване на афикси, таблица с форми
o идвам-ела, гори
● статистика, машинно самообучение
6. Синтактичен и семантичен анализ
● синтактични дървета
● семантични роли
o вършител
o пациенс
o тема
o инструмент
o място
o причина
o ...
● Как? Магия… формална граматика.
[AGENTShaw Publishing] offered [RECEPIENTMr. Smith] [THEMEa reimbursement] [TIMElast March]
7. Анализ на сентимент
● Дали един текст е положителен, отрицателен или неутрален?
● http://nlp.stanford.edu:8080/sentiment/rntnDemo.html
● “торба с думи”, сентимент на дума (стеминг, определяне части на
речта)
● Приложения: анализ на ревюта на продукт, на мнения за компания
или събитие в социални мрежи
8. Корекция на правопис
● необхидими данни: списък с думи; речник на афикси => пълен речник
на словоформите
● ефективна структура от данни (trie)
● предложения - левенщайново разстояние:
o броят букви, които е нужно да се променят, за да се превърне
една дума в друга (добавяне, изтриване, замяна)
o пароними
o барлина:балерина (?), ленгвист:лингвист (?), лекксиика:лексика(?)
9. Машинен превод
● свещеният граал на компютърната лингвистика
● приложения:
o за ежедневна употреба
o машинно-асистиран превод
o превод, специфичен за дадена област - прогнози за времето,
футболни коментари
● Google translate, Skype translate
● “out of sight, out of mind” -> китайски -> “blind idiot”; constipated potatoes,
strangled language
10. Машинен превод - как работи?
● какво е корпус? А двуезичен (паралелен) корпус?
● методи: правила; аналогия; статистика/n-gram-и.
● “от всичко”: стеминг, части на речта, синтактичен анализ
● интерлингва
13. Машинен превод (4)
● решима задача ли е? Да. Решението е нашият мозък.
● невронни мрежи?
● машинно учене на език. Първи език?
● съществува ли абстрактна интерлингва?
o Сапир-Уорф
14. Статистика, статистика...
● вероятности
● теоретичната лингвистика е само малка част. Правилно ли е това?
● компютърните лингвисти нямат задълбочени познания по теоретична
лингвистика (обобщение)
● мозъкът ползва статистика при вземане на решения
15. А задачи?
● задачи за компютърна лингвистика
● решаване на традиционни задачи задачи
o хаос и ред
o стеминг на ум