SlideShare a Scribd company logo
1 of 16
Приложения на
компютърната
лингвистика
Божидар Божанов
Компютри и език?
● Компютрите разбират ли езика?
● Защо е нужно компютрите да разбират езика?
● Какво е компютърна лингвистика?
Основни “инструменти”
● Стеминг (stemming)
● Откриване на части на речта (PoS tagging)
● Синтактичен анализ
● Семантичен анализ
Части на речта
● части на речта + морфологичен анализ
● списък с думи със съответната им част на речта? (гори, lead)
● контекст, вероятности (зелени гори, the lead)
● скрити вериги на Марков, Витерби, динамично програмине, машинно
самообучение, статистика… ко? да..
Стеминг
● таблица с форми
● правила за премахване на афикси
● лематизация
o каква част на речта е?
o премахване на афикси, таблица с форми
o идвам-ела, гори
● статистика, машинно самообучение
Синтактичен и семантичен анализ
● синтактични дървета
● семантични роли
o вършител
o пациенс
o тема
o инструмент
o място
o причина
o ...
● Как? Магия… формална граматика.
[AGENTShaw Publishing] offered [RECEPIENTMr. Smith] [THEMEa reimbursement] [TIMElast March]
Анализ на сентимент
● Дали един текст е положителен, отрицателен или неутрален?
● http://nlp.stanford.edu:8080/sentiment/rntnDemo.html
● “торба с думи”, сентимент на дума (стеминг, определяне части на
речта)
● Приложения: анализ на ревюта на продукт, на мнения за компания
или събитие в социални мрежи
Корекция на правопис
● необхидими данни: списък с думи; речник на афикси => пълен речник
на словоформите
● ефективна структура от данни (trie)
● предложения - левенщайново разстояние:
o броят букви, които е нужно да се променят, за да се превърне
една дума в друга (добавяне, изтриване, замяна)
o пароними
o барлина:балерина (?), ленгвист:лингвист (?), лекксиика:лексика(?)
Машинен превод
● свещеният граал на компютърната лингвистика
● приложения:
o за ежедневна употреба
o машинно-асистиран превод
o превод, специфичен за дадена област - прогнози за времето,
футболни коментари
● Google translate, Skype translate
● “out of sight, out of mind” -> китайски -> “blind idiot”; constipated potatoes,
strangled language
Машинен превод - как работи?
● какво е корпус? А двуезичен (паралелен) корпус?
● методи: правила; аналогия; статистика/n-gram-и.
● “от всичко”: стеминг, части на речта, синтактичен анализ
● интерлингва
Машинен превод (3)
Интерлингва?
Машинен превод (4)
● решима задача ли е? Да. Решението е нашият мозък.
● невронни мрежи?
● машинно учене на език. Първи език?
● съществува ли абстрактна интерлингва?
o Сапир-Уорф
Статистика, статистика...
● вероятности
● теоретичната лингвистика е само малка част. Правилно ли е това?
● компютърните лингвисти нямат задълбочени познания по теоретична
лингвистика (обобщение)
● мозъкът ползва статистика при вземане на решения
А задачи?
● задачи за компютърна лингвистика
● решаване на традиционни задачи задачи
o хаос и ред
o стеминг на ум
Въпроси?

More Related Content

More from Bozhidar Bozhanov

Algorithmic and technological transparency
Algorithmic and technological transparencyAlgorithmic and technological transparency
Algorithmic and technological transparencyBozhidar Bozhanov
 
Alternatives for copyright protection online
Alternatives for copyright protection onlineAlternatives for copyright protection online
Alternatives for copyright protection onlineBozhidar Bozhanov
 
Политики, основани на данни
Политики, основани на данниПолитики, основани на данни
Политики, основани на данниBozhidar Bozhanov
 
Отворено законодателство
Отворено законодателствоОтворено законодателство
Отворено законодателствоBozhidar Bozhanov
 
Electronic governance steps in the right direction?
Electronic governance   steps in the right direction?Electronic governance   steps in the right direction?
Electronic governance steps in the right direction?Bozhidar Bozhanov
 
Сигурност на електронното управление
Сигурност на електронното управлениеСигурност на електронното управление
Сигурност на електронното управлениеBozhidar Bozhanov
 
Биометрична идентификация
Биометрична идентификацияБиометрична идентификация
Биометрична идентификацияBozhidar Bozhanov
 
Регулации и технологии
Регулации и технологииРегулации и технологии
Регулации и технологииBozhidar Bozhanov
 
Архитектура на електронното управление
Архитектура на електронното управлениеАрхитектура на електронното управление
Архитектура на електронното управлениеBozhidar Bozhanov
 
Технически гаранции и процедури за електронното гласуване
Технически гаранции и процедури за електронното гласуванеТехнически гаранции и процедури за електронното гласуване
Технически гаранции и процедури за електронното гласуванеBozhidar Bozhanov
 
Отвореният код - инструмент за ускоряване на развитието на електронното управ...
Отвореният код - инструмент за ускоряване на развитието на електронното управ...Отвореният код - инструмент за ускоряване на развитието на електронното управ...
Отвореният код - инструмент за ускоряване на развитието на електронното управ...Bozhidar Bozhanov
 
Monoliths and Microservices
Monoliths and Microservices Monoliths and Microservices
Monoliths and Microservices Bozhidar Bozhanov
 
Електронно гласуване
Електронно гласуванеЕлектронно гласуване
Електронно гласуванеBozhidar Bozhanov
 

More from Bozhidar Bozhanov (20)

Algorithmic and technological transparency
Algorithmic and technological transparencyAlgorithmic and technological transparency
Algorithmic and technological transparency
 
Scaling horizontally on AWS
Scaling horizontally on AWSScaling horizontally on AWS
Scaling horizontally on AWS
 
Alternatives for copyright protection online
Alternatives for copyright protection onlineAlternatives for copyright protection online
Alternatives for copyright protection online
 
GDPR for developers
GDPR for developersGDPR for developers
GDPR for developers
 
Политики, основани на данни
Политики, основани на данниПолитики, основани на данни
Политики, основани на данни
 
Отворено законодателство
Отворено законодателствоОтворено законодателство
Отворено законодателство
 
Overview of Message Queues
Overview of Message QueuesOverview of Message Queues
Overview of Message Queues
 
Electronic governance steps in the right direction?
Electronic governance   steps in the right direction?Electronic governance   steps in the right direction?
Electronic governance steps in the right direction?
 
Сигурност на електронното управление
Сигурност на електронното управлениеСигурност на електронното управление
Сигурност на електронното управление
 
Opensource government
Opensource governmentOpensource government
Opensource government
 
Биометрична идентификация
Биометрична идентификацияБиометрична идентификация
Биометрична идентификация
 
Biometric identification
Biometric identificationBiometric identification
Biometric identification
 
Регулации и технологии
Регулации и технологииРегулации и технологии
Регулации и технологии
 
Regulations and technology
Regulations and technologyRegulations and technology
Regulations and technology
 
Архитектура на електронното управление
Архитектура на електронното управлениеАрхитектура на електронното управление
Архитектура на електронното управление
 
E-government architecture
E-government architectureE-government architecture
E-government architecture
 
Технически гаранции и процедури за електронното гласуване
Технически гаранции и процедури за електронното гласуванеТехнически гаранции и процедури за електронното гласуване
Технически гаранции и процедури за електронното гласуване
 
Отвореният код - инструмент за ускоряване на развитието на електронното управ...
Отвореният код - инструмент за ускоряване на развитието на електронното управ...Отвореният код - инструмент за ускоряване на развитието на електронното управ...
Отвореният код - инструмент за ускоряване на развитието на електронното управ...
 
Monoliths and Microservices
Monoliths and Microservices Monoliths and Microservices
Monoliths and Microservices
 
Електронно гласуване
Електронно гласуванеЕлектронно гласуване
Електронно гласуване
 

Приложения на компютърната лингвистика

  • 2. Компютри и език? ● Компютрите разбират ли езика? ● Защо е нужно компютрите да разбират езика? ● Какво е компютърна лингвистика?
  • 3. Основни “инструменти” ● Стеминг (stemming) ● Откриване на части на речта (PoS tagging) ● Синтактичен анализ ● Семантичен анализ
  • 4. Части на речта ● части на речта + морфологичен анализ ● списък с думи със съответната им част на речта? (гори, lead) ● контекст, вероятности (зелени гори, the lead) ● скрити вериги на Марков, Витерби, динамично програмине, машинно самообучение, статистика… ко? да..
  • 5. Стеминг ● таблица с форми ● правила за премахване на афикси ● лематизация o каква част на речта е? o премахване на афикси, таблица с форми o идвам-ела, гори ● статистика, машинно самообучение
  • 6. Синтактичен и семантичен анализ ● синтактични дървета ● семантични роли o вършител o пациенс o тема o инструмент o място o причина o ... ● Как? Магия… формална граматика. [AGENTShaw Publishing] offered [RECEPIENTMr. Smith] [THEMEa reimbursement] [TIMElast March]
  • 7. Анализ на сентимент ● Дали един текст е положителен, отрицателен или неутрален? ● http://nlp.stanford.edu:8080/sentiment/rntnDemo.html ● “торба с думи”, сентимент на дума (стеминг, определяне части на речта) ● Приложения: анализ на ревюта на продукт, на мнения за компания или събитие в социални мрежи
  • 8. Корекция на правопис ● необхидими данни: списък с думи; речник на афикси => пълен речник на словоформите ● ефективна структура от данни (trie) ● предложения - левенщайново разстояние: o броят букви, които е нужно да се променят, за да се превърне една дума в друга (добавяне, изтриване, замяна) o пароними o барлина:балерина (?), ленгвист:лингвист (?), лекксиика:лексика(?)
  • 9. Машинен превод ● свещеният граал на компютърната лингвистика ● приложения: o за ежедневна употреба o машинно-асистиран превод o превод, специфичен за дадена област - прогнози за времето, футболни коментари ● Google translate, Skype translate ● “out of sight, out of mind” -> китайски -> “blind idiot”; constipated potatoes, strangled language
  • 10. Машинен превод - как работи? ● какво е корпус? А двуезичен (паралелен) корпус? ● методи: правила; аналогия; статистика/n-gram-и. ● “от всичко”: стеминг, части на речта, синтактичен анализ ● интерлингва
  • 13. Машинен превод (4) ● решима задача ли е? Да. Решението е нашият мозък. ● невронни мрежи? ● машинно учене на език. Първи език? ● съществува ли абстрактна интерлингва? o Сапир-Уорф
  • 14. Статистика, статистика... ● вероятности ● теоретичната лингвистика е само малка част. Правилно ли е това? ● компютърните лингвисти нямат задълбочени познания по теоретична лингвистика (обобщение) ● мозъкът ползва статистика при вземане на решения
  • 15. А задачи? ● задачи за компютърна лингвистика ● решаване на традиционни задачи задачи o хаос и ред o стеминг на ум