SlideShare une entreprise Scribd logo
1  sur  21
Télécharger pour lire hors ligne
Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста
Введение ,[object Object],[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object]
Индексирование ,[object Object],[object Object],[object Object]
Структура индекса
Процесс индексирования ,[object Object],[object Object],[object Object],[object Object],[object Object]
Взвешивание ,[object Object],[object Object]
Закон Ципфа  (Zipf) Произведение частоты термина  f   на его ранг  r  остается примерно постоянной величиной f  =  C / r ,  C  ≈  N /10
Принцип Луна ( Luhn ) Самые часто встречающиеся слова – не самые значимые!
Классический метод взвешивания:  tf - idf ,[object Object],[object Object],Вес слова в документе:  В современных поисковых системах используются более сложные варианты взвешивания.
Содержание ,[object Object],[object Object],[object Object],[object Object]
Булева модель ,[object Object],[object Object],[object Object]
Векторная модель ,[object Object],[object Object],[object Object],[object Object],[object Object]
Векторная модель ,[object Object]
[object Object],[object Object],[object Object],[object Object],Вероятностные модели
Вероятностные модели ,[object Object]
Содержание ,[object Object],[object Object],[object Object],[object Object]
Оценка информационного поиска ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],Оценка требует большой коллекции размеченных документов, т.е. огромного труда асессоров. Большое продвижение дают конференции-соревнования:  TREC , РОМИП и т.д. tn fn Ненайденные fp tp Найденные Нерелевантные Релевантные
Содержание ,[object Object],[object Object],[object Object],[object Object]
Уровни анализа языка ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Источники ,[object Object],[object Object],[object Object]

Contenu connexe

Tendances

Zyabrev -
Zyabrev - Zyabrev -
Zyabrev - Anna
 
учебник "Измерение Информации"
учебник "Измерение Информации"учебник "Измерение Информации"
учебник "Измерение Информации"Anna_Vidyakina
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)NLPseminar
 
Информация
ИнформацияИнформация
ИнформацияBorisovna
 
Konstantion Vorontsov - Additive regularization of matrix decompositons and p...
Konstantion Vorontsov - Additive regularization of matrix decompositons and p...Konstantion Vorontsov - Additive regularization of matrix decompositons and p...
Konstantion Vorontsov - Additive regularization of matrix decompositons and p...AIST
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системыNetpeak
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовYandex
 
Linked Open Data (EIS)
Linked Open Data (EIS) Linked Open Data (EIS)
Linked Open Data (EIS) Fred Kozlov
 

Tendances (20)

Измерение информации
Измерение информацииИзмерение информации
Измерение информации
 
Zyabrev -
Zyabrev - Zyabrev -
Zyabrev -
 
Методы морфологического анализа текстов
Методы морфологического анализа текстовМетоды морфологического анализа текстов
Методы морфологического анализа текстов
 
учебник "Измерение Информации"
учебник "Измерение Информации"учебник "Измерение Информации"
учебник "Измерение Информации"
 
переменные в Python
переменные в Pythonпеременные в Python
переменные в Python
 
Prez1
Prez1Prez1
Prez1
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)
 
переменные в Python
переменные в Pythonпеременные в Python
переменные в Python
 
Информация
ИнформацияИнформация
Информация
 
Konstantion Vorontsov - Additive regularization of matrix decompositons and p...
Konstantion Vorontsov - Additive regularization of matrix decompositons and p...Konstantion Vorontsov - Additive regularization of matrix decompositons and p...
Konstantion Vorontsov - Additive regularization of matrix decompositons and p...
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системы
 
PressPortrets
PressPortretsPressPortrets
PressPortrets
 
IEforQD
IEforQDIEforQD
IEforQD
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстов
 
Интернет
ИнтернетИнтернет
Интернет
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
5
55
5
 
Linked Open Data (EIS)
Linked Open Data (EIS) Linked Open Data (EIS)
Linked Open Data (EIS)
 
Проблемы автоматической рубрикации текстов
Проблемы автоматической рубрикации текстовПроблемы автоматической рубрикации текстов
Проблемы автоматической рубрикации текстов
 

En vedette

Swiftlesson
SwiftlessonSwiftlesson
Swiftlessonknutsogr
 
Resized Presentation 2
Resized Presentation 2Resized Presentation 2
Resized Presentation 2tiredteach3
 
I T C S Learning
I T C S  LearningI T C S  Learning
I T C S Learningsubdaemon
 
W H O W A S S A C R I F I C E D
W H O  W A S  S A C R I F I C E DW H O  W A S  S A C R I F I C E D
W H O W A S S A C R I F I C E DZAKIR
 
Elvis Uncovered
Elvis UncoveredElvis Uncovered
Elvis Uncoveredjayson_ang
 
Back From MAX in London for CQ5 users
Back From MAX in London for CQ5 usersBack From MAX in London for CQ5 users
Back From MAX in London for CQ5 usersMichael Chaize
 
Metodika MV ČR PRINCeGON
Metodika MV ČR PRINCeGONMetodika MV ČR PRINCeGON
Metodika MV ČR PRINCeGONEquica
 
Luentotallennuksen pedagogisten ulottuvuuksien kehittäminen
Luentotallennuksen pedagogisten ulottuvuuksien kehittäminenLuentotallennuksen pedagogisten ulottuvuuksien kehittäminen
Luentotallennuksen pedagogisten ulottuvuuksien kehittäminenIlkka Kukkonen
 
liv da life
liv da lifeliv da life
liv da lifesatya414
 
Martin karlssons vykortssamling rådhuset
Martin karlssons vykortssamling   rådhusetMartin karlssons vykortssamling   rådhuset
Martin karlssons vykortssamling rådhusethembygdsigtuna
 
OpenScience and Citizen Inquiry
OpenScience and Citizen InquiryOpenScience and Citizen Inquiry
OpenScience and Citizen InquiryMike Sharples
 
The teacher librarian as resource creator: Developing learning websites
The teacher librarian as resource creator: Developing learning websitesThe teacher librarian as resource creator: Developing learning websites
The teacher librarian as resource creator: Developing learning websitesjherring
 

En vedette (19)

Swiftlesson
SwiftlessonSwiftlesson
Swiftlesson
 
Resized Presentation 2
Resized Presentation 2Resized Presentation 2
Resized Presentation 2
 
Guusje Beverdam
Guusje BeverdamGuusje Beverdam
Guusje Beverdam
 
I T C S Learning
I T C S  LearningI T C S  Learning
I T C S Learning
 
Os
OsOs
Os
 
4 oktober kennispark
4 oktober kennispark4 oktober kennispark
4 oktober kennispark
 
W H O W A S S A C R I F I C E D
W H O  W A S  S A C R I F I C E DW H O  W A S  S A C R I F I C E D
W H O W A S S A C R I F I C E D
 
Aom3
Aom3Aom3
Aom3
 
Elvis Uncovered
Elvis UncoveredElvis Uncovered
Elvis Uncovered
 
Lamai Si Zahar
Lamai Si ZaharLamai Si Zahar
Lamai Si Zahar
 
Morrer Pela Pele
Morrer Pela PeleMorrer Pela Pele
Morrer Pela Pele
 
DaWaK'07
DaWaK'07DaWaK'07
DaWaK'07
 
Back From MAX in London for CQ5 users
Back From MAX in London for CQ5 usersBack From MAX in London for CQ5 users
Back From MAX in London for CQ5 users
 
Metodika MV ČR PRINCeGON
Metodika MV ČR PRINCeGONMetodika MV ČR PRINCeGON
Metodika MV ČR PRINCeGON
 
Luentotallennuksen pedagogisten ulottuvuuksien kehittäminen
Luentotallennuksen pedagogisten ulottuvuuksien kehittäminenLuentotallennuksen pedagogisten ulottuvuuksien kehittäminen
Luentotallennuksen pedagogisten ulottuvuuksien kehittäminen
 
liv da life
liv da lifeliv da life
liv da life
 
Martin karlssons vykortssamling rådhuset
Martin karlssons vykortssamling   rådhusetMartin karlssons vykortssamling   rådhuset
Martin karlssons vykortssamling rådhuset
 
OpenScience and Citizen Inquiry
OpenScience and Citizen InquiryOpenScience and Citizen Inquiry
OpenScience and Citizen Inquiry
 
The teacher librarian as resource creator: Developing learning websites
The teacher librarian as resource creator: Developing learning websitesThe teacher librarian as resource creator: Developing learning websites
The teacher librarian as resource creator: Developing learning websites
 

Similaire à 01 информационный поиск

04 извлечение информации
04 извлечение информации04 извлечение информации
04 извлечение информацииLidia Pivovarova
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системыNetpeak
 
Ontologies for Information Extraction
Ontologies for Information ExtractionOntologies for Information Extraction
Ontologies for Information ExtractionLidia Pivovarova
 
Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"
Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"
Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"Rostislav Shorgin
 
FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина
FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина
FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина GeeksLab Odessa
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAINL Conferences
 
Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 finalyaevents
 
Algorithms overview for content discovery and distribution (on russian)
Algorithms overview for content discovery and distribution (on russian) Algorithms overview for content discovery and distribution (on russian)
Algorithms overview for content discovery and distribution (on russian) Alexander Petrov
 
Ai lab
Ai labAi lab
Ai labaaa
 
08 машинный перевод
08 машинный перевод08 машинный перевод
08 машинный переводLidia Pivovarova
 
Создание электронной библиотеки научных трудов на платформе Dspace
Создание электронной библиотеки научных трудов на платформе DspaceСоздание электронной библиотеки научных трудов на платформе Dspace
Создание электронной библиотеки научных трудов на платформе Dspacebntulibrary
 
Контент инижиниринг - Лекция 1
Контент инижиниринг - Лекция 1Контент инижиниринг - Лекция 1
Контент инижиниринг - Лекция 1Elena Tikhomirova
 
Cфинкс и поиск терабайта
Cфинкс и поиск терабайтаCфинкс и поиск терабайта
Cфинкс и поиск терабайтаMedia Gorod
 
информационные и информационно поисковые системы интернет
информационные и информационно поисковые системы интернетинформационные и информационно поисковые системы интернет
информационные и информационно поисковые системы интернетInno4ka2323
 
RuSSIR 2008. Как это было...
RuSSIR 2008. Как это было...RuSSIR 2008. Как это было...
RuSSIR 2008. Как это было...NLPseminar
 

Similaire à 01 информационный поиск (20)

04 извлечение информации
04 извлечение информации04 извлечение информации
04 извлечение информации
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системы
 
Извлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстовИзвлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстов
 
Ontologies for Information Extraction
Ontologies for Information ExtractionOntologies for Information Extraction
Ontologies for Information Extraction
 
Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"
Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"
Федор Романенко - "Ранжирование: от строчки кода до Матрикснета"
 
FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина
FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина
FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина
 
Ainl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическаяAinl 2013 bogatyrev_математическая и лингвистическая
Ainl 2013 bogatyrev_математическая и лингвистическая
 
Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 final
 
Algorithms overview for content discovery and distribution (on russian)
Algorithms overview for content discovery and distribution (on russian) Algorithms overview for content discovery and distribution (on russian)
Algorithms overview for content discovery and distribution (on russian)
 
Информационный поиск. Методы оценки качества поиска. Эволюция результатов
Информационный поиск. Методы оценки качества поиска. Эволюция результатовИнформационный поиск. Методы оценки качества поиска. Эволюция результатов
Информационный поиск. Методы оценки качества поиска. Эволюция результатов
 
Lande, Jigalo
Lande, JigaloLande, Jigalo
Lande, Jigalo
 
Ai lab
Ai labAi lab
Ai lab
 
08 машинный перевод
08 машинный перевод08 машинный перевод
08 машинный перевод
 
Создание электронной библиотеки научных трудов на платформе Dspace
Создание электронной библиотеки научных трудов на платформе DspaceСоздание электронной библиотеки научных трудов на платформе Dspace
Создание электронной библиотеки научных трудов на платформе Dspace
 
Системы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератовСистемы автоматического составления обзорных рефератов
Системы автоматического составления обзорных рефератов
 
Контент инижиниринг - Лекция 1
Контент инижиниринг - Лекция 1Контент инижиниринг - Лекция 1
Контент инижиниринг - Лекция 1
 
Cфинкс и поиск терабайта
Cфинкс и поиск терабайтаCфинкс и поиск терабайта
Cфинкс и поиск терабайта
 
информационные и информационно поисковые системы интернет
информационные и информационно поисковые системы интернетинформационные и информационно поисковые системы интернет
информационные и информационно поисковые системы интернет
 
RuSSIR 2008. Как это было...
RuSSIR 2008. Как это было...RuSSIR 2008. Как это было...
RuSSIR 2008. Как это было...
 
Определение новизны информации в новостном кластере
Определение новизны информации в новостном кластереОпределение новизны информации в новостном кластере
Определение новизны информации в новостном кластере
 

Plus de Lidia Pivovarova

Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Lidia Pivovarova
 
Convolutional neural networks for text classification
Convolutional neural networks for text classificationConvolutional neural networks for text classification
Convolutional neural networks for text classificationLidia Pivovarova
 
Grouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesGrouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesLidia Pivovarova
 
Интеллектуальный анализ текста
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текстаLidia Pivovarova
 
AINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovAINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovLidia Pivovarova
 
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...Lidia Pivovarova
 
AINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyAINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyLidia Pivovarova
 

Plus de Lidia Pivovarova (20)

Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...Classification and clustering in media monitoring: from knowledge engineering...
Classification and clustering in media monitoring: from knowledge engineering...
 
Convolutional neural networks for text classification
Convolutional neural networks for text classificationConvolutional neural networks for text classification
Convolutional neural networks for text classification
 
Grouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entitiesGrouping business news stories based on salience of named entities
Grouping business news stories based on salience of named entities
 
Интеллектуальный анализ текста
Интеллектуальный анализ текстаИнтеллектуальный анализ текста
Интеллектуальный анализ текста
 
AINL 2016: Yagunova
AINL 2016: YagunovaAINL 2016: Yagunova
AINL 2016: Yagunova
 
AINL 2016: Kuznetsova
AINL 2016: KuznetsovaAINL 2016: Kuznetsova
AINL 2016: Kuznetsova
 
AINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, MaksimovAINL 2016: Bodrunova, Blekanov, Maksimov
AINL 2016: Bodrunova, Blekanov, Maksimov
 
AINL 2016: Boldyreva
AINL 2016: BoldyrevaAINL 2016: Boldyreva
AINL 2016: Boldyreva
 
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
AINL 2016: Rykov, Nagornyy, Koltsova, Natta, Kremenets, Manovich, Cerrone, Cr...
 
AINL 2016: Kozerenko
AINL 2016: Kozerenko AINL 2016: Kozerenko
AINL 2016: Kozerenko
 
AINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, SelegeyAINL 2016: Shavrina, Selegey
AINL 2016: Shavrina, Selegey
 
AINL 2016: Khudobakhshov
AINL 2016: KhudobakhshovAINL 2016: Khudobakhshov
AINL 2016: Khudobakhshov
 
AINL 2016: Proncheva
AINL 2016: PronchevaAINL 2016: Proncheva
AINL 2016: Proncheva
 
AINL 2016:
AINL 2016: AINL 2016:
AINL 2016:
 
AINL 2016: Bugaychenko
AINL 2016: BugaychenkoAINL 2016: Bugaychenko
AINL 2016: Bugaychenko
 
AINL 2016: Grigorieva
AINL 2016: GrigorievaAINL 2016: Grigorieva
AINL 2016: Grigorieva
 
AINL 2016: Muravyov
AINL 2016: MuravyovAINL 2016: Muravyov
AINL 2016: Muravyov
 
AINL 2016: Just AI
AINL 2016: Just AIAINL 2016: Just AI
AINL 2016: Just AI
 
AINL 2016: Moskvichev
AINL 2016: MoskvichevAINL 2016: Moskvichev
AINL 2016: Moskvichev
 
AINL 2016: Goncharov
AINL 2016: GoncharovAINL 2016: Goncharov
AINL 2016: Goncharov
 

01 информационный поиск