SlideShare une entreprise Scribd logo
1  sur  30
Télécharger pour lire hors ligne
Введение в Data Science
Занятие 0. Знакомство
Николай Анохин Михаил Фирулик
22 февраля 2014 г.
Ваши преподаватели
Михаил Фирулик (m.firulik@corp.mail.ru / +7 916 730-97-66)
руководитель отдела анализа данных в Mail.Ru Group
многолетний опыт интеллектуального анализа данных
Николай Анохин (n.anokhin@corp.mail.ru / +7 903 111-44-60)
программист-исследователь в Mail.Ru Group
более трех лет работы в области Data Mining
Права и обязанности
можно
задавать вопросы преподавателю
выносить идеи на общее обсуждение
входить и выходить, не мешая коллегам
не можно
нарушать порядок на занятии
разговаривать по телефону в аудитории
общение
с преподавателем на “Вы”
с коллегами – как удобно
Ваши правила?
План занятия
Какие задачи решает Data Science
Как устроен наш курс
Методология и применимость Data Science
Простые задачки
Одна (типичная) задача
Рекламная компания магазина зимней одежды: определить аудиторию
A1 (data) acquisition
A2 (data) analysis
A3 (data) archiving
A4 (data) architecture
Что делать?
Разобраться в предметной области
Общаться с пользователями данных
Понимать “Big Picture”
Изучить представление данных
Произвести подготовку и анализ данных
Визуализировать результат
Учитывать этические соображения
Мы бы хотели, чтобы вы
1. получили практический опыт решения задач Data Mining
2. познакомились с инструментарием
3. поиграли и получили удовольствие
Что необходимо повторить
1. Линейная алгебра
2. Теория вероятностей
3. Алгоритмы и структуры данных
Модули курса
1. Задачи классификации (6 занятий)
2. Задачи кластеризации (3 занятия)
3. Мета-алгоритмы (4 занятия)
Модуль 1. Задачи классификации
Задача Разработать алгоритм, позволяющий определить класс
произвольного объекта из некоторго множества
Каждый объект заданного множества принадлежит классу из
некоторого набора
Дана обучающая выборка, в которой для каждого объекта
известен класс
Примеры
Определение спама
Кредитный скоринг
Распознавание лиц
Модуль 1. Содержание
1. Задача классификации и
регрессии. Метрики
ошибок
2. Линейная и логистическая
регрессия
3. Решающие деревья
4. Байесовские алгоритмы
5. Метод опорных векторов
Задача модуля. Предсказание пола и возраста пользователей
популярных социальных сервисов.
Модуль 2. Задачи кластеризации
Задача Разбить выборку объектов на подмножества (кластеры)
Объекты внутри одного кластера должны быть похожи
Объекты из разных кластеров должны существенно отличаться
Примеры
Определение сообществ
Сегментация изображений
Исследование рынка
Модуль 2. Содержание
1. Задача кластеризации.
Метрики качества
2. EM-алгоритм
3. Различные алгоритмы
кластеризации
Задача модуля. Разбиение на категории товаров, предлагаемых
крупными интернет-магазинами.
Модуль 3. Мета-алгоритмы
Какие факторы выбрать для решения задачи?
Что, если алгоритмы не дают необходимого качества?
Что, если данные не помещаются в памяти?
Модуль 3. Содержание
1. Метод ансамблей
2. Предобработка данных и
выбор факторов
3. Вычислительная модель
MapReduce
Задача модуля. Классификация пользоватей интернета с
использованием реальных данных сервисов Mail.Ru.
CRISP-DM
SPSS, Teradata, Daimler AG, NCR Corporation, OHRA
Business understanding
На рыболовном предприятии автоматизируем сортировку улова
VS
Data understanding 1
Какие факторы будем использовать?
VS
Data understanding 2
X – множество объектов. Фактор fi : X → Fi
Бинарные/Binary: Fi = {true, false} (есть ли пятна, двойной ли
плавник)
Номинальные/Categorical: Fi – конечно (цвет, форма чешуи)
Порядковый/Ordinal: Fi – конечно, определен порядок
(категория возраста, количество плавников)
Количественный/Numerical: Fi = R (длина, вес)
Data preparation
Эта часть проекта занимает больше всего времени
Удаление шума
Заполнение отсутствующих значений
Трансформация факторов
Выбор факторов
Использование априорных знаний
Результат. Обучающая выборка, в формате, подходящем для
моделирования
Modeling 1
Модель – описание класса, выраженное, как правило, в
математической форме. Цель – выбрать удачную модель и ее
параметры так, чтобы она наилучшим образом описывала заданный
класс.
Статистические модели
Модели машинного обучения
Modeling 2
Evaluation & Deployment
Решает ли выбранная модель задачу достаточно эффективно?
Удовлетворяет ли модель требованиям бизнеса?
Что вообще может пойти не так?
1854 г. Эпидемия холеры в Лондоне
Программа TIA
Наблюдаем 109
человек
Человек в среднем посещает отель раз в 100 дней
Есть 105
отелей на 100 человек каждый
Проверим посещения за 1000 дней
Вероятность для конкретной пары встретиться в отеле в конкретный
день:
p1 =
1
100
2
· 10−5
= 10−9
Всего пар людей
npp = C109
2 ≈
(109
)2
2
= 5 · 1017
а пар дней
npd = C103
2 ≈
(103
)2
2
= 5 · 105
Ожидаемое количество “подозрительных” встреч в отелях
N = p2
1nppnpd = 250000 >> 10
Принцип Бонферрони
Вычислить количество рассматриваемых событий при
предположении их полной случайности. Если это количество
намного превосходит количество событий, о котором идет речь в
задаче, полученные результаты нельзя будет считать достоверными.
Что мы обсудили на сегодняшней лекции?
Познакомились со стандартным процессом CRISP-DM
Вспомнили, какие бывают виды факторов
Узнали, для чего в Data Science используется моделирование
Разобрались с принципом Бонферрони
Задача 1
Пусть имеется простая обучающая выборка, включающая в себя 4
признака: бинарный f1, номинальный f2, порядковый f3 и
количественный f4.
N f1 f2 f3 f4
1 true A O1 3.14
2 false B O2 2.7
3 true A O2 11.0
4 true C O1 10.0
Предложенная модель работает только на бинарных признаках. Как
преобразовать данную обучающую выборку в нужный формат? А
если количественный? А номинальный?
Задача 2
Пусть имеется информация о покупках, совершенных 100
миллионами людей. Кажый из них идет за покупками в среднем 100
раз в год и покупает 10 из 1000 представленных товаров.
Предположим, что два злоумышленника покупают одинаковые
наборы товаров. Если мы ищем пары людей, купившие одинаковые
наборы в течение года, сможем ли мы действительно определить
террористов?
Спасибо!
Обратная связь

Contenu connexe

Tendances

Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Technosphere1
 
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Technosphere1
 
Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"Technosphere1
 
Перечитывая Лео Бреймана
Перечитывая Лео БрейманаПеречитывая Лео Бреймана
Перечитывая Лео БрейманаSerge Terekhov
 
Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Technosphere1
 
L10: Алгоритмы кластеризации
L10: Алгоритмы кластеризацииL10: Алгоритмы кластеризации
L10: Алгоритмы кластеризацииTechnosphere1
 
Лекция 3 Сегментация
Лекция 3 СегментацияЛекция 3 Сегментация
Лекция 3 СегментацияVictor Kulikov
 
Поиск объектов
Поиск объектовПоиск объектов
Поиск объектовLiloSEA
 
L11: Метод ансамблей
L11: Метод ансамблейL11: Метод ансамблей
L11: Метод ансамблейTechnosphere1
 
Лекция 8 Основы 3D обработки
Лекция 8 Основы 3D обработкиЛекция 8 Основы 3D обработки
Лекция 8 Основы 3D обработкиVictor Kulikov
 
L7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качестваL7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качестваTechnosphere1
 
Data Mining - lecture 1 - 2014
Data Mining - lecture 1 - 2014Data Mining - lecture 1 - 2014
Data Mining - lecture 1 - 2014Andrii Gakhov
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Technosphere1
 
Лекция №2. Абстрактные типы данных. ООП. Предмет "Структуры и алгоритмы обраб...
Лекция №2. Абстрактные типы данных. ООП. Предмет "Структуры и алгоритмы обраб...Лекция №2. Абстрактные типы данных. ООП. Предмет "Структуры и алгоритмы обраб...
Лекция №2. Абстрактные типы данных. ООП. Предмет "Структуры и алгоритмы обраб...Nikolay Grebenshikov
 
Data Mining - lecture 6 - 2014
Data Mining - lecture 6 - 2014Data Mining - lecture 6 - 2014
Data Mining - lecture 6 - 2014Andrii Gakhov
 

Tendances (20)

Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes"
 
Введение в алгоритмы и структуры данных
Введение в алгоритмы и структуры данныхВведение в алгоритмы и структуры данных
Введение в алгоритмы и структуры данных
 
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
 
Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"
 
4 azure 24 04
4 azure 24 044 azure 24 04
4 azure 24 04
 
Перечитывая Лео Бреймана
Перечитывая Лео БрейманаПеречитывая Лео Бреймана
Перечитывая Лео Бреймана
 
L06 detection
L06 detectionL06 detection
L06 detection
 
Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана"
 
Лекция 2
Лекция 2Лекция 2
Лекция 2
 
L10: Алгоритмы кластеризации
L10: Алгоритмы кластеризацииL10: Алгоритмы кластеризации
L10: Алгоритмы кластеризации
 
Лекция 3 Сегментация
Лекция 3 СегментацияЛекция 3 Сегментация
Лекция 3 Сегментация
 
Поиск объектов
Поиск объектовПоиск объектов
Поиск объектов
 
L11: Метод ансамблей
L11: Метод ансамблейL11: Метод ансамблей
L11: Метод ансамблей
 
Лекция 8 Основы 3D обработки
Лекция 8 Основы 3D обработкиЛекция 8 Основы 3D обработки
Лекция 8 Основы 3D обработки
 
L7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качестваL7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качества
 
Data Mining - lecture 1 - 2014
Data Mining - lecture 1 - 2014Data Mining - lecture 1 - 2014
Data Mining - lecture 1 - 2014
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение"
 
Лекция №2. Абстрактные типы данных. ООП. Предмет "Структуры и алгоритмы обраб...
Лекция №2. Абстрактные типы данных. ООП. Предмет "Структуры и алгоритмы обраб...Лекция №2. Абстрактные типы данных. ООП. Предмет "Структуры и алгоритмы обраб...
Лекция №2. Абстрактные типы данных. ООП. Предмет "Структуры и алгоритмы обраб...
 
Data mining
Data mining Data mining
Data mining
 
Data Mining - lecture 6 - 2014
Data Mining - lecture 6 - 2014Data Mining - lecture 6 - 2014
Data Mining - lecture 6 - 2014
 

Similaire à L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Основы Python. Работа с библиотекой Pandas
Основы Python. Работа с библиотекой PandasОсновы Python. Работа с библиотекой Pandas
Основы Python. Работа с библиотекой PandasNetpeak
 
Plakhov urfu 2013
Plakhov urfu 2013Plakhov urfu 2013
Plakhov urfu 2013Yandex
 
Основы концептуального проектирования
Основы концептуального проектированияОсновы концептуального проектирования
Основы концептуального проектированияAnton Tyukov
 
О общих подходах к отображению данных на сайте
О общих подходах к отображению данных на сайтеО общих подходах к отображению данных на сайте
О общих подходах к отображению данных на сайтеAnton Kovalenko
 
Dsml for business.full version
Dsml for business.full versionDsml for business.full version
Dsml for business.full versionDmitry Guzenko
 
Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данныхDEVTYPE
 
IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...
IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...
IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...it-network
 
Bacon.2018.it pro network.ba for dsml
Bacon.2018.it pro network.ba for dsmlBacon.2018.it pro network.ba for dsml
Bacon.2018.it pro network.ba for dsmlDmitry Guzenko
 
BusinessObjects глазами аналитика - Tern4
BusinessObjects глазами аналитика -  Tern4 BusinessObjects глазами аналитика -  Tern4
BusinessObjects глазами аналитика - Tern4 Valeriy Titov
 
Ранжирование: от строчки кода до Матрикснета
Ранжирование:  от строчки кода до МатрикснетаРанжирование:  от строчки кода до Матрикснета
Ранжирование: от строчки кода до Матрикснетаyaevents
 
Прокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data scienceПрокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data scienceSQALab
 
Семантическое ядро сайта - Внутренняя оптимизация сайтов с IBSchool
Семантическое ядро сайта - Внутренняя оптимизация сайтов с IBSchoolСемантическое ядро сайта - Внутренняя оптимизация сайтов с IBSchool
Семантическое ядро сайта - Внутренняя оптимизация сайтов с IBSchoolIBSchool Интернет-Бизнес школа
 
10 Critical Mistakes in Data Analysis
10 Critical Mistakes in Data Analysis 10 Critical Mistakes in Data Analysis
10 Critical Mistakes in Data Analysis CleverDATA
 
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...Ontico
 
YouScan: вебинар по аналитической работе в соцмедиа
YouScan: вебинар по аналитической работе в соцмедиаYouScan: вебинар по аналитической работе в соцмедиа
YouScan: вебинар по аналитической работе в соцмедиаYouScan
 
Data-Drive Product Management (Михаил Томшинский, Яндекс)
Data-Drive Product Management (Михаил Томшинский, Яндекс)Data-Drive Product Management (Михаил Томшинский, Яндекс)
Data-Drive Product Management (Михаил Томшинский, Яндекс)PCampRussia
 
Творческие методы решения задач АМИР
Творческие методы решения задач АМИРТворческие методы решения задач АМИР
Творческие методы решения задач АМИРОлег Паладьев
 

Similaire à L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1) (20)

Основы Python. Работа с библиотекой Pandas
Основы Python. Работа с библиотекой PandasОсновы Python. Работа с библиотекой Pandas
Основы Python. Работа с библиотекой Pandas
 
Plakhov urfu 2013
Plakhov urfu 2013Plakhov urfu 2013
Plakhov urfu 2013
 
Основы концептуального проектирования
Основы концептуального проектированияОсновы концептуального проектирования
Основы концептуального проектирования
 
О общих подходах к отображению данных на сайте
О общих подходах к отображению данных на сайтеО общих подходах к отображению данных на сайте
О общих подходах к отображению данных на сайте
 
Dsml for business.full version
Dsml for business.full versionDsml for business.full version
Dsml for business.full version
 
SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данныхSECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
SECON'2014 - Андрей Устюжанин - Маленькие секреты больших данных
 
Современные методы анализа данных
Современные методы анализа данныхСовременные методы анализа данных
Современные методы анализа данных
 
IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...
IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...
IT Network BACon agile spring. Дмитрий Гузенко - BA for Data Science & Machin...
 
Bacon.2018.it pro network.ba for dsml
Bacon.2018.it pro network.ba for dsmlBacon.2018.it pro network.ba for dsml
Bacon.2018.it pro network.ba for dsml
 
BusinessObjects глазами аналитика - Tern4
BusinessObjects глазами аналитика -  Tern4 BusinessObjects глазами аналитика -  Tern4
BusinessObjects глазами аналитика - Tern4
 
Machine
MachineMachine
Machine
 
Ранжирование: от строчки кода до Матрикснета
Ранжирование:  от строчки кода до МатрикснетаРанжирование:  от строчки кода до Матрикснета
Ранжирование: от строчки кода до Матрикснета
 
Прокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data scienceПрокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data science
 
Семантическое ядро сайта - Внутренняя оптимизация сайтов с IBSchool
Семантическое ядро сайта - Внутренняя оптимизация сайтов с IBSchoolСемантическое ядро сайта - Внутренняя оптимизация сайтов с IBSchool
Семантическое ядро сайта - Внутренняя оптимизация сайтов с IBSchool
 
10 Critical Mistakes in Data Analysis
10 Critical Mistakes in Data Analysis 10 Critical Mistakes in Data Analysis
10 Critical Mistakes in Data Analysis
 
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
 
Взгляд на Data Science
Взгляд на Data ScienceВзгляд на Data Science
Взгляд на Data Science
 
YouScan: вебинар по аналитической работе в соцмедиа
YouScan: вебинар по аналитической работе в соцмедиаYouScan: вебинар по аналитической работе в соцмедиа
YouScan: вебинар по аналитической работе в соцмедиа
 
Data-Drive Product Management (Михаил Томшинский, Яндекс)
Data-Drive Product Management (Михаил Томшинский, Яндекс)Data-Drive Product Management (Михаил Томшинский, Яндекс)
Data-Drive Product Management (Михаил Томшинский, Яндекс)
 
Творческие методы решения задач АМИР
Творческие методы решения задач АМИРТворческие методы решения задач АМИР
Творческие методы решения задач АМИР
 

Plus de Technosphere1

Лекция №13 "Глубокие нейронные сети"
Лекция №13 "Глубокие нейронные сети" Лекция №13 "Глубокие нейронные сети"
Лекция №13 "Глубокие нейронные сети" Technosphere1
 
Лекция №11 "Основы нейронных сетей"
Лекция №11 "Основы нейронных сетей" Лекция №11 "Основы нейронных сетей"
Лекция №11 "Основы нейронных сетей" Technosphere1
 
Лекция №9 "Алгоритмические композиции. Начало"
Лекция №9 "Алгоритмические композиции. Начало"Лекция №9 "Алгоритмические композиции. Начало"
Лекция №9 "Алгоритмические композиции. Начало"Technosphere1
 
Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов" Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов" Technosphere1
 
Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии" Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии" Technosphere1
 
Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"Technosphere1
 
Л9: Взаимодействие веб-приложений
Л9: Взаимодействие веб-приложенийЛ9: Взаимодействие веб-приложений
Л9: Взаимодействие веб-приложенийTechnosphere1
 
Л8 Django. Дополнительные темы
Л8 Django. Дополнительные темыЛ8 Django. Дополнительные темы
Л8 Django. Дополнительные темыTechnosphere1
 
Мастер-класс: Особенности создания продукта для мобильного веб
Мастер-класс: Особенности создания продукта для мобильного вебМастер-класс: Особенности создания продукта для мобильного веб
Мастер-класс: Особенности создания продукта для мобильного вебTechnosphere1
 
Мастер-класс: "Интеграция в промышленную разработку"
Мастер-класс: "Интеграция в промышленную разработку"Мастер-класс: "Интеграция в промышленную разработку"
Мастер-класс: "Интеграция в промышленную разработку"Technosphere1
 
Webdev7: Обработка HTTP запросов. Django Views
Webdev7: Обработка HTTP запросов. Django ViewsWebdev7: Обработка HTTP запросов. Django Views
Webdev7: Обработка HTTP запросов. Django ViewsTechnosphere1
 
L8: Л7 Em-алгоритм
L8: Л7 Em-алгоритмL8: Л7 Em-алгоритм
L8: Л7 Em-алгоритмTechnosphere1
 
L6: Метод опорных векторов
L6: Метод опорных векторовL6: Метод опорных векторов
L6: Метод опорных векторовTechnosphere1
 
L5: Л5 Байесовские алгоритмы
L5: Л5 Байесовские алгоритмыL5: Л5 Байесовские алгоритмы
L5: Л5 Байесовские алгоритмыTechnosphere1
 
L4: Решающие деревья
L4: Решающие деревьяL4: Решающие деревья
L4: Решающие деревьяTechnosphere1
 
L3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессияL3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессияTechnosphere1
 
L2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибокL2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибокTechnosphere1
 

Plus de Technosphere1 (19)

Лекция №13 "Глубокие нейронные сети"
Лекция №13 "Глубокие нейронные сети" Лекция №13 "Глубокие нейронные сети"
Лекция №13 "Глубокие нейронные сети"
 
Лекция №11 "Основы нейронных сетей"
Лекция №11 "Основы нейронных сетей" Лекция №11 "Основы нейронных сетей"
Лекция №11 "Основы нейронных сетей"
 
Лекция №9 "Алгоритмические композиции. Начало"
Лекция №9 "Алгоритмические композиции. Начало"Лекция №9 "Алгоритмические композиции. Начало"
Лекция №9 "Алгоритмические композиции. Начало"
 
Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов" Лекция №7 "Машина опорных векторов"
Лекция №7 "Машина опорных векторов"
 
Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии" Лекция №6 "Линейные модели для классификации и регрессии"
Лекция №6 "Линейные модели для классификации и регрессии"
 
Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"Лекция №4 "Задача классификации"
Лекция №4 "Задача классификации"
 
Л9: Взаимодействие веб-приложений
Л9: Взаимодействие веб-приложенийЛ9: Взаимодействие веб-приложений
Л9: Взаимодействие веб-приложений
 
Л8 Django. Дополнительные темы
Л8 Django. Дополнительные темыЛ8 Django. Дополнительные темы
Л8 Django. Дополнительные темы
 
Webdev7 (2)
Webdev7 (2)Webdev7 (2)
Webdev7 (2)
 
Мастер-класс: Особенности создания продукта для мобильного веб
Мастер-класс: Особенности создания продукта для мобильного вебМастер-класс: Особенности создания продукта для мобильного веб
Мастер-класс: Особенности создания продукта для мобильного веб
 
Web лекция 1
Web   лекция 1Web   лекция 1
Web лекция 1
 
Мастер-класс: "Интеграция в промышленную разработку"
Мастер-класс: "Интеграция в промышленную разработку"Мастер-класс: "Интеграция в промышленную разработку"
Мастер-класс: "Интеграция в промышленную разработку"
 
Webdev7: Обработка HTTP запросов. Django Views
Webdev7: Обработка HTTP запросов. Django ViewsWebdev7: Обработка HTTP запросов. Django Views
Webdev7: Обработка HTTP запросов. Django Views
 
L8: Л7 Em-алгоритм
L8: Л7 Em-алгоритмL8: Л7 Em-алгоритм
L8: Л7 Em-алгоритм
 
L6: Метод опорных векторов
L6: Метод опорных векторовL6: Метод опорных векторов
L6: Метод опорных векторов
 
L5: Л5 Байесовские алгоритмы
L5: Л5 Байесовские алгоритмыL5: Л5 Байесовские алгоритмы
L5: Л5 Байесовские алгоритмы
 
L4: Решающие деревья
L4: Решающие деревьяL4: Решающие деревья
L4: Решающие деревья
 
L3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессияL3: Линейная и логистическая регрессия
L3: Линейная и логистическая регрессия
 
L2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибокL2: Задача классификации и регрессии. Метрики ошибок
L2: Задача классификации и регрессии. Метрики ошибок
 

L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

  • 1. Введение в Data Science Занятие 0. Знакомство Николай Анохин Михаил Фирулик 22 февраля 2014 г.
  • 2. Ваши преподаватели Михаил Фирулик (m.firulik@corp.mail.ru / +7 916 730-97-66) руководитель отдела анализа данных в Mail.Ru Group многолетний опыт интеллектуального анализа данных Николай Анохин (n.anokhin@corp.mail.ru / +7 903 111-44-60) программист-исследователь в Mail.Ru Group более трех лет работы в области Data Mining
  • 3. Права и обязанности можно задавать вопросы преподавателю выносить идеи на общее обсуждение входить и выходить, не мешая коллегам не можно нарушать порядок на занятии разговаривать по телефону в аудитории общение с преподавателем на “Вы” с коллегами – как удобно Ваши правила?
  • 4. План занятия Какие задачи решает Data Science Как устроен наш курс Методология и применимость Data Science Простые задачки
  • 5. Одна (типичная) задача Рекламная компания магазина зимней одежды: определить аудиторию A1 (data) acquisition A2 (data) analysis A3 (data) archiving A4 (data) architecture
  • 6. Что делать? Разобраться в предметной области Общаться с пользователями данных Понимать “Big Picture” Изучить представление данных Произвести подготовку и анализ данных Визуализировать результат Учитывать этические соображения
  • 7. Мы бы хотели, чтобы вы 1. получили практический опыт решения задач Data Mining 2. познакомились с инструментарием 3. поиграли и получили удовольствие
  • 8. Что необходимо повторить 1. Линейная алгебра 2. Теория вероятностей 3. Алгоритмы и структуры данных
  • 9. Модули курса 1. Задачи классификации (6 занятий) 2. Задачи кластеризации (3 занятия) 3. Мета-алгоритмы (4 занятия)
  • 10. Модуль 1. Задачи классификации Задача Разработать алгоритм, позволяющий определить класс произвольного объекта из некоторго множества Каждый объект заданного множества принадлежит классу из некоторого набора Дана обучающая выборка, в которой для каждого объекта известен класс Примеры Определение спама Кредитный скоринг Распознавание лиц
  • 11. Модуль 1. Содержание 1. Задача классификации и регрессии. Метрики ошибок 2. Линейная и логистическая регрессия 3. Решающие деревья 4. Байесовские алгоритмы 5. Метод опорных векторов Задача модуля. Предсказание пола и возраста пользователей популярных социальных сервисов.
  • 12. Модуль 2. Задачи кластеризации Задача Разбить выборку объектов на подмножества (кластеры) Объекты внутри одного кластера должны быть похожи Объекты из разных кластеров должны существенно отличаться Примеры Определение сообществ Сегментация изображений Исследование рынка
  • 13. Модуль 2. Содержание 1. Задача кластеризации. Метрики качества 2. EM-алгоритм 3. Различные алгоритмы кластеризации Задача модуля. Разбиение на категории товаров, предлагаемых крупными интернет-магазинами.
  • 14. Модуль 3. Мета-алгоритмы Какие факторы выбрать для решения задачи? Что, если алгоритмы не дают необходимого качества? Что, если данные не помещаются в памяти?
  • 15. Модуль 3. Содержание 1. Метод ансамблей 2. Предобработка данных и выбор факторов 3. Вычислительная модель MapReduce Задача модуля. Классификация пользоватей интернета с использованием реальных данных сервисов Mail.Ru.
  • 16. CRISP-DM SPSS, Teradata, Daimler AG, NCR Corporation, OHRA
  • 17. Business understanding На рыболовном предприятии автоматизируем сортировку улова VS
  • 18. Data understanding 1 Какие факторы будем использовать? VS
  • 19. Data understanding 2 X – множество объектов. Фактор fi : X → Fi Бинарные/Binary: Fi = {true, false} (есть ли пятна, двойной ли плавник) Номинальные/Categorical: Fi – конечно (цвет, форма чешуи) Порядковый/Ordinal: Fi – конечно, определен порядок (категория возраста, количество плавников) Количественный/Numerical: Fi = R (длина, вес)
  • 20. Data preparation Эта часть проекта занимает больше всего времени Удаление шума Заполнение отсутствующих значений Трансформация факторов Выбор факторов Использование априорных знаний Результат. Обучающая выборка, в формате, подходящем для моделирования
  • 21. Modeling 1 Модель – описание класса, выраженное, как правило, в математической форме. Цель – выбрать удачную модель и ее параметры так, чтобы она наилучшим образом описывала заданный класс. Статистические модели Модели машинного обучения
  • 23. Evaluation & Deployment Решает ли выбранная модель задачу достаточно эффективно? Удовлетворяет ли модель требованиям бизнеса? Что вообще может пойти не так?
  • 24. 1854 г. Эпидемия холеры в Лондоне
  • 25. Программа TIA Наблюдаем 109 человек Человек в среднем посещает отель раз в 100 дней Есть 105 отелей на 100 человек каждый Проверим посещения за 1000 дней Вероятность для конкретной пары встретиться в отеле в конкретный день: p1 = 1 100 2 · 10−5 = 10−9 Всего пар людей npp = C109 2 ≈ (109 )2 2 = 5 · 1017 а пар дней npd = C103 2 ≈ (103 )2 2 = 5 · 105 Ожидаемое количество “подозрительных” встреч в отелях N = p2 1nppnpd = 250000 >> 10
  • 26. Принцип Бонферрони Вычислить количество рассматриваемых событий при предположении их полной случайности. Если это количество намного превосходит количество событий, о котором идет речь в задаче, полученные результаты нельзя будет считать достоверными.
  • 27. Что мы обсудили на сегодняшней лекции? Познакомились со стандартным процессом CRISP-DM Вспомнили, какие бывают виды факторов Узнали, для чего в Data Science используется моделирование Разобрались с принципом Бонферрони
  • 28. Задача 1 Пусть имеется простая обучающая выборка, включающая в себя 4 признака: бинарный f1, номинальный f2, порядковый f3 и количественный f4. N f1 f2 f3 f4 1 true A O1 3.14 2 false B O2 2.7 3 true A O2 11.0 4 true C O1 10.0 Предложенная модель работает только на бинарных признаках. Как преобразовать данную обучающую выборку в нужный формат? А если количественный? А номинальный?
  • 29. Задача 2 Пусть имеется информация о покупках, совершенных 100 миллионами людей. Кажый из них идет за покупками в среднем 100 раз в год и покупает 10 из 1000 представленных товаров. Предположим, что два злоумышленника покупают одинаковые наборы товаров. Если мы ищем пары людей, купившие одинаковые наборы в течение года, сможем ли мы действительно определить террористов?