SlideShare une entreprise Scribd logo
1  sur  87
Télécharger pour lire hors ligne
Машинное	
  обучение	
  и	
  
анализ	
  данных	
  

Саша	
  Фонарев	
  

Малый	
  ШАД	
  2013	
  
Сборка	
  презентации	
  от	
  30.11.2013	
  
Контрольные	
  вопросы	
  
•  Какой	
  метод	
  больше	
  склонен	
  к	
  
переобучению	
  –	
  метод	
  одного	
  ближайшего	
  
соседа	
  или	
  метод	
  ста	
  ближайших	
  соседей?	
  
Почему?	
  
Что	
  такое	
  машинное	
  обучение?	
  
Автомобиль	
  или	
  стул?	
  
Автомобиль	
  или	
  стул?	
  

	
  
Нужен	
  жизненный	
  опыт	
  
(модель	
  представления	
  о	
  мире)	
  
Идея	
  машинного	
  обучения	
  
Обучающаяся	
  
программа	
  
Примеры	
  данных	
  с	
  
закономерностями	
  

Модель	
  
закономерности	
  

Поиск	
  
закономерностей	
  в	
  
новых	
  данных	
  
Метод	
  ближайшего	
  соседа	
  
Сначала	
  решим	
  простую	
  задачу	
  
Синий	
  или	
  красный	
  новый	
  объект?	
  
250

200

150

100

?	
  

50

0

0

50

100

150

200

250

300
Ближайший	
  сосед	
  
•  Пусть	
  новый	
  объект	
  принадлежит	
  к	
  тому	
  же	
  
классу,	
  что	
  и	
  его	
  ближайший	
  сосед	
  
250

200

150

100

50

0

0

50

100

150

200

250

300
Граница	
  разделения	
  классов	
  

Возможно,	
  шумовые	
  объекты	
  
Несколько	
  ближайших	
  соседей	
  
•  Новый	
  объект	
  принадлежит	
  тому	
  же	
  классу,	
  
что	
  и	
  большинство	
  из	
  k	
  его	
  соседей	
  
250

200

150

100

50

0

0

50

100

150

200

250

300
Граница	
  разделения	
  классов	
  для	
  k=5	
  

Оказывается,	
  алгоритм	
  дает	
  ошибку	
  на	
  
обучающей	
  выборке!	
  А	
  это	
  и	
  не	
  плохо.	
  
А	
  если	
  объектов	
  больше?	
  

K=1	
  

K=15	
  
Степень	
  принадлежности	
  
Полутона	
  означают,	
  что	
  примерно	
  половина	
  
соседей	
  одного	
  класса	
  и	
  половина	
  другого	
  
Многомерное	
  пространство	
  
0.8

z

0.6
0.4
0.2
0
1
1

0.5
y

0.5
0 0

x
Двумерные	
  проекции	
  трехмерных	
  
данных	
  
z	
  

x	
  
y	
  
z	
  

y	
  

x	
  
Качество	
  и	
  параметры	
  
алгоритмов	
  
Как	
  лучше	
  выбрать	
  границу?	
  
Недообученная	
  (слабая)	
  модель	
  
Переобученная	
  модель	
  
Оптимальная	
  модель	
  
Переобучение	
  
Сложность	
  модели	
  и	
  ее	
  параметры	
  
•  Обычно	
  если	
  модель	
  склонна	
  
переобучаться,	
  то	
  у	
  нее	
  много	
  параметров	
  
•  Наоборот,	
  если	
  у	
  модели	
  мало	
  параметров,	
  
то	
  и	
  вряд	
  ли	
  она	
  переобучается	
  
Строгая	
  постановка	
  задачи	
  классификации	
  

новые	
  
объекты	
  

обучающая	
  
выборка	
  

признаки	
  

класс	
  

признаковое	
  описание	
  

признаки	
  

?
Какой	
  алгоритм	
  выбрать?	
  
Разбиение	
  на	
  контроль	
  
•  Используем	
  имеющиеся	
  данные	
  из	
  обучающей	
  
выборки.	
  Разобъем	
  обучение	
  на	
  две	
  части.	
  
•  На	
  одной	
  мы	
  будем	
  обучаться,	
  а	
  на	
  второй	
  
проверять,	
  сколько	
  ошибок	
  выдал	
  алгоритм	
  

	
  
обучающая	
  
выборка	
  

новая	
  
обучающая	
  
выборка	
  
контрольная	
  
выборка	
  

!
Качество	
  обучения	
  в	
  зависимости	
  от	
  k	
  
%	
   98	
  
96	
  
94	
  
92	
  
90	
  
88	
  
86	
  
1	
   3	
   5	
   7	
   9	
   11	
   13	
   15	
   17	
   19	
   21	
   23	
   25	
   27	
   29	
   31	
   33	
   35	
   37	
   39	
   41	
   43	
   45	
   47	
   49	
  

k	
  
Как	
  точнее	
  узнавать	
  оптимальное	
  
значение	
  параметра	
  k?	
  
•  Видно	
  что	
  график	
  скачет,	
  почему?	
  
•  Точно	
  узнать	
  k	
  тяжело	
  
•  Можно	
  проводить	
  разбиение	
  на	
  тест	
  и	
  
контроль	
  много	
  раз,	
  а	
  затем	
  усреднять	
  
результаты	
  
Итак,	
  что	
  мы	
  имеем	
  
•  Сложность:	
  O(NM),	
  N	
  –	
  количество	
  объектов	
  
в	
  обучении,	
  M	
  –	
  количество	
  новых	
  
объектов,	
  O(1)	
  –	
  подсчет	
  одного	
  расстояния	
  
•  Структуры	
  данных	
  для	
  ускорения:	
  kd-­‐tree,	
  
R-­‐tree,	
  Ball-­‐tree	
  
•  Есть	
  один	
  оптимизируемый	
  параметр	
  –	
  
число	
  соседей	
  k	
  (а	
  всего	
  параметров	
  
больше,	
  почему?)	
  
•  Нужно	
  уметь	
  считать	
  расстояние	
  между	
  
объектами	
  
Про	
  выбор	
  расстояния	
  
•  Расстояние	
  на	
  плоскости	
  между	
  точками	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  и	
  	
  
•  Расстояние	
  в	
  многомерном	
  случае	
  считается	
  аналогично	
  
•  Можно	
  добавить	
  признакам	
  веса	
  
•  Можно	
  считать	
  вообще	
  по-­‐другому	
  
•  Можно	
  делать	
  отбор	
  признаков	
  
Выбор	
  расстояния	
  
Понять	
  какую	
  меру	
  сходства	
  между	
  
объектами	
  надо	
  использовать	
  –	
  очень	
  
сложная	
  задача	
  
Параметры	
  модели	
  
•  Количество	
  настраиваемых	
  параметров	
  у	
  
алгоритма	
  бывает	
  куда	
  больше	
  
•  Не	
  всегда	
  удается	
  «тупо»	
  перебрать	
  все	
  
значения	
  параметров	
  у	
  модели	
  
•  Придумываются	
  разные	
  быстрые	
  методы	
  
нахождения	
  параметров,	
  близких	
  к	
  
оптимальным	
  (раздел	
  математики	
  –	
  
методы	
  оптимизации)	
  
Цикл	
  решения	
  задачи	
  
Выбор	
  метода	
  
и	
  параметров	
  
Предобработка	
  
данных	
  

Обучение	
  

Оценка	
  
качества	
  

Окончательный	
  
классификатор	
  
Терминология	
  
•  Распознавание,	
  предсказание,	
  
прогнозирование	
  
•  Обучающая	
  выборка,	
  тренировочный	
  
набор	
  объектов,	
  наблюдение	
  
•  Тестовая	
  выборка,	
  контрольная	
  выборка,	
  
валидационная	
  выборка,	
  скрытая	
  выборка	
  
•  Классы,	
  метки	
  классов	
  
Примеры	
  задач	
  
Болен	
  ли	
  пациент?	
  

Неизвестные	
  
пациенты	
  

Известные	
  
пациенты	
  

Описание	
  пациента	
  	
  

Болен	
  или	
  нет?	
  

признаковое	
  описание	
  

признаки	
  

?
Есть	
  золото?	
  

Новые	
  
территории	
  

Известные	
  
территории	
  

Описание	
  территории	
  

Есть	
  или	
  нет?	
  

признаковое	
  описание	
  

признаки	
  

?

Очень	
  несбалансированные	
  данные!	
  
Поднимется	
  или	
  упадет	
  цена	
  акций?	
  

Будущее	
  

История	
  

Цены	
  акций	
  в	
  предыдущие	
  
Цена	
  в	
  следующий	
  момент	
  
моменты	
  времени	
  

признаковое	
  описание	
  

признаки	
  

?
Кого	
  выберут	
  на	
  выборах?	
  

Новые	
  
кандид
аты	
  

Кандидаты	
  
с	
  прошлых	
  
выборов	
  

Описание	
  кандидата	
  

Выбран	
  или	
  нет?	
  

признаковое	
  описание	
  

признаки	
  

?

Нужны	
  дополнительные	
  ограничения	
  на	
  вид	
  данных!	
  
Есть	
  ли	
  котик	
  на	
  изображении?	
  

Неизвестные	
  
фотографии	
  

Размеченные	
  
фотографии	
  

Описание	
  изображений	
  	
  

Есть	
  котик	
  или	
  нет?	
  

признаковое	
  описание	
  

признаки	
  

?
Что	
  такое	
  изображение?	
  
•  Матрица	
  пикселей	
  
•  Каждый	
  пиксель	
  имеет	
  свой	
  цвет	
  (число)	
  

Число,	
  кодирующее	
  цвет	
  
Как	
  описать	
  изображение?	
  
Развернуть	
  матрицу	
  пикселей	
  в	
  одну	
  строчку	
  
и	
  использовать	
  это	
  как	
  набор	
  признаков	
  
	
  
Получится	
  плохо.	
  Нужны	
  границы!	
  
Человеческий	
  мозг	
  в	
  основном	
  анализирует	
  именно	
  её	
  
Рекомендательная	
  система	
  
Известные	
  
Новые	
  
пользователи	
   пользователи	
  

Понравится	
  новый	
  
Просмотренные	
  фильмы	
  
фильм	
  или	
  нет?	
  

признаковое	
  описание	
  

признаки	
  

?

Не	
  учитывается	
  большое	
  количество	
  взаимосвязей!	
  
Рекомендательная	
  система	
  
•  Большое	
  количество	
  пропусков	
  в	
  данных	
  
•  Можно	
  использовать	
  категориальные	
  
признаки!	
  
Коллаборативная	
  фильтрация	
  
Фильм	
  

Неизвестные	
  
оценки	
  

Известные	
  
оценки	
  

Пользователь	
  

Оценка	
  
за	
  фильм	
  

признаки	
  

?

Категориальные	
  признаки	
  могут	
  принимать	
  много	
  
неупорядоченных	
  значений	
  
Ранжирование	
  
Запрос	
  

Релевантность	
  

Неизвестные	
  
оценки	
  

Известные	
  
оценки	
  

Документ	
  

признаки	
  

?
Персональное	
  ранжирование	
  
User	
  

Релевантность	
  

Неизвестные	
  
оценки	
  

Известные	
  
оценки	
  

Документ	
   Запрос	
  

признаки	
  

?
Линейная	
  классификация	
  и	
  
ее	
  производные	
  
Пусть	
  граница	
  –	
  прямая	
  

Мало	
  параметров	
  
Иногда	
  прямая	
  плохо	
  помогает	
  

Мало	
  параметров	
  –	
  вряд	
  ли	
  переобучится	
  
Гиперплоскости	
  в	
  многомерных	
  
Author
пространствах	
  
Today
•  В	
  двумерном	
  случае	
  –	
  прямая	
  
•  В	
  трехмерном	
  –	
  плоскость	
  
•  Дальше	
  –	
  гиперплоскость	
  
a1 x1 + a2 x2 + ... + an

1 xn 1

+ an xn + a0 = 0

Делит	
  пространство	
  на	
  две	
  части	
  
Есть	
  много	
  способов	
  провести	
  
прямую	
  

Какая	
  прямая	
  лучше?	
  Нужно	
  сравнивать	
  качество!	
  
Возможны	
  обобщения	
  
на	
  сложные	
  границы	
  
Представим	
  в	
  виде	
  схемы	
  

Граница	
  –	
  прямая	
  
Аналогично	
  для	
  n	
  входов	
  

Граница	
  –	
  n-­‐мерная	
  гиперплоскость	
  
Можно	
  как	
  угодно	
  соединять	
  

Получится	
  нейронная	
  сеть	
  
Глубинная	
  нейронная	
  сеть	
  
Стараемся	
  восстановить	
  исходные	
  объекты	
  

	
  
Нейронные	
  сети	
  
l 
l 
l 
l 

Могут	
  подстроиться	
  под	
  любые	
  данные	
  
Любят	
  переобучаться	
  
На	
  самом	
  деле	
  не	
  похожи	
  на	
  мозг	
  человека	
  :)	
  
Имеют	
  огромное	
  количество	
  преимуществ	
  и	
  
недостатков	
  
Решающие	
  деревья	
  и	
  
композиции	
  над	
  ними	
  
Экспертные	
  системы,	
  составленные	
  
вручную	
  

Решающее	
  дерево	
  для	
  предсказания	
  эффективности	
  введения	
  лекарства	
  
В	
  чем	
  проблемы?	
  
• 
• 
• 
• 

Правила	
  составлялись	
  вручную	
  экспертами	
  
Мнения	
  экспертов	
  расходятся	
  
Эскперты	
  могут	
  ошибаться	
  
Эксперт	
  не	
  в	
  состоянии	
  проанализировать	
  все	
  
данные	
  
Построим	
  дерево	
  автоматически	
  
условие	
  1	
  
FALSE	
  

TRUE	
  

условие	
  2	
  
TRUE	
  

FALSE	
  
Какие	
  условия	
  будут	
  в	
  дереве?	
  

Попробуем	
  использовать	
  пороговые	
  условия	
  перехода	
  
в	
  виде	
  пороговых	
  правил:	
  x>c	
  
Начнем	
  строить	
  дерево	
  
•  Будем	
  действовать	
  жадно	
  
•  Каждый	
  раз	
  берем	
  наиболее	
  «информативное»	
  
разделение	
  всей	
  области	
  

нет	
  
Строим	
  дерево	
  
Каждый	
  раз	
  берем	
  наиболее	
  «информативное»	
  
разделение	
  текущей	
  области	
  

нет	
  

да	
  

нет	
  

да	
  
Преимущества	
  деревьев	
  
перед	
  алгоритмами	
  на	
  метриках	
  
•  Придумать	
  правильную	
  меру	
  сходства	
  –	
  
значит	
  почти	
  решить	
  задачу,	
  это	
  сложно.	
  А	
  
решающие	
  деревья	
  не	
  используют	
  метрики	
  
•  Единственное	
  что	
  используют	
  деревья	
  –	
  	
  
	
  	
  	
  	
  А	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  В	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  С	
  
точка	
  В	
  ближе	
  к	
  А,	
  чем	
  С	
  по	
  данному	
  признаку	
  
•  Устойчивы	
  к	
  монотонным	
  преобразованиям	
  
признаков	
  
Недостатки	
  решающего	
  дерева	
  
•  В	
  реальных	
  задачах	
  сильно	
  переобучаются,	
  
мельчат	
  вокруг	
  одной	
  области	
  пространства	
  
(содержат	
  в	
  себе	
  много	
  параметров)	
  
•  Очень	
  неустойчивы	
  относительно	
  данных	
  
Решение:	
  подрезания	
  деревьев	
  
•  Если	
  информативность	
  условия	
  меньше	
  
порога,	
  то	
  прекращаем	
  строить	
  дерево	
  
•  Количество	
  объектов	
  в	
  листе	
  меньше	
  
некоторого	
  числа,	
  то	
  прекращаем	
  строить	
  
•  И	
  т.п.	
  
Будем	
  возвращать	
  вещественную	
  
степень	
  принадлежности	
  классу	
  
от	
  	
  -­‐1	
  до	
  +1	
  
условие	
  1	
  
FALSE	
  

TRUE	
  

условие	
  2	
  

TRUE	
  

FALSE	
  
Композиции	
  алгоритмов	
  
•  Пусть	
  есть	
  какой-­‐то	
  набор	
  из	
  T	
  алгоритмов:	
  
	
  
•  Финальный	
  алгоритм:	
  
Лес	
  деревьев	
  
Построим	
  композицию	
  из	
  решающих	
  деревьев	
  
ДеревоT

Дерево1

……	
  

Как	
  сделать	
  деревья	
  существенно	
  разными?	
  
Будем	
  обучаться	
  на	
  случайных	
  
подвыборках	
  

объекты	
  

признаки	
  

Случайная	
  
подвыборка	
  

класс	
  
Как	
  работает	
  случайный	
  лес?	
  
Сгенерируем	
  данные:	
  
Как	
  работает	
  случайный	
  лес?	
  

Реальная	
  оптимальная	
  
границы	
  

Результат	
  работы	
  
Random	
  Forest	
  
(50	
  деревьев)	
  

Результат	
  работы	
  
Random	
  Forest	
  
(2000	
  деревьев)	
  
Случайный	
  лес	
  
• 
• 
• 
• 
• 
• 
• 
• 

Работает	
  с	
  признаками	
  разной	
  природы	
  
Не	
  надо	
  думать	
  над	
  метрикой	
  
Устойчив	
  к	
  изменениям	
  признаков	
  
Хорошо	
  распараллеливается	
  
Тяжело	
  интерпретируется	
  человеком	
  
Плохо	
  приближает	
  линейные	
  зависимости	
  
Долго	
  строится	
  
Не	
  переобучается	
  при	
  увеличении	
  количества	
  деревьев	
  	
  

“This	
  ease	
  of	
  use	
  also	
  makes	
  Random	
  Forests	
  an	
  ideal	
  tool	
  for	
  people	
  
without	
  a	
  background	
  in	
  sta:s:cs,	
  allowing	
  lay	
  people	
  to	
  produce	
  
fairly	
  strong	
  predic:ons	
  free	
  from	
  many	
  common	
  mistakes,	
  with	
  only	
  a	
  
small	
  amount	
  of	
  research	
  and	
  programming”.	
  

Kaggle.com	
  
Последовательное	
  наращивание	
  
композиции	
  алгоритмов	
  (бустинг)	
  
•  Строим	
  композицию	
  из	
  слабых	
  алгоритмов	
  
–	
  подрезанных	
  решающих	
  деревьев	
  
•  Каждое	
  новое	
  дерево	
  компенсирует	
  
ошибки	
  суммы	
  предыдущих	
  
•  Получается	
  очень	
  сильная	
  композиция	
  
•  Склонна	
  к	
  переобучению,	
  несмотря	
  на	
  
многие	
  обратные	
  заявления	
  :)	
  
Качество	
  при	
  разном	
  числе	
  деревьев	
  
	
  
	
  
Основная	
  идея	
  бустинга	
  
•  Набор	
  ответов,	
  предсказанный	
  после	
  шага	
  T	
  
•  Предсказанный	
  ответ	
  отличается	
  от	
  истинного	
  
на	
  разность	
  
•  Будем	
  обучать	
  следующее	
  дерево	
  на	
  эту	
  
разность	
  
Что	
  такое	
  бустинг	
  на	
  самом	
  деле?	
  
•  Рассматривается	
  не	
  разность,	
  а	
  градиент	
  
ответов,	
  на	
  который	
  настраивается	
  очередное	
  
дерево	
  
•  Перед	
  деревьями	
  ставятся	
  маленькие	
  
коэффициенты	
  (порядка	
  0.02)	
  во	
  избежание	
  
переобучения	
  
•  На	
  каждом	
  шаге	
  используется	
  произвольная	
  
часть	
  объектов	
  (стохастичность)	
  
Yandex	
  MatrixNet	
  –	
  стохастический	
  градиентный	
  
бустинг	
  над	
  решающими	
  деревьями	
  (а	
  еще	
  его	
  
используют	
  Yahoo,	
  CERN	
  и	
  другие)	
  
Алгоритм	
  Виолы-­‐Джонса	
  
Заключение	
  
Про	
  терминологию	
  
•  Интеллектуальный	
  анализ	
  данных	
  (Data	
  
Mining)	
  
•  Машинное	
  обучение	
  (Machine	
  Learning,	
  
Sta—s—cal	
  Learning)	
  
•  Прикладная	
  статистика	
  (Applied	
  Sta—s—cs)	
  
•  Факторный	
  анализ	
  (Factor	
  Analysis)	
  
•  Теория	
  оптимизации	
  (Op—miza—on	
  Theory)	
  
•  Искусственный	
  Интеллект	
  (Ar—ffi—al	
  
Intellengence)	
  
Соревнования	
  по	
  анализу	
  данных	
  
•  Сайты	
  
–  Kaggle.com	
  
–  и	
  другие	
  

•  Кем	
  проводятся	
  
–  Компаниями	
  
–  Работодателями	
  
–  Университетами	
  
Отличия	
  от	
  олимпиадного	
  
программирования	
  
•  Дается	
  одна	
  задача,	
  а	
  не	
  несколько	
  
•  Решаются	
  значительно	
  дольше	
  (недели,	
  
месяцы,	
  годы)	
  
•  Не	
  существует	
  точного	
  и	
  правильного	
  решения	
  
•  Идет	
  борьба	
  за	
  сущие	
  проценты	
  качества	
  
•  Не	
  важен	
  язык,	
  скорость	
  работы	
  и	
  ресурсы;	
  
важен	
  только	
  результат	
  
•  В	
  одиночку	
  или	
  командами	
  
На	
  чем	
  пишут	
  алгоритмы	
  обучения?	
  
•  Готовые	
  наборы	
  методов	
  машинного	
  обучения	
  (для	
  
общего	
  понимания,	
  какой	
  метод	
  лучше)	
  
–  Weka	
  
–  RapidMiner	
  
–  Orange	
  

•  Интерпретируемые	
  языки	
  (для	
  экспериментов	
  и	
  
выбора	
  алгоритма)	
  
–  Matlab	
  (Octave	
  –	
  бесплатная	
  версия)	
  
–  Python	
  (+	
  библиотеки	
  на	
  основе	
  scipy)	
  
–  R	
  

•  Более	
  низкоуровневые	
  языки	
  (для	
  скорости	
  работы,	
  
когда	
  уже	
  ясно,	
  какой	
  алгоритм	
  будет	
  
использоваться)	
  
–  C	
  
–  C++	
  
Вопросы?	
  

Contenu connexe

Tendances

20120415 videorecognition konushin_lecture06
20120415 videorecognition konushin_lecture0620120415 videorecognition konushin_lecture06
20120415 videorecognition konushin_lecture06Computer Science Club
 
Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Technosphere1
 
CV2011 Lecture 13. Real-time vision
CV2011 Lecture 13. Real-time visionCV2011 Lecture 13. Real-time vision
CV2011 Lecture 13. Real-time visionAnton Konushin
 
Лекция 3 Сегментация
Лекция 3 СегментацияЛекция 3 Сегментация
Лекция 3 СегментацияVictor Kulikov
 
Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Technosphere1
 
!Predictive analytics part_3
!Predictive analytics part_3!Predictive analytics part_3
!Predictive analytics part_3Vladimir Krylov
 
CV2011 Lecture 11. Basic video
CV2011 Lecture 11. Basic videoCV2011 Lecture 11. Basic video
CV2011 Lecture 11. Basic videoAnton Konushin
 
CV2015. Лекция 6. Нейросетевые алгоритмы.
CV2015. Лекция 6. Нейросетевые алгоритмы.CV2015. Лекция 6. Нейросетевые алгоритмы.
CV2015. Лекция 6. Нейросетевые алгоритмы.Anton Konushin
 
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Technosphere1
 
Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Technosphere1
 
CV2011 Lecture 10. Image retrieval
CV2011 Lecture 10.  Image retrievalCV2011 Lecture 10.  Image retrieval
CV2011 Lecture 10. Image retrievalAnton Konushin
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Technosphere1
 
Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"Technosphere1
 
Лекция 8 Основы 3D обработки
Лекция 8 Основы 3D обработкиЛекция 8 Основы 3D обработки
Лекция 8 Основы 3D обработкиVictor Kulikov
 
Лекция 07 Обработка видео
Лекция 07 Обработка видеоЛекция 07 Обработка видео
Лекция 07 Обработка видеоVictor Kulikov
 
L7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качестваL7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качестваTechnosphere1
 

Tendances (20)

20120415 videorecognition konushin_lecture06
20120415 videorecognition konushin_lecture0620120415 videorecognition konushin_lecture06
20120415 videorecognition konushin_lecture06
 
L06 detection
L06 detectionL06 detection
L06 detection
 
Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства" Лекция №8 "Методы снижения размерности пространства"
Лекция №8 "Методы снижения размерности пространства"
 
CV2011 Lecture 13. Real-time vision
CV2011 Lecture 13. Real-time visionCV2011 Lecture 13. Real-time vision
CV2011 Lecture 13. Real-time vision
 
Лекция 3 Сегментация
Лекция 3 СегментацияЛекция 3 Сегментация
Лекция 3 Сегментация
 
Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...
Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...
Использование поисковых машин и ресурсов Интернет для отбора терминов предмет...
 
Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана" Лекция №12 "Ограниченная машина Больцмана"
Лекция №12 "Ограниченная машина Больцмана"
 
Лекция 2
Лекция 2Лекция 2
Лекция 2
 
!Predictive analytics part_3
!Predictive analytics part_3!Predictive analytics part_3
!Predictive analytics part_3
 
CV2011 Lecture 11. Basic video
CV2011 Lecture 11. Basic videoCV2011 Lecture 11. Basic video
CV2011 Lecture 11. Basic video
 
CV2015. Лекция 6. Нейросетевые алгоритмы.
CV2015. Лекция 6. Нейросетевые алгоритмы.CV2015. Лекция 6. Нейросетевые алгоритмы.
CV2015. Лекция 6. Нейросетевые алгоритмы.
 
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
 
Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes" Лекция №5 "Обработка текстов, Naive Bayes"
Лекция №5 "Обработка текстов, Naive Bayes"
 
4 azure 24 04
4 azure 24 044 azure 24 04
4 azure 24 04
 
CV2011 Lecture 10. Image retrieval
CV2011 Lecture 10.  Image retrievalCV2011 Lecture 10.  Image retrieval
CV2011 Lecture 10. Image retrieval
 
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение" Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №10 "Алгоритмические композиции. Завершение"
 
Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"Лекция №3 "Различные алгоритмы кластеризации"
Лекция №3 "Различные алгоритмы кластеризации"
 
Лекция 8 Основы 3D обработки
Лекция 8 Основы 3D обработкиЛекция 8 Основы 3D обработки
Лекция 8 Основы 3D обработки
 
Лекция 07 Обработка видео
Лекция 07 Обработка видеоЛекция 07 Обработка видео
Лекция 07 Обработка видео
 
L7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качестваL7:Задача кластеризации. Метрики качества
L7:Задача кластеризации. Метрики качества
 

Similaire à машинное обучение и анализ данных

BigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: PersonalizationBigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: PersonalizationAnton Gorokhov
 
Математика для тестировщиков
Математика для тестировщиковМатематика для тестировщиков
Математика для тестировщиковSQALab
 
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...Ontico
 
Введение в машинное обучение
Введение в машинное обучениеВведение в машинное обучение
Введение в машинное обучениеGrigory Sapunov
 
CV2015. Лекция 5. Выделение объектов.
CV2015. Лекция 5. Выделение объектов.CV2015. Лекция 5. Выделение объектов.
CV2015. Лекция 5. Выделение объектов.Anton Konushin
 
Перечитывая Лео Бреймана
Перечитывая Лео БрейманаПеречитывая Лео Бреймана
Перечитывая Лео БрейманаSerge Terekhov
 
Crowdsourcing с механической поддержкой
Crowdsourcing с механической поддержкойCrowdsourcing с механической поддержкой
Crowdsourcing с механической поддержкойssuser80b897
 
FaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewFaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewKhryashchev
 
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...JSC “Arcadia Inc”
 
Интерпретация моделей машинного обучения
Интерпретация моделей машинного обученияИнтерпретация моделей машинного обучения
Интерпретация моделей машинного обученияДмитрий Колодезев
 
Практика машинного обучения: вопросы и проблемы при работе над ML-проектом
Практика машинного обучения: вопросы и проблемы при работе над ML-проектомПрактика машинного обучения: вопросы и проблемы при работе над ML-проектом
Практика машинного обучения: вопросы и проблемы при работе над ML-проектомDenisenko Sergei
 
Оценка сроков IT проектов
Оценка сроков IT проектовОценка сроков IT проектов
Оценка сроков IT проектовAlexander Kalinichev
 
BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты Dima Karamshuk
 
Domain-тестирование
Domain-тестированиеDomain-тестирование
Domain-тестированиеSPB SQA Group
 
Многомерная компьютерная графика
Многомерная компьютерная графикаМногомерная компьютерная графика
Многомерная компьютерная графикаDmitry Savchenko
 
20120414 videorecognition konushin_lecture04
20120414 videorecognition konushin_lecture0420120414 videorecognition konushin_lecture04
20120414 videorecognition konushin_lecture04Computer Science Club
 
Про качественный поиск
Про качественный поискПро качественный поиск
Про качественный поискAndrew Aksyonoff
 
Построение гендерного классификатора
Построение гендерного классификатораПостроение гендерного классификатора
Построение гендерного классификатораVladimir Pavlov
 

Similaire à машинное обучение и анализ данных (20)

BigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: PersonalizationBigData Week Moscow 2013 - Case: Personalization
BigData Week Moscow 2013 - Case: Personalization
 
Математика для тестировщиков
Математика для тестировщиковМатематика для тестировщиков
Математика для тестировщиков
 
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
Ускоряем исследования с помощью конкурсов как их готовить и выигрывать / Иван...
 
Введение в машинное обучение
Введение в машинное обучениеВведение в машинное обучение
Введение в машинное обучение
 
CV2015. Лекция 5. Выделение объектов.
CV2015. Лекция 5. Выделение объектов.CV2015. Лекция 5. Выделение объектов.
CV2015. Лекция 5. Выделение объектов.
 
Перечитывая Лео Бреймана
Перечитывая Лео БрейманаПеречитывая Лео Бреймана
Перечитывая Лео Бреймана
 
Crowdsourcing с механической поддержкой
Crowdsourcing с механической поддержкойCrowdsourcing с механической поддержкой
Crowdsourcing с механической поддержкой
 
FaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_reviewFaceDetection+GenderRecognition_review
FaceDetection+GenderRecognition_review
 
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
AzovDevMeetup 2016 | Машинное обучение, параллельные и распределённые вычисле...
 
Интерпретация моделей машинного обучения
Интерпретация моделей машинного обученияИнтерпретация моделей машинного обучения
Интерпретация моделей машинного обучения
 
Практика машинного обучения: вопросы и проблемы при работе над ML-проектом
Практика машинного обучения: вопросы и проблемы при работе над ML-проектомПрактика машинного обучения: вопросы и проблемы при работе над ML-проектом
Практика машинного обучения: вопросы и проблемы при работе над ML-проектом
 
Оценка сроков IT проектов
Оценка сроков IT проектовОценка сроков IT проектов
Оценка сроков IT проектов
 
BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты BigData и Data Science: методы и инструменты
BigData и Data Science: методы и инструменты
 
Машинное обучение
Машинное обучениеМашинное обучение
Машинное обучение
 
Domain-тестирование
Domain-тестированиеDomain-тестирование
Domain-тестирование
 
Многомерная компьютерная графика
Многомерная компьютерная графикаМногомерная компьютерная графика
Многомерная компьютерная графика
 
20120414 videorecognition konushin_lecture04
20120414 videorecognition konushin_lecture0420120414 videorecognition konushin_lecture04
20120414 videorecognition konushin_lecture04
 
Про качественный поиск
Про качественный поискПро качественный поиск
Про качественный поиск
 
Построение гендерного классификатора
Построение гендерного классификатораПостроение гендерного классификатора
Построение гендерного классификатора
 
Evaluation in-nlp
Evaluation in-nlpEvaluation in-nlp
Evaluation in-nlp
 

Plus de Yandex

Предсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksПредсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksYandex
 
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Yandex
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаYandex
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаYandex
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Yandex
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Yandex
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Yandex
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Yandex
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Yandex
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Yandex
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Yandex
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Yandex
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровYandex
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Yandex
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Yandex
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Yandex
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Yandex
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Yandex
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Yandex
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Yandex
 

Plus de Yandex (20)

Предсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of TanksПредсказание оттока игроков из World of Tanks
Предсказание оттока игроков из World of Tanks
 
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
Как принять/организовать работу по поисковой оптимизации сайта, Сергей Царик,...
 
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
 

машинное обучение и анализ данных

  • 1. Машинное  обучение  и   анализ  данных   Саша  Фонарев   Малый  ШАД  2013   Сборка  презентации  от  30.11.2013  
  • 2. Контрольные  вопросы   •  Какой  метод  больше  склонен  к   переобучению  –  метод  одного  ближайшего   соседа  или  метод  ста  ближайших  соседей?   Почему?  
  • 3. Что  такое  машинное  обучение?  
  • 5. Автомобиль  или  стул?     Нужен  жизненный  опыт   (модель  представления  о  мире)  
  • 6. Идея  машинного  обучения   Обучающаяся   программа   Примеры  данных  с   закономерностями   Модель   закономерности   Поиск   закономерностей  в   новых  данных  
  • 8. Сначала  решим  простую  задачу   Синий  или  красный  новый  объект?   250 200 150 100 ?   50 0 0 50 100 150 200 250 300
  • 9. Ближайший  сосед   •  Пусть  новый  объект  принадлежит  к  тому  же   классу,  что  и  его  ближайший  сосед   250 200 150 100 50 0 0 50 100 150 200 250 300
  • 10. Граница  разделения  классов   Возможно,  шумовые  объекты  
  • 11. Несколько  ближайших  соседей   •  Новый  объект  принадлежит  тому  же  классу,   что  и  большинство  из  k  его  соседей   250 200 150 100 50 0 0 50 100 150 200 250 300
  • 12. Граница  разделения  классов  для  k=5   Оказывается,  алгоритм  дает  ошибку  на   обучающей  выборке!  А  это  и  не  плохо.  
  • 13. А  если  объектов  больше?   K=1   K=15  
  • 14. Степень  принадлежности   Полутона  означают,  что  примерно  половина   соседей  одного  класса  и  половина  другого  
  • 16. Двумерные  проекции  трехмерных   данных   z   x   y   z   y   x  
  • 17. Качество  и  параметры   алгоритмов  
  • 18. Как  лучше  выбрать  границу?  
  • 23. Сложность  модели  и  ее  параметры   •  Обычно  если  модель  склонна   переобучаться,  то  у  нее  много  параметров   •  Наоборот,  если  у  модели  мало  параметров,   то  и  вряд  ли  она  переобучается  
  • 24. Строгая  постановка  задачи  классификации   новые   объекты   обучающая   выборка   признаки   класс   признаковое  описание   признаки   ?
  • 26. Разбиение  на  контроль   •  Используем  имеющиеся  данные  из  обучающей   выборки.  Разобъем  обучение  на  две  части.   •  На  одной  мы  будем  обучаться,  а  на  второй   проверять,  сколько  ошибок  выдал  алгоритм     обучающая   выборка   новая   обучающая   выборка   контрольная   выборка   !
  • 27. Качество  обучения  в  зависимости  от  k   %   98   96   94   92   90   88   86   1   3   5   7   9   11   13   15   17   19   21   23   25   27   29   31   33   35   37   39   41   43   45   47   49   k  
  • 28. Как  точнее  узнавать  оптимальное   значение  параметра  k?   •  Видно  что  график  скачет,  почему?   •  Точно  узнать  k  тяжело   •  Можно  проводить  разбиение  на  тест  и   контроль  много  раз,  а  затем  усреднять   результаты  
  • 29. Итак,  что  мы  имеем   •  Сложность:  O(NM),  N  –  количество  объектов   в  обучении,  M  –  количество  новых   объектов,  O(1)  –  подсчет  одного  расстояния   •  Структуры  данных  для  ускорения:  kd-­‐tree,   R-­‐tree,  Ball-­‐tree   •  Есть  один  оптимизируемый  параметр  –   число  соседей  k  (а  всего  параметров   больше,  почему?)   •  Нужно  уметь  считать  расстояние  между   объектами  
  • 30. Про  выбор  расстояния   •  Расстояние  на  плоскости  между  точками                                    и     •  Расстояние  в  многомерном  случае  считается  аналогично   •  Можно  добавить  признакам  веса   •  Можно  считать  вообще  по-­‐другому   •  Можно  делать  отбор  признаков  
  • 31. Выбор  расстояния   Понять  какую  меру  сходства  между   объектами  надо  использовать  –  очень   сложная  задача  
  • 32. Параметры  модели   •  Количество  настраиваемых  параметров  у   алгоритма  бывает  куда  больше   •  Не  всегда  удается  «тупо»  перебрать  все   значения  параметров  у  модели   •  Придумываются  разные  быстрые  методы   нахождения  параметров,  близких  к   оптимальным  (раздел  математики  –   методы  оптимизации)  
  • 33. Цикл  решения  задачи   Выбор  метода   и  параметров   Предобработка   данных   Обучение   Оценка   качества   Окончательный   классификатор  
  • 34. Терминология   •  Распознавание,  предсказание,   прогнозирование   •  Обучающая  выборка,  тренировочный   набор  объектов,  наблюдение   •  Тестовая  выборка,  контрольная  выборка,   валидационная  выборка,  скрытая  выборка   •  Классы,  метки  классов  
  • 36. Болен  ли  пациент?   Неизвестные   пациенты   Известные   пациенты   Описание  пациента     Болен  или  нет?   признаковое  описание   признаки   ?
  • 37. Есть  золото?   Новые   территории   Известные   территории   Описание  территории   Есть  или  нет?   признаковое  описание   признаки   ? Очень  несбалансированные  данные!  
  • 38. Поднимется  или  упадет  цена  акций?   Будущее   История   Цены  акций  в  предыдущие   Цена  в  следующий  момент   моменты  времени   признаковое  описание   признаки   ?
  • 39. Кого  выберут  на  выборах?   Новые   кандид аты   Кандидаты   с  прошлых   выборов   Описание  кандидата   Выбран  или  нет?   признаковое  описание   признаки   ? Нужны  дополнительные  ограничения  на  вид  данных!  
  • 40. Есть  ли  котик  на  изображении?   Неизвестные   фотографии   Размеченные   фотографии   Описание  изображений     Есть  котик  или  нет?   признаковое  описание   признаки   ?
  • 41. Что  такое  изображение?   •  Матрица  пикселей   •  Каждый  пиксель  имеет  свой  цвет  (число)   Число,  кодирующее  цвет  
  • 42. Как  описать  изображение?   Развернуть  матрицу  пикселей  в  одну  строчку   и  использовать  это  как  набор  признаков    
  • 43. Получится  плохо.  Нужны  границы!   Человеческий  мозг  в  основном  анализирует  именно  её  
  • 44. Рекомендательная  система   Известные   Новые   пользователи   пользователи   Понравится  новый   Просмотренные  фильмы   фильм  или  нет?   признаковое  описание   признаки   ? Не  учитывается  большое  количество  взаимосвязей!  
  • 45. Рекомендательная  система   •  Большое  количество  пропусков  в  данных   •  Можно  использовать  категориальные   признаки!  
  • 46. Коллаборативная  фильтрация   Фильм   Неизвестные   оценки   Известные   оценки   Пользователь   Оценка   за  фильм   признаки   ? Категориальные  признаки  могут  принимать  много   неупорядоченных  значений  
  • 47. Ранжирование   Запрос   Релевантность   Неизвестные   оценки   Известные   оценки   Документ   признаки   ?
  • 48. Персональное  ранжирование   User   Релевантность   Неизвестные   оценки   Известные   оценки   Документ   Запрос   признаки   ?
  • 49. Линейная  классификация  и   ее  производные  
  • 50. Пусть  граница  –  прямая   Мало  параметров  
  • 51. Иногда  прямая  плохо  помогает   Мало  параметров  –  вряд  ли  переобучится  
  • 52. Гиперплоскости  в  многомерных   Author пространствах   Today •  В  двумерном  случае  –  прямая   •  В  трехмерном  –  плоскость   •  Дальше  –  гиперплоскость   a1 x1 + a2 x2 + ... + an 1 xn 1 + an xn + a0 = 0 Делит  пространство  на  две  части  
  • 53. Есть  много  способов  провести   прямую   Какая  прямая  лучше?  Нужно  сравнивать  качество!  
  • 54. Возможны  обобщения   на  сложные  границы  
  • 55. Представим  в  виде  схемы   Граница  –  прямая  
  • 56. Аналогично  для  n  входов   Граница  –  n-­‐мерная  гиперплоскость  
  • 57. Можно  как  угодно  соединять   Получится  нейронная  сеть  
  • 58. Глубинная  нейронная  сеть   Стараемся  восстановить  исходные  объекты    
  • 59. Нейронные  сети   l  l  l  l  Могут  подстроиться  под  любые  данные   Любят  переобучаться   На  самом  деле  не  похожи  на  мозг  человека  :)   Имеют  огромное  количество  преимуществ  и   недостатков  
  • 60. Решающие  деревья  и   композиции  над  ними  
  • 61. Экспертные  системы,  составленные   вручную   Решающее  дерево  для  предсказания  эффективности  введения  лекарства  
  • 62. В  чем  проблемы?   •  •  •  •  Правила  составлялись  вручную  экспертами   Мнения  экспертов  расходятся   Эскперты  могут  ошибаться   Эксперт  не  в  состоянии  проанализировать  все   данные  
  • 63. Построим  дерево  автоматически   условие  1   FALSE   TRUE   условие  2   TRUE   FALSE  
  • 64. Какие  условия  будут  в  дереве?   Попробуем  использовать  пороговые  условия  перехода   в  виде  пороговых  правил:  x>c  
  • 65. Начнем  строить  дерево   •  Будем  действовать  жадно   •  Каждый  раз  берем  наиболее  «информативное»   разделение  всей  области   нет  
  • 66. Строим  дерево   Каждый  раз  берем  наиболее  «информативное»   разделение  текущей  области   нет   да   нет   да  
  • 67. Преимущества  деревьев   перед  алгоритмами  на  метриках   •  Придумать  правильную  меру  сходства  –   значит  почти  решить  задачу,  это  сложно.  А   решающие  деревья  не  используют  метрики   •  Единственное  что  используют  деревья  –            А                                              В                                                            С   точка  В  ближе  к  А,  чем  С  по  данному  признаку   •  Устойчивы  к  монотонным  преобразованиям   признаков  
  • 68. Недостатки  решающего  дерева   •  В  реальных  задачах  сильно  переобучаются,   мельчат  вокруг  одной  области  пространства   (содержат  в  себе  много  параметров)   •  Очень  неустойчивы  относительно  данных  
  • 69. Решение:  подрезания  деревьев   •  Если  информативность  условия  меньше   порога,  то  прекращаем  строить  дерево   •  Количество  объектов  в  листе  меньше   некоторого  числа,  то  прекращаем  строить   •  И  т.п.  
  • 70. Будем  возвращать  вещественную   степень  принадлежности  классу   от    -­‐1  до  +1   условие  1   FALSE   TRUE   условие  2   TRUE   FALSE  
  • 71. Композиции  алгоритмов   •  Пусть  есть  какой-­‐то  набор  из  T  алгоритмов:     •  Финальный  алгоритм:  
  • 72. Лес  деревьев   Построим  композицию  из  решающих  деревьев   ДеревоT Дерево1 ……   Как  сделать  деревья  существенно  разными?  
  • 73. Будем  обучаться  на  случайных   подвыборках   объекты   признаки   Случайная   подвыборка   класс  
  • 74. Как  работает  случайный  лес?   Сгенерируем  данные:  
  • 75. Как  работает  случайный  лес?   Реальная  оптимальная   границы   Результат  работы   Random  Forest   (50  деревьев)   Результат  работы   Random  Forest   (2000  деревьев)  
  • 76. Случайный  лес   •  •  •  •  •  •  •  •  Работает  с  признаками  разной  природы   Не  надо  думать  над  метрикой   Устойчив  к  изменениям  признаков   Хорошо  распараллеливается   Тяжело  интерпретируется  человеком   Плохо  приближает  линейные  зависимости   Долго  строится   Не  переобучается  при  увеличении  количества  деревьев     “This  ease  of  use  also  makes  Random  Forests  an  ideal  tool  for  people   without  a  background  in  sta:s:cs,  allowing  lay  people  to  produce   fairly  strong  predic:ons  free  from  many  common  mistakes,  with  only  a   small  amount  of  research  and  programming”.   Kaggle.com  
  • 77. Последовательное  наращивание   композиции  алгоритмов  (бустинг)   •  Строим  композицию  из  слабых  алгоритмов   –  подрезанных  решающих  деревьев   •  Каждое  новое  дерево  компенсирует   ошибки  суммы  предыдущих   •  Получается  очень  сильная  композиция   •  Склонна  к  переобучению,  несмотря  на   многие  обратные  заявления  :)  
  • 78. Качество  при  разном  числе  деревьев      
  • 79. Основная  идея  бустинга   •  Набор  ответов,  предсказанный  после  шага  T   •  Предсказанный  ответ  отличается  от  истинного   на  разность   •  Будем  обучать  следующее  дерево  на  эту   разность  
  • 80. Что  такое  бустинг  на  самом  деле?   •  Рассматривается  не  разность,  а  градиент   ответов,  на  который  настраивается  очередное   дерево   •  Перед  деревьями  ставятся  маленькие   коэффициенты  (порядка  0.02)  во  избежание   переобучения   •  На  каждом  шаге  используется  произвольная   часть  объектов  (стохастичность)   Yandex  MatrixNet  –  стохастический  градиентный   бустинг  над  решающими  деревьями  (а  еще  его   используют  Yahoo,  CERN  и  другие)  
  • 83. Про  терминологию   •  Интеллектуальный  анализ  данных  (Data   Mining)   •  Машинное  обучение  (Machine  Learning,   Sta—s—cal  Learning)   •  Прикладная  статистика  (Applied  Sta—s—cs)   •  Факторный  анализ  (Factor  Analysis)   •  Теория  оптимизации  (Op—miza—on  Theory)   •  Искусственный  Интеллект  (Ar—ffi—al   Intellengence)  
  • 84. Соревнования  по  анализу  данных   •  Сайты   –  Kaggle.com   –  и  другие   •  Кем  проводятся   –  Компаниями   –  Работодателями   –  Университетами  
  • 85. Отличия  от  олимпиадного   программирования   •  Дается  одна  задача,  а  не  несколько   •  Решаются  значительно  дольше  (недели,   месяцы,  годы)   •  Не  существует  точного  и  правильного  решения   •  Идет  борьба  за  сущие  проценты  качества   •  Не  важен  язык,  скорость  работы  и  ресурсы;   важен  только  результат   •  В  одиночку  или  командами  
  • 86. На  чем  пишут  алгоритмы  обучения?   •  Готовые  наборы  методов  машинного  обучения  (для   общего  понимания,  какой  метод  лучше)   –  Weka   –  RapidMiner   –  Orange   •  Интерпретируемые  языки  (для  экспериментов  и   выбора  алгоритма)   –  Matlab  (Octave  –  бесплатная  версия)   –  Python  (+  библиотеки  на  основе  scipy)   –  R   •  Более  низкоуровневые  языки  (для  скорости  работы,   когда  уже  ясно,  какой  алгоритм  будет   использоваться)   –  C   –  C++