машинное обучение и анализ данных

Машинное
обучение
и

анализ
данных

Саша
Фонарев

Малый
ШАД
2013

Сборка
презентации
от
30.11.2013

Контрольные
вопросы

•  Какой
метод
больше
склонен
к

переобучению
–
метод
одного
ближайшего

соседа
или
метод
ста
ближайших
соседей?

Почему?

Что
такое
машинное
обучение?

Автомобиль
или
стул?

Автомобиль
или
стул?

Нужен
жизненный
опыт

(модель
представления
о
мире)

Идея
машинного
обучения

Обучающаяся

программа

Примеры
данных
с

закономерностями

Модель

закономерности

Поиск

закономерностей
в

новых
данных

Метод
ближайшего
соседа

Сначала
решим
простую
задачу

Синий
или
красный
новый
объект?

250

200

150

100

?

50

0

0

50

100

150

200

250

300

Ближайший
сосед

•  Пусть
новый
объект
принадлежит
к
тому
же

классу,
что
и
его
ближайший
сосед

250

200

150

100

50

0

0

50

100

150

200

250

300

Граница
разделения
классов

Возможно,
шумовые
объекты

Несколько
ближайших
соседей

•  Новый
объект
принадлежит
тому
же
классу,

что
и
большинство
из
k
его
соседей

250

200

150

100

50

0

0

50

100

150

200

250

300

Граница
разделения
классов
для
k=5

Оказывается,
алгоритм
дает
ошибку
на

обучающей
выборке!
А
это
и
не
плохо.

А
если
объектов
больше?

K=1

K=15

Степень
принадлежности

Полутона
означают,
что
примерно
половина

соседей
одного
класса
и
половина
другого

Многомерное
пространство

0.8

z

0.6
0.4
0.2
0
1
1

0.5
y

0.5
0 0

x

Двумерные
проекции
трехмерных

данных

z

x

y

z

y

x

Качество
и
параметры

алгоритмов

Как
лучше
выбрать
границу?

Недообученная
(слабая)
модель

Переобученная
модель

Оптимальная
модель

Сложность
модели
и
ее
параметры

•  Обычно
если
модель
склонна

переобучаться,
то
у
нее
много
параметров

•  Наоборот,
если
у
модели
мало
параметров,

то
и
вряд
ли
она
переобучается

Строгая
постановка
задачи
классификации

новые

объекты

обучающая

выборка

признаки

класс

признаковое
описание

признаки

?

Какой
алгоритм
выбрать?

Разбиение
на
контроль

•  Используем
имеющиеся
данные
из
обучающей

выборки.
Разобъем
обучение
на
две
части.

•  На
одной
мы
будем
обучаться,
а
на
второй

проверять,
сколько
ошибок
выдал
алгоритм

обучающая

выборка

новая

обучающая

выборка

контрольная

выборка

!

Качество
обучения
в
зависимости
от
k

%
98

96

94

92

90

88

86

1
3
5
7
9
11
13
15
17
19
21
23
25
27
29
31
33
35
37
39
41
43
45
47
49

k

Как
точнее
узнавать
оптимальное

значение
параметра
k?

•  Видно
что
график
скачет,
почему?

•  Точно
узнать
k
тяжело

•  Можно
проводить
разбиение
на
тест
и

контроль
много
раз,
а
затем
усреднять

результаты

Итак,
что
мы
имеем

•  Сложность:
O(NM),
N
–
количество
объектов

в
обучении,
M
–
новых

объектов,
O(1)
–
подсчет
одного
расстояния

•  Структуры
данных
для
ускорения:
kd-‐tree,

R-‐tree,
Ball-‐tree

•  Есть
один
оптимизируемый
параметр
–

число
соседей
k
(а
всего

больше,
почему?)

•  Нужно
уметь
считать
расстояние
между

объектами

Про
выбор

•  Расстояние
на
плоскости
между
точками

и

•  Расстояние
в
многомерном
случае
считается
аналогично

•  Можно
добавить
признакам
веса

•  Можно
считать
вообще
по-‐другому

•  Можно
делать
отбор
признаков

Выбор

Понять
какую
меру
сходства
между

объектами
надо
использовать
–
очень

сложная
задача

Параметры
модели

•  Количество
настраиваемых
у

алгоритма
бывает
куда
больше

•  Не
всегда
удается
«тупо»
перебрать
все

значения
у
модели

•  Придумываются
разные
быстрые
методы

нахождения
параметров,
близких
к

оптимальным
(раздел
математики
–

методы
оптимизации)

Цикл
решения
задачи

Выбор
метода

и

Предобработка

данных

Обучение

Оценка

качества

Окончательный

классификатор

Терминология

•  Распознавание,
предсказание,

прогнозирование

•  Обучающая
выборка,
тренировочный

набор
объектов,
наблюдение

•  Тестовая
выборка,
контрольная
выборка,

валидационная
выборка,
скрытая
выборка

•  Классы,
метки
классов

Болен
ли
пациент?

Неизвестные

пациенты

Известные

пациенты

Описание
пациента

Болен
или
нет?

описание

признаки

?

Есть
золото?

Новые

территории

Известные


Описание

Есть
или
нет?

описание

признаки

?

Очень
несбалансированные
данные!

Поднимется
или
упадет
цена
акций?

Будущее

История

Цены
акций
в
предыдущие

Цена
в
следующий
момент

моменты
времени

описание

признаки

?

Кого
выберут
на
выборах?

Новые

кандид
аты

Кандидаты

с
прошлых

выборов

Описание
кандидата

Выбран
или
нет?

описание

признаки

?

Нужны
дополнительные
ограничения
на
вид
данных!

Есть
ли
котик
на
изображении?


фотографии

Размеченные

фотографии

Описание
изображений

Есть
котик
или
нет?

описание

признаки

?

Что
такое
изображение?

•  Матрица
пикселей

•  Каждый
пиксель
имеет
свой
цвет
(число)

Число,
кодирующее
цвет

Как
описать
изображение?

Развернуть
матрицу
пикселей
в
одну
строчку

и
это
как
набор
признаков

Получится
плохо.
Нужны
границы!

Человеческий
мозг
в
основном
анализирует
именно
её

Рекомендательная
система

Известные

Новые

пользователи
пользователи

Понравится
новый

Просмотренные
фильмы

фильм
или
нет?

описание

признаки

?

Не
учитывается
большое
взаимосвязей!

Рекомендательная
система

•  Большое
пропусков
в
данных

•  Можно
категориальные

признаки!

Коллаборативная
фильтрация

Фильм


оценки

Известные

оценки

Пользователь

Оценка

за
фильм

признаки

?

Категориальные
признаки
могут
принимать
много

неупорядоченных
значений

Ранжирование

Запрос

Релевантность


оценки

Известные

оценки

Документ

признаки

?

Персональное
ранжирование

User

Релевантность


оценки

Известные

оценки

Документ
Запрос

признаки

?

Линейная
классификация
и

ее
производные

Пусть
граница
–
прямая

Мало

Иногда
прямая
плохо
помогает

Мало
–
вряд
ли
переобучится

Гиперплоскости
в
многомерных

Author
пространствах

Today
•  В
двумерном
случае
–
прямая

•  В
трехмерном
–
плоскость

•  Дальше
–
гиперплоскость

a1 x1 + a2 x2 + ... + an

1 xn 1

+ an xn + a0 = 0

Делит
пространство
на
две
части

Есть
много
способов
провести

прямую

Какая
прямая
лучше?
Нужно
сравнивать
качество!

Возможны
обобщения

на
сложные
границы

Представим
в
виде
схемы

Граница
–
прямая

Аналогично
для
n
входов

Граница
–
n-‐мерная
гиперплоскость

Можно
как
угодно
соединять

Получится
нейронная
сеть

Глубинная
нейронная
сеть

Стараемся
восстановить
исходные
объекты

Нейронные
сети

l 
l 
l 
l 

Могут
подстроиться
под
любые
данные

Любят
переобучаться

На
самом
деле
не
похожи
на
мозг
человека
:)

Имеют
огромное
преимуществ
и

недостатков

Решающие
деревья
и

композиции
над
ними

Экспертные
системы,
составленные

вручную

Решающее
дерево
для
предсказания
эффективности
введения
лекарства

В
чем
проблемы?

• 
• 
• 
• 

Правила
составлялись
вручную
экспертами

Мнения
экспертов
расходятся

Эскперты
могут
ошибаться

Эксперт
не
в
состоянии
проанализировать
все

данные

Построим
дерево
автоматически

условие
1

FALSE

TRUE

условие
2

TRUE

FALSE

Какие
условия
будут
в
дереве?

Попробуем
пороговые
условия
перехода

в
виде
пороговых
правил:
x>c

Начнем
строить
дерево

•  Будем
действовать
жадно

•  Каждый
раз
берем
наиболее
«информативное»

разделение
всей
области

нет

Строим
дерево

Каждый
раз
берем
наиболее
«информативное»

разделение
текущей
области

нет

да

нет

да

Преимущества
деревьев

перед
алгоритмами
на
метриках

•  Придумать
правильную
меру
сходства
–

значит
почти
решить
задачу,
это
сложно.
А

решающие
деревья
не
используют
метрики

•  Единственное
что
деревья
–

А

В

С

точка
В
ближе
к
А,
чем
С
по
данному
признаку

•  Устойчивы
к
монотонным
преобразованиям

признаков

Недостатки
решающего
дерева

•  В
реальных
задачах
сильно
переобучаются,

мельчат
вокруг
одной
области
пространства

(содержат
в
себе
много
параметров)

•  Очень
неустойчивы
относительно
данных

Решение:
подрезания
деревьев

•  Если
информативность
условия
меньше

порога,
то
прекращаем
строить
дерево

•  Количество
объектов
в
листе
меньше

некоторого
числа,
то
прекращаем
строить

•  И
т.п.

Будем
возвращать
вещественную

степень
принадлежности
классу

от

-‐1
до
+1

условие
1

FALSE

TRUE

условие
2

TRUE

FALSE

Композиции

•  Пусть
есть
какой-‐то
набор
из
T
алгоритмов:

•  Финальный
алгоритм:

Лес
деревьев

Построим
композицию
из
решающих
деревьев

ДеревоT

Дерево1

……

Как
сделать
деревья
существенно
разными?

Будем
обучаться
на
случайных

подвыборках

объекты

признаки

Случайная

подвыборка

класс

Как
работает
случайный
лес?

Сгенерируем
данные:

Как
работает
случайный
лес?

Реальная
оптимальная

границы

Результат
работы

Random
Forest

(50
деревьев)

Результат
работы

Random
Forest

(2000
деревьев)

Случайный
лес

• 
• 
• 
• 
• 
• 
• 
• 

Работает
с
признаками
разной
природы

Не
надо
думать
над
метрикой

Устойчив
к
изменениям
признаков

Хорошо
распараллеливается

Тяжело
интерпретируется
человеком

Плохо
приближает
линейные
зависимости

Долго
строится

Не
переобучается
при
увеличении
количества
деревьев

“This
ease
of
use
also
makes
Random
Forests
an
ideal
tool
for
people

without
a
background
in
sta:s:cs,
allowing
lay
people
to
produce

fairly
strong
predic:ons
free
from
many
common
mistakes,
with
only
a

small
amount
of
research
and
programming”.

Kaggle.com

Последовательное
наращивание

композиции
(бустинг)

•  Строим
композицию
из
слабых

–
подрезанных
решающих
деревьев

•  Каждое
новое
дерево
компенсирует

ошибки
суммы
предыдущих

•  Получается
очень
сильная
композиция

•  Склонна
к
переобучению,
несмотря
на

многие
обратные
заявления
:)

Качество
при
разном
числе
деревьев

Основная
идея
бустинга

•  Набор
ответов,
предсказанный
после
шага
T

•  Предсказанный
ответ
отличается
от
истинного

на
разность

•  Будем
обучать
следующее
дерево
на
эту

разность

Что
такое
бустинг
на
самом
деле?

•  Рассматривается
не
разность,
а
градиент

ответов,
на
который
настраивается
очередное

дерево

•  Перед
деревьями
ставятся
маленькие

коэффициенты
(порядка
0.02)
во
избежание

переобучения

•  На
каждом
шаге
используется
произвольная

часть
объектов
(стохастичность)

Yandex
MatrixNet
–
стохастический
градиентный

бустинг
над
решающими
деревьями
(а
еще
его

Yahoo,
CERN
и
другие)

Алгоритм
Виолы-‐Джонса

Про
терминологию

•  Интеллектуальный
анализ
данных
(Data

Mining)

•  Машинное
обучение
(Machine
Learning,

Sta—s—cal
Learning)

•  Прикладная
статистика
(Applied
Sta—s—cs)

•  Факторный
анализ
(Factor
Analysis)

•  Теория
оптимизации
(Op—miza—on
Theory)

•  Искусственный
Интеллект
(Ar—ﬃ—al

Intellengence)

Соревнования
по
анализу
данных

•  Сайты

–  Kaggle.com

–  и
другие

•  Кем
проводятся

–  Компаниями

–  Работодателями

–  Университетами

Отличия
от
олимпиадного

программирования

•  Дается
одна
задача,
а
не
несколько

•  Решаются
значительно
дольше
(недели,

месяцы,
годы)

•  Не
существует
точного
и
правильного
решения

•  Идет
борьба
за
сущие
проценты
качества

•  Не
важен
язык,
скорость
работы
и
ресурсы;

важен
только
результат

•  В
одиночку
или
командами

На
чем
пишут
алгоритмы
обучения?

•  Готовые
наборы
методов
машинного
обучения
(для

общего
понимания,
какой
метод
лучше)

–  Weka

–  RapidMiner

–  Orange

•  Интерпретируемые
языки
(для
экспериментов
и

выбора
алгоритма)

–  Matlab
(Octave
–
бесплатная
версия)

–  Python
(+
библиотеки
на
основе
scipy)

–  R

•  Более
низкоуровневые
языки
(для
скорости
работы,

когда
уже
ясно,
какой
алгоритм
будет

использоваться)

–  C

–  C++

машинное обучение и анализ данных

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à машинное обучение и анализ данных

Similaire à машинное обучение и анализ данных (20)

Plus de Yandex

Plus de Yandex (20)

машинное обучение и анализ данных