Мезенцев Павел - Машинное обучение на MapReduce

Павел Мезенцев
p.mezentsev@rambler-co.ru

Apache Mahout

Как работает
машинное обучение
на MapReduce

Что такое
машинное обучение?

Алгоритмы искуственного интеллекта,
способные обучаться [Wikipedia]

Существующие пакеты
машинного обучения

●
Matlab
●
Octave
●
R
●
Weka
●
….......

Проблема
больших данных

Что делать если объем обрабатываемых
данных исчисляется терабайтами?

Apache Mahout

●
появился в 2008 году
●
300 тыс. строк кода
●
означает “погонщик слона”
●
правильно произносить “махут”
●
вышла книга “Mahout in Action”

Реализованные
алгоритмы
Классификация Кластеризация
●
Логистическая регрессия ●
К-средних

●
Байесовские классификаторы
●
Нечеткий алгоритм K-средних

Минимизация ожидания
Случайный лес
●
●

●
Minhash кластеризация
●
Скрытые марковские цепи
….............

А также
●
Коллаборативная фильтрация
●
Генетические алгоритмы
●
Алгоритмы уменьшения размерностей

Машинное обучение
на MapReduce

●
статья “MapReduce for Machine Learning on
Multicore” (2008)

●
Алгоритм должен быть представим в
аддитивной форме по входным данным

Наивный Байес

()
(1)
x
Признаки x
⃗ = ... Класс y = {0, 1}
(n)
x

Формула Байеса:
(1) (n)
(1) (n) P( x ,.... , x ∣ y)
P( y∣x ,.... , x )=P ( y) (1) (n)
P(x ,.... , x )

Наивное предположение:

∣x (1) ,.... , x (n))=P ( y)
∏i P(x (i)∣ y )
P( y
С

на MapReduce 1
●
Выражение ν( y) ∑ j 1( y j = y)
P( y)= =
ν(all) ∑j 1

●
Map: выдаем ( y j , Σ s ub ) (total , Σ s ub )

( y j , Σ) (total , Σ)
●
Reduce: выдаем

на MapReduce 2
(i)
Выражение (i) ν( x , y)
●
P( x ∣ y)=
ν( y )

● Map: выдаем i
((x , y j ); Σ s ub )

● Reduce: выдаем ((x i , y j ); Σ)

Кластеризация K средних

Реализация на MapReduce
Отнесение объектов к кластерам
Map: выдаем ( x , y nearest )

Поиск новых центров кластеров
( y j ,(Σs ub x , N ))
Map: выдаем
( y j , x)
Reduce: выдаем

Логистическая регрессия

T
w ⋅x=0

Вероятность
принадлежности к классу
1
P w ( x)=
1+exp(−w⋅x)

Максимум
правдоподобия
yi 1− y i
Lw ( x)= ∏i P w ( x i ) (1−P w ( x i ))

n
l(w)=∑i=1 y i log p ( x i )+(1− y i )log(1− p ( x i ))

w=argmax w l(w )

Метод
Ньютона-Рафсона
В скалярном виде: В векторном виде

l ' (w) −1
w=w− w=w−H ∇ w l(w)
l ' ' (w)
2 2

( ) ( )
∂ l(w) ∂ l(w) ∂ l(w)
...
∂ w1 ∂ w1 ∂ w1 ∂ w1 ∂ wn
∇ w l(w )= ... H= ... ... ...
∂ l(w) 2
∂ l(w)
2
∂ l(w)
...
∂ wn ∂ w n ∂ w1 ∂ wn ∂ wn

MapReduce
для Градиента
Выражение ∂ l(w ) m
=∑i=1 ( y i − p w (x i )) x i
● (k)
∂ wk

grad s ub [k ]=∑i ( y− pw ( x i )) x
(k i )
●
Map: вычисляем
выдаем
(k , grad s ub [k ])

●
Reduce: вычисляем grad [k ]=∑ grad s ub [k ]
выдаем (k , grad [k ])

MapReduce для
Гамильтониана
2
∂ l(w) m
=∑i=1 p w (x i )( p w ( x i )−1) x i x i
( j) (k)
●
Выражение
∂ wk ∂ w j

●
Map: вычисляем
H s ub [k , j]=∑s ub ....
выдаем ((k , j); H s ub [k , j])

●
Reduce: вычисляем
H [k , j]=H s ub [k , j]
выдаем ((k , j); H [k , j])

Асимптотика
Алгоритм Классическая Сложность MapReduce
сложность
mn
Наивный Байес O(mn+nc) O( +nc log P)
P
mnc
O(mnc) O( +mn log P)
K-средних P
2
O(mn +n ) 3 m 2 n n3 2
O( + +n log P)
Логистическая P P
регрессия

n – размерность пространства признаков
m – число обучающих примеров
P – число ядер, на которых делается обучение

Особенности
алгоритмов в Mahout

●
в Наивном Байесе добавлен “отбор фич”

●
В Логистической регрессии используется
алгоритм “стохастического градиентного
спуска”

Запуск Наивного Байеса
в Mahout

Обучение
> mahout trainclassifier -i data -o model

Тестирование
> mahout testclassifier -m model -d data

Запуск k средних

mahout kmeans -i data
-c clusters
-o output
-k clusters_num

Запуск Логистической
регрессии

mahout trainlogistic -h

mahout runlogistic -h

Наш опыт
использования Mahout
●
Для классификации посетителей по полу и
возрасту
●
Использовались логи наших проектов за
последние 30 дней
●
Обучающая выборка – 1 млн. Человек.
Классифицируем 300 млн.
●
Время обучения и классификации порядка 3х
часов

Вопросы

Павел Мезенцев p.mezentsev@rambler-co.ru

Мезенцев Павел - Машинное обучение на MapReduce

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Мезенцев Павел - Машинное обучение на MapReduce

Similaire à Мезенцев Павел - Машинное обучение на MapReduce (20)

Plus de Pavel Mezentsev

Plus de Pavel Mezentsev (6)

Мезенцев Павел - Машинное обучение на MapReduce