SlideShare une entreprise Scribd logo
1  sur  17
Télécharger pour lire hors ligne
retailrocket 
На 
пути 
к 
Apache 
Spark 
Роман 
Зыков 
Со-­‐основатель 
и 
директор 
по 
аналитике 
12 
ноября 
2014, 
Москва 
Платформа 
для 
мультиканальной 
персонализации 
интернет-­‐магазина 
на 
основе 
big 
data
Как 
работает 
Retail 
Rocket 
Платформа 
для 
мультиканальной 
персонализации 
интернет-­‐магазина 
на 
основе 
big 
data
Мы 
используем 
сложную 
big 
data 
модель 
для 
формирования 
товарных 
рекомендаций 
1. 
Наш 
сервис 
собирает 
всю 
информацию 
о 
пользователях 
и 
их 
поведении 
на 
сайте 
магазина. 
2. 
Мощный 
аналитический 
аппарат 
превращает 
огромное 
количество 
данных 
в 
рекомендации. 
3. 
Персональные 
рекомендации 
через 
виджеты 
или 
серверный 
API 
размещаются 
на 
сайте 
магазина, 
в 
персональных 
email-­‐сообщениях, 
в 
CRM 
у 
операторов 
колл-­‐центра 
и 
в 
любых 
других 
каналах 
коммуникации. 
Система 
постоянно 
самообучается 
и 
увеличивает 
эффективность. 
1 
2 
3
Что 
дает 
Retail 
Rocket 
Платформа 
для 
мультиканальной 
персонализации 
интернет-­‐магазина 
на 
основе 
big 
data
Что 
дает 
Retail 
Rocket? 
+ 
Персонализация 
сайта 
– 
Более 
10 
сценариев, 
разработанных 
создателями 
рекомендательных 
систем 
Ozon.ru 
и 
Wikimart.ru 
– 
Рост 
продаж 
от 
10% 
до 
50% 
(по 
результатам 
независимых 
А/Б 
тестов) 
– 
Месяц 
на 
бесплатное 
тестирование 
+ 
Персонализация 
email 
– 
Полностью 
автоматизированные 
рассылки 
без 
затрат 
на 
персонал 
– 
Средняя 
конверсия 
из 
переходов 
в 
заказы 
– 
>10% 
(!) 
– 
Оплата 
только 
за 
результат 
(CPO 
или 
Revenue 
Share)
* 
Согласно 
независимому 
исследованию 
InSales 
от 
30.10.2014 
Платформа 
для 
мультиканальной 
персонализации 
интернет-­‐магазина 
на 
основе 
big 
data
Архитектура 
Retail 
Rocket 
Платформа 
для 
мультиканальной 
персонализации 
интернет-­‐магазина 
на 
основе 
big 
data
• CDH 
5.1.2 
• Spark 
1.1 
• High 
Availability: 
2 
Namenodes, 
3 
Journalnodes 
• 18 
Datanodes 
• 100 
Tb 
несжатых 
данных 
• 100 
млн 
новых 
событий 
в 
сутки
Проблемы!!! 
• Зоопарк 
языков 
программирования 
• Сложность 
реализации 
итеративных 
алгоритмов 
• Инвестиции 
в 
железо
Apache 
Spark 
Платформа 
для 
мультиканальной 
персонализации 
интернет-­‐магазина 
на 
основе 
big 
data
Решение 
• Один 
язык 
программирования 
-­‐ 
Scala 
• Расчеты 
в 
памяти 
– 
поддержка 
итеративных 
алгоритмов 
• Производительность 
(в 
3-­‐5 
раз) 
• Лучше 
использует 
память 
• Spark 
SQL 
вместо 
Hive 
• Spark 
Streaming 
• Parquet
Переезд 
хуже 
пожара 
– 
нужен 
Yarn 
Old 
cluster 
Name 
nodes 
Journal 
nodes 
New 
cluster 
Name 
nodes 
Journal 
nodes 
Puppet 
CDH 
4.5 
CDH 
5.1 
Yarn 
hzps://github.com/RetailRocket/puppet-­‐cdh5
Spark 
Scala 
• Проблема 
«мелких» 
файлов 
• Капризен 
к 
опциям 
параллелизации 
(reduce) 
• Нет 
удобного 
notebook 
• Лучше 
писать 
свои 
сериализаторы 
на 
базе 
Kryo
Проблема 
мелких 
файлов 
• По-­‐умолчанию 
Hadoop: 
1 
маппер 
на 
файл 
• org.apache.hadoop.hive.ql.io.CombineHiveInputFormat 
• Pig: 
• pig.splitCombinaƒon 
= 
true 
• pig.maxCombinedSplitSize 
• Hive: 
• hive.input.format 
= 
org.apache.hadoop.hive.ql.io.CombineHiveInputFormat 
• hive.hadoop.supports.splizable.combineinpuˆormat=true 
• Spark/Scala 
• hzps://github.com/RetailRocket/SparkMulƒTool 
Retail 
Rocket: 
100000 
файлов 
-­‐ 
100000(ДО), 
3000(после) 
Скорость 
чтения 
выросла 
в 
«три» 
раза
Ссылки 
• Книга 
Learning 
on 
Spark 
(hzp://shop.oreilly.com/product/0636920028512.do) 
• Курс 
Coursera 
курс 
по 
Scala 
(hzps://www.coursera.org/course/progfun) 
• Видео 
Spark 
Summit 
2014 
(hzp://spark-­‐summit.org/2014) 
• Spark 
should 
be 
bezer 
than 
MapReduce 
(if 
only 
it 
worked) 
• Retail 
Rocket 
Public 
GitHub 
(hzps://github.com/RetailRocket)
Вопросы? 
rzykov@retailrocket.ru

Contenu connexe

Tendances

Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"Alexey Zinoviev
 
Брокер сообщений Kafka в условиях повышенной нагрузки / Артём Выборнов (Rambl...
Брокер сообщений Kafka в условиях повышенной нагрузки / Артём Выборнов (Rambl...Брокер сообщений Kafka в условиях повышенной нагрузки / Артём Выборнов (Rambl...
Брокер сообщений Kafka в условиях повышенной нагрузки / Артём Выборнов (Rambl...Ontico
 
на пути к 100% аптайму - доклад с HighLoad 2015 совместно с Станиславом Осип...
на пути к 100% аптайму - доклад с HighLoad 2015 совместно с Станиславом Осип...на пути к 100% аптайму - доклад с HighLoad 2015 совместно с Станиславом Осип...
на пути к 100% аптайму - доклад с HighLoad 2015 совместно с Станиславом Осип...Игорь Мызгин
 
HappyDev'15 Keynote: Когда все данные станут большими...
HappyDev'15 Keynote: Когда все данные станут большими...HappyDev'15 Keynote: Когда все данные станут большими...
HappyDev'15 Keynote: Когда все данные станут большими...Alexey Zinoviev
 
NoSQL - взрыв возможностей
NoSQL - взрыв возможностейNoSQL - взрыв возможностей
NoSQL - взрыв возможностейAleksey Solntsev
 
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"Technopark
 
Мастер-класс по BigData Tools для HappyDev'15
Мастер-класс по BigData Tools для HappyDev'15Мастер-класс по BigData Tools для HappyDev'15
Мастер-класс по BigData Tools для HappyDev'15Alexey Zinoviev
 
Дмитрий Дегтярев, "Хабикаса"
Дмитрий Дегтярев, "Хабикаса"Дмитрий Дегтярев, "Хабикаса"
Дмитрий Дегтярев, "Хабикаса"Ontico
 
ClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
ClickHouse как решение для бизнес аналитики. Дмитрий КузьминClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
ClickHouse как решение для бизнес аналитики. Дмитрий КузьминHOWWEDOIT
 
Машинное обучение в электронной коммерции — практика использования и подводны...
Машинное обучение в электронной коммерции — практика использования и подводны...Машинное обучение в электронной коммерции — практика использования и подводны...
Машинное обучение в электронной коммерции — практика использования и подводны...Ontico
 
Не все базы данных одинаково полезны
Не все базы данных одинаково полезныНе все базы данных одинаково полезны
Не все базы данных одинаково полезныSergey Xek
 
Максим Барышников, Что такое типовые проблемы нагруженных проектов и как их р...
Максим Барышников, Что такое типовые проблемы нагруженных проектов и как их р...Максим Барышников, Что такое типовые проблемы нагруженных проектов и как их р...
Максим Барышников, Что такое типовые проблемы нагруженных проектов и как их р...Tanya Denisyuk
 
Доклад Сергея Аверина на DevConf 2013. "Распространенные ошибки применения ба...
Доклад Сергея Аверина на DevConf 2013. "Распространенные ошибки применения ба...Доклад Сергея Аверина на DevConf 2013. "Распространенные ошибки применения ба...
Доклад Сергея Аверина на DevConf 2013. "Распространенные ошибки применения ба...Badoo Development
 
Выступление Сергея Аверина, Badoo, на High Performance Conference
Выступление Сергея Аверина, Badoo, на High Performance ConferenceВыступление Сергея Аверина, Badoo, на High Performance Conference
Выступление Сергея Аверина, Badoo, на High Performance ConferenceEYevseyeva
 
BigПочта: как мы строили DataLake в Почте России / Алексей Вовченко (Luxoft)
BigПочта: как мы строили DataLake в Почте России / Алексей Вовченко (Luxoft)BigПочта: как мы строили DataLake в Почте России / Алексей Вовченко (Luxoft)
BigПочта: как мы строили DataLake в Почте России / Алексей Вовченко (Luxoft)Ontico
 
Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)
Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)
Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)Ontico
 
High load++2016.highlights (dropbox+clickhouse)
High load++2016.highlights (dropbox+clickhouse)High load++2016.highlights (dropbox+clickhouse)
High load++2016.highlights (dropbox+clickhouse)Pavel Alexeev
 

Tendances (20)

Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
 
Брокер сообщений Kafka в условиях повышенной нагрузки / Артём Выборнов (Rambl...
Брокер сообщений Kafka в условиях повышенной нагрузки / Артём Выборнов (Rambl...Брокер сообщений Kafka в условиях повышенной нагрузки / Артём Выборнов (Rambl...
Брокер сообщений Kafka в условиях повышенной нагрузки / Артём Выборнов (Rambl...
 
на пути к 100% аптайму - доклад с HighLoad 2015 совместно с Станиславом Осип...
на пути к 100% аптайму - доклад с HighLoad 2015 совместно с Станиславом Осип...на пути к 100% аптайму - доклад с HighLoad 2015 совместно с Станиславом Осип...
на пути к 100% аптайму - доклад с HighLoad 2015 совместно с Станиславом Осип...
 
No sql.mongodb scaling
No sql.mongodb scalingNo sql.mongodb scaling
No sql.mongodb scaling
 
HappyDev'15 Keynote: Когда все данные станут большими...
HappyDev'15 Keynote: Когда все данные станут большими...HappyDev'15 Keynote: Когда все данные станут большими...
HappyDev'15 Keynote: Когда все данные станут большими...
 
NoSQL - взрыв возможностей
NoSQL - взрыв возможностейNoSQL - взрыв возможностей
NoSQL - взрыв возможностей
 
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
СУБД 2013 Лекция №10 "Нереляционное решение в области баз данных — NoSQL"
 
Мастер-класс по BigData Tools для HappyDev'15
Мастер-класс по BigData Tools для HappyDev'15Мастер-класс по BigData Tools для HappyDev'15
Мастер-класс по BigData Tools для HappyDev'15
 
Дмитрий Дегтярев, "Хабикаса"
Дмитрий Дегтярев, "Хабикаса"Дмитрий Дегтярев, "Хабикаса"
Дмитрий Дегтярев, "Хабикаса"
 
ClickHouse
ClickHouseClickHouse
ClickHouse
 
ClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
ClickHouse как решение для бизнес аналитики. Дмитрий КузьминClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
ClickHouse как решение для бизнес аналитики. Дмитрий Кузьмин
 
Машинное обучение в электронной коммерции — практика использования и подводны...
Машинное обучение в электронной коммерции — практика использования и подводны...Машинное обучение в электронной коммерции — практика использования и подводны...
Машинное обучение в электронной коммерции — практика использования и подводны...
 
Не все базы данных одинаково полезны
Не все базы данных одинаково полезныНе все базы данных одинаково полезны
Не все базы данных одинаково полезны
 
Максим Барышников, Что такое типовые проблемы нагруженных проектов и как их р...
Максим Барышников, Что такое типовые проблемы нагруженных проектов и как их р...Максим Барышников, Что такое типовые проблемы нагруженных проектов и как их р...
Максим Барышников, Что такое типовые проблемы нагруженных проектов и как их р...
 
Доклад Сергея Аверина на DevConf 2013. "Распространенные ошибки применения ба...
Доклад Сергея Аверина на DevConf 2013. "Распространенные ошибки применения ба...Доклад Сергея Аверина на DevConf 2013. "Распространенные ошибки применения ба...
Доклад Сергея Аверина на DevConf 2013. "Распространенные ошибки применения ба...
 
Выступление Сергея Аверина, Badoo, на High Performance Conference
Выступление Сергея Аверина, Badoo, на High Performance ConferenceВыступление Сергея Аверина, Badoo, на High Performance Conference
Выступление Сергея Аверина, Badoo, на High Performance Conference
 
BigПочта: как мы строили DataLake в Почте России / Алексей Вовченко (Luxoft)
BigПочта: как мы строили DataLake в Почте России / Алексей Вовченко (Luxoft)BigПочта: как мы строили DataLake в Почте России / Алексей Вовченко (Luxoft)
BigПочта: как мы строили DataLake в Почте России / Алексей Вовченко (Luxoft)
 
Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)
Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)
Переезжаем на Yandex ClickHouse / Александр Зайцев (LifeStreet)
 
High load++2016.highlights (dropbox+clickhouse)
High load++2016.highlights (dropbox+clickhouse)High load++2016.highlights (dropbox+clickhouse)
High load++2016.highlights (dropbox+clickhouse)
 
Анализируем данные с Clickhouse
Анализируем данные с  ClickhouseАнализируем данные с  Clickhouse
Анализируем данные с Clickhouse
 

En vedette

Опыт использования Spark, Основано на реальных событиях
Опыт использования Spark, Основано на реальных событияхОпыт использования Spark, Основано на реальных событиях
Опыт использования Spark, Основано на реальных событияхVasil Remeniuk
 
How to eliminate ideas as soon as possible
How to eliminate ideas as soon as possibleHow to eliminate ideas as soon as possible
How to eliminate ideas as soon as possibleRoman Zykov
 
4 правила успешного интернет-магазина, Павел Шпидонов, СПСР-Экспресс
4 правила успешного интернет-магазина, Павел Шпидонов, СПСР-Экспресс4 правила успешного интернет-магазина, Павел Шпидонов, СПСР-Экспресс
4 правила успешного интернет-магазина, Павел Шпидонов, СПСР-ЭкспрессМедиамарка
 
Рябинков Артем, 1С-Битрикс (Москва) Руководитель отдела развития бизнеса: "Ин...
Рябинков Артем, 1С-Битрикс (Москва) Руководитель отдела развития бизнеса: "Ин...Рябинков Артем, 1С-Битрикс (Москва) Руководитель отдела развития бизнеса: "Ин...
Рябинков Артем, 1С-Битрикс (Москва) Руководитель отдела развития бизнеса: "Ин...web2win
 
Интернет-магазин: интеграция с учетными системами. Евгений Тарасов. 3 секция
Интернет-магазин: интеграция с учетными системами. Евгений Тарасов. 3 секцияИнтернет-магазин: интеграция с учетными системами. Евгений Тарасов. 3 секция
Интернет-магазин: интеграция с учетными системами. Евгений Тарасов. 3 секцияBaikal_Internet_Forum
 
Owox бизнес процессы в интернет магазине
Owox бизнес процессы в интернет магазинеOwox бизнес процессы в интернет магазине
Owox бизнес процессы в интернет магазинеOWOX
 
Vesko_Внедрение CRM в Маркетинг-Консультант
Vesko_Внедрение CRM в Маркетинг-КонсультантVesko_Внедрение CRM в Маркетинг-Консультант
Vesko_Внедрение CRM в Маркетинг-КонсультантДмитрий Шехматов
 
«Этапы разработки интернет-магазина: с чего начать свой бизнес онлайн?» Ришат...
«Этапы разработки интернет-магазина: с чего начать свой бизнес онлайн?» Ришат...«Этапы разработки интернет-магазина: с чего начать свой бизнес онлайн?» Ришат...
«Этапы разработки интернет-магазина: с чего начать свой бизнес онлайн?» Ришат...Рим Забаров
 
Интернет-магазин на javascript
Интернет-магазин на javascriptИнтернет-магазин на javascript
Интернет-магазин на javascriptNickolay Chernobaev
 
Бизнес-процессы и организация доставки
Бизнес-процессы и организация доставкиБизнес-процессы и организация доставки
Бизнес-процессы и организация доставкиSvetlana Gulyaeva
 
«Планирование, разработка, продвижение и эксплуатация Интернет-магазина. Прак...
«Планирование, разработка, продвижение и эксплуатация Интернет-магазина. Прак...«Планирование, разработка, продвижение и эксплуатация Интернет-магазина. Прак...
«Планирование, разработка, продвижение и эксплуатация Интернет-магазина. Прак...sp66
 
Роман Радионов - Мобильная версия интернет-магазина: как избежать типичных ош...
Роман Радионов - Мобильная версия интернет-магазина: как избежать типичных ош...Роман Радионов - Мобильная версия интернет-магазина: как избежать типичных ош...
Роман Радионов - Мобильная версия интернет-магазина: как избежать типичных ош...Yandex
 
03 in sales_sokolov_eretailforum2014
03 in sales_sokolov_eretailforum201403 in sales_sokolov_eretailforum2014
03 in sales_sokolov_eretailforum2014InSales
 
«1С-Битрикс: Управление сайтом 16.0»
«1С-Битрикс: Управление сайтом 16.0»«1С-Битрикс: Управление сайтом 16.0»
«1С-Битрикс: Управление сайтом 16.0»Наталья Сергеева
 
Методология создания интернет-магазина
Методология создания интернет-магазинаМетодология создания интернет-магазина
Методология создания интернет-магазинаАгентство AlterEGO
 
За витриной. бэк офис интернет-магазина
За витриной. бэк офис интернет-магазинаЗа витриной. бэк офис интернет-магазина
За витриной. бэк офис интернет-магазинаMoySklad
 
Схема бизнес-процессов верхнего уровня интернет-магазина
Схема бизнес-процессов верхнего уровня интернет-магазинаСхема бизнес-процессов верхнего уровня интернет-магазина
Схема бизнес-процессов верхнего уровня интернет-магазинаValerii Kosenko
 
Проектирование интернет-магазина с высокой конверсией
Проектирование интернет-магазина с высокой конверсиейПроектирование интернет-магазина с высокой конверсией
Проектирование интернет-магазина с высокой конверсиейAstra Media Group, Russia
 
Разработка интернет-магазина с 1С Битрикс
Разработка интернет-магазина с 1С БитриксРазработка интернет-магазина с 1С Битрикс
Разработка интернет-магазина с 1С БитриксMax Baas
 
Apache® Spark™ MLlib: From Quick Start to Scikit-Learn
Apache® Spark™ MLlib: From Quick Start to Scikit-LearnApache® Spark™ MLlib: From Quick Start to Scikit-Learn
Apache® Spark™ MLlib: From Quick Start to Scikit-LearnDatabricks
 

En vedette (20)

Опыт использования Spark, Основано на реальных событиях
Опыт использования Spark, Основано на реальных событияхОпыт использования Spark, Основано на реальных событиях
Опыт использования Spark, Основано на реальных событиях
 
How to eliminate ideas as soon as possible
How to eliminate ideas as soon as possibleHow to eliminate ideas as soon as possible
How to eliminate ideas as soon as possible
 
4 правила успешного интернет-магазина, Павел Шпидонов, СПСР-Экспресс
4 правила успешного интернет-магазина, Павел Шпидонов, СПСР-Экспресс4 правила успешного интернет-магазина, Павел Шпидонов, СПСР-Экспресс
4 правила успешного интернет-магазина, Павел Шпидонов, СПСР-Экспресс
 
Рябинков Артем, 1С-Битрикс (Москва) Руководитель отдела развития бизнеса: "Ин...
Рябинков Артем, 1С-Битрикс (Москва) Руководитель отдела развития бизнеса: "Ин...Рябинков Артем, 1С-Битрикс (Москва) Руководитель отдела развития бизнеса: "Ин...
Рябинков Артем, 1С-Битрикс (Москва) Руководитель отдела развития бизнеса: "Ин...
 
Интернет-магазин: интеграция с учетными системами. Евгений Тарасов. 3 секция
Интернет-магазин: интеграция с учетными системами. Евгений Тарасов. 3 секцияИнтернет-магазин: интеграция с учетными системами. Евгений Тарасов. 3 секция
Интернет-магазин: интеграция с учетными системами. Евгений Тарасов. 3 секция
 
Owox бизнес процессы в интернет магазине
Owox бизнес процессы в интернет магазинеOwox бизнес процессы в интернет магазине
Owox бизнес процессы в интернет магазине
 
Vesko_Внедрение CRM в Маркетинг-Консультант
Vesko_Внедрение CRM в Маркетинг-КонсультантVesko_Внедрение CRM в Маркетинг-Консультант
Vesko_Внедрение CRM в Маркетинг-Консультант
 
«Этапы разработки интернет-магазина: с чего начать свой бизнес онлайн?» Ришат...
«Этапы разработки интернет-магазина: с чего начать свой бизнес онлайн?» Ришат...«Этапы разработки интернет-магазина: с чего начать свой бизнес онлайн?» Ришат...
«Этапы разработки интернет-магазина: с чего начать свой бизнес онлайн?» Ришат...
 
Интернет-магазин на javascript
Интернет-магазин на javascriptИнтернет-магазин на javascript
Интернет-магазин на javascript
 
Бизнес-процессы и организация доставки
Бизнес-процессы и организация доставкиБизнес-процессы и организация доставки
Бизнес-процессы и организация доставки
 
«Планирование, разработка, продвижение и эксплуатация Интернет-магазина. Прак...
«Планирование, разработка, продвижение и эксплуатация Интернет-магазина. Прак...«Планирование, разработка, продвижение и эксплуатация Интернет-магазина. Прак...
«Планирование, разработка, продвижение и эксплуатация Интернет-магазина. Прак...
 
Роман Радионов - Мобильная версия интернет-магазина: как избежать типичных ош...
Роман Радионов - Мобильная версия интернет-магазина: как избежать типичных ош...Роман Радионов - Мобильная версия интернет-магазина: как избежать типичных ош...
Роман Радионов - Мобильная версия интернет-магазина: как избежать типичных ош...
 
03 in sales_sokolov_eretailforum2014
03 in sales_sokolov_eretailforum201403 in sales_sokolov_eretailforum2014
03 in sales_sokolov_eretailforum2014
 
«1С-Битрикс: Управление сайтом 16.0»
«1С-Битрикс: Управление сайтом 16.0»«1С-Битрикс: Управление сайтом 16.0»
«1С-Битрикс: Управление сайтом 16.0»
 
Методология создания интернет-магазина
Методология создания интернет-магазинаМетодология создания интернет-магазина
Методология создания интернет-магазина
 
За витриной. бэк офис интернет-магазина
За витриной. бэк офис интернет-магазинаЗа витриной. бэк офис интернет-магазина
За витриной. бэк офис интернет-магазина
 
Схема бизнес-процессов верхнего уровня интернет-магазина
Схема бизнес-процессов верхнего уровня интернет-магазинаСхема бизнес-процессов верхнего уровня интернет-магазина
Схема бизнес-процессов верхнего уровня интернет-магазина
 
Проектирование интернет-магазина с высокой конверсией
Проектирование интернет-магазина с высокой конверсиейПроектирование интернет-магазина с высокой конверсией
Проектирование интернет-магазина с высокой конверсией
 
Разработка интернет-магазина с 1С Битрикс
Разработка интернет-магазина с 1С БитриксРазработка интернет-магазина с 1С Битрикс
Разработка интернет-магазина с 1С Битрикс
 
Apache® Spark™ MLlib: From Quick Start to Scikit-Learn
Apache® Spark™ MLlib: From Quick Start to Scikit-LearnApache® Spark™ MLlib: From Quick Start to Scikit-Learn
Apache® Spark™ MLlib: From Quick Start to Scikit-Learn
 

Similaire à Электронная коммерция: от Hadoop к Spark Scala

Машинное обучение в электронной коммерции - практика использования и подводны...
Машинное обучение в электронной коммерции - практика использования и подводны...Машинное обучение в электронной коммерции - практика использования и подводны...
Машинное обучение в электронной коммерции - практика использования и подводны...Ontico
 
Семантическое ядро рунета
Семантическое ядро рунетаСемантическое ядро рунета
Семантическое ядро рунетаCEE-SEC(R)
 
доклад на вмк 15.10.2015
доклад на вмк 15.10.2015доклад на вмк 15.10.2015
доклад на вмк 15.10.2015Alexandr Petrov
 
AVITO. Решаем проблемы по мере их поступления. Стачка 2013
AVITO. Решаем проблемы по мере их поступления. Стачка 2013AVITO. Решаем проблемы по мере их поступления. Стачка 2013
AVITO. Решаем проблемы по мере их поступления. Стачка 2013Roman Pavlushko
 
Семантическое ядро рунета - высоконагруженная сontent-based рекомендательная ...
Семантическое ядро рунета - высоконагруженная сontent-based рекомендательная ...Семантическое ядро рунета - высоконагруженная сontent-based рекомендательная ...
Семантическое ядро рунета - высоконагруженная сontent-based рекомендательная ...Ontico
 
Модернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиМодернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиElizaveta Alekseeva
 
Мониторинг веб-проектов: штаб оперативного реагирования и аналитический центр
Мониторинг веб-проектов: штаб оперативного реагирования и аналитический центрМониторинг веб-проектов: штаб оперативного реагирования и аналитический центр
Мониторинг веб-проектов: штаб оперативного реагирования и аналитический центрsportgid
 
Презентация аналитической системы для ритейла СуперМаг BI
Презентация аналитической системы для ритейла СуперМаг BIПрезентация аналитической системы для ритейла СуперМаг BI
Презентация аналитической системы для ритейла СуперМаг BIОникс Софт
 
Модернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиМодернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиYuri Yashkin
 
Oracle Big Data proposition
Oracle Big Data propositionOracle Big Data proposition
Oracle Big Data propositionAndrey Akulov
 
Alexander Serbul ITEM 2018
Alexander Serbul ITEM 2018Alexander Serbul ITEM 2018
Alexander Serbul ITEM 2018ITEM
 
[JAM 1.0] CMS. Обзор. (Alexei Yanochkin)
[JAM 1.0] CMS. Обзор. (Alexei Yanochkin)[JAM 1.0] CMS. Обзор. (Alexei Yanochkin)
[JAM 1.0] CMS. Обзор. (Alexei Yanochkin)Evgeny Kaziak
 
Hivext – облачная платформа для быстрой разработки интернет приложений
Hivext – облачная платформа для быстрой разработки  интернет приложений Hivext – облачная платформа для быстрой разработки  интернет приложений
Hivext – облачная платформа для быстрой разработки интернет приложений guest800050
 
Решения Oracle для Big Data
Решения Oracle для Big DataРешения Oracle для Big Data
Решения Oracle для Big DataAndrey Akulov
 
Борис Нуралиев (1С) – #amoCONF
Борис Нуралиев (1С) – #amoCONFБорис Нуралиев (1С) – #amoCONF
Борис Нуралиев (1С) – #amoCONFamoCRM
 
Технологии и продукты Oracle для обработки и анализа Больших Данных
Технологии и продукты Oracle для обработки и анализа Больших ДанныхТехнологии и продукты Oracle для обработки и анализа Больших Данных
Технологии и продукты Oracle для обработки и анализа Больших ДанныхAndrey Akulov
 

Similaire à Электронная коммерция: от Hadoop к Spark Scala (20)

Машинное обучение в электронной коммерции - практика использования и подводны...
Машинное обучение в электронной коммерции - практика использования и подводны...Машинное обучение в электронной коммерции - практика использования и подводны...
Машинное обучение в электронной коммерции - практика использования и подводны...
 
Семантическое ядро рунета
Семантическое ядро рунетаСемантическое ядро рунета
Семантическое ядро рунета
 
доклад на вмк 15.10.2015
доклад на вмк 15.10.2015доклад на вмк 15.10.2015
доклад на вмк 15.10.2015
 
AVITO. Решаем проблемы по мере их поступления. Стачка 2013
AVITO. Решаем проблемы по мере их поступления. Стачка 2013AVITO. Решаем проблемы по мере их поступления. Стачка 2013
AVITO. Решаем проблемы по мере их поступления. Стачка 2013
 
Семантическое ядро рунета - высоконагруженная сontent-based рекомендательная ...
Семантическое ядро рунета - высоконагруженная сontent-based рекомендательная ...Семантическое ядро рунета - высоконагруженная сontent-based рекомендательная ...
Семантическое ядро рунета - высоконагруженная сontent-based рекомендательная ...
 
Модернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиМодернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитики
 
Мониторинг веб-проектов: штаб оперативного реагирования и аналитический центр
Мониторинг веб-проектов: штаб оперативного реагирования и аналитический центрМониторинг веб-проектов: штаб оперативного реагирования и аналитический центр
Мониторинг веб-проектов: штаб оперативного реагирования и аналитический центр
 
Презентация аналитической системы для ритейла СуперМаг BI
Презентация аналитической системы для ритейла СуперМаг BIПрезентация аналитической системы для ритейла СуперМаг BI
Презентация аналитической системы для ритейла СуперМаг BI
 
Модернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитикиМодернизация хранилища данных для использования передовой аналитики
Модернизация хранилища данных для использования передовой аналитики
 
Oracle Big Data proposition
Oracle Big Data propositionOracle Big Data proposition
Oracle Big Data proposition
 
Alexander Serbul ITEM 2018
Alexander Serbul ITEM 2018Alexander Serbul ITEM 2018
Alexander Serbul ITEM 2018
 
[JAM 1.0] CMS. Обзор. (Alexei Yanochkin)
[JAM 1.0] CMS. Обзор. (Alexei Yanochkin)[JAM 1.0] CMS. Обзор. (Alexei Yanochkin)
[JAM 1.0] CMS. Обзор. (Alexei Yanochkin)
 
Errors Tracker
Errors TrackerErrors Tracker
Errors Tracker
 
Hivext 04.2010
Hivext 04.2010Hivext 04.2010
Hivext 04.2010
 
Hivext – облачная платформа для быстрой разработки интернет приложений
Hivext – облачная платформа для быстрой разработки  интернет приложений Hivext – облачная платформа для быстрой разработки  интернет приложений
Hivext – облачная платформа для быстрой разработки интернет приложений
 
3 ibm bdw2015
3 ibm bdw20153 ibm bdw2015
3 ibm bdw2015
 
Решения Oracle для Big Data
Решения Oracle для Big DataРешения Oracle для Big Data
Решения Oracle для Big Data
 
Борис Нуралиев (1С) – #amoCONF
Борис Нуралиев (1С) – #amoCONFБорис Нуралиев (1С) – #amoCONF
Борис Нуралиев (1С) – #amoCONF
 
Битрикс-Framework
Битрикс-FrameworkБитрикс-Framework
Битрикс-Framework
 
Технологии и продукты Oracle для обработки и анализа Больших Данных
Технологии и продукты Oracle для обработки и анализа Больших ДанныхТехнологии и продукты Oracle для обработки и анализа Больших Данных
Технологии и продукты Oracle для обработки и анализа Больших Данных
 

Plus de Roman Zykov

Kib Rif 2015. Make money from your data
Kib Rif 2015. Make money from your dataKib Rif 2015. Make money from your data
Kib Rif 2015. Make money from your dataRoman Zykov
 
сервисы персонализации на основе данных
сервисы персонализации на основе данныхсервисы персонализации на основе данных
сервисы персонализации на основе данныхRoman Zykov
 
Big data europe 2012 brochure (3)
Big data europe 2012 brochure (3)Big data europe 2012 brochure (3)
Big data europe 2012 brochure (3)Roman Zykov
 
Wikimart recommendations
Wikimart recommendationsWikimart recommendations
Wikimart recommendationsRoman Zykov
 
Hadoop in Wikimart. Part 1. Business
Hadoop in Wikimart. Part 1. BusinessHadoop in Wikimart. Part 1. Business
Hadoop in Wikimart. Part 1. BusinessRoman Zykov
 
Hadoop implementation in Wikimart
Hadoop implementation in WikimartHadoop implementation in Wikimart
Hadoop implementation in WikimartRoman Zykov
 
Google Analytics vs Omniture SiteCatalyst vs In-ouse Webanalytics at iMetrics
Google Analytics vs Omniture SiteCatalyst vs In-ouse Webanalytics at iMetricsGoogle Analytics vs Omniture SiteCatalyst vs In-ouse Webanalytics at iMetrics
Google Analytics vs Omniture SiteCatalyst vs In-ouse Webanalytics at iMetricsRoman Zykov
 
MIPhT presentation about BI
MIPhT presentation about BIMIPhT presentation about BI
MIPhT presentation about BIRoman Zykov
 
Owox rzykov kp_iexamples
Owox rzykov kp_iexamplesOwox rzykov kp_iexamples
Owox rzykov kp_iexamplesRoman Zykov
 
Roman zykovcertificates
Roman zykovcertificatesRoman zykovcertificates
Roman zykovcertificatesRoman Zykov
 
Wpaper 005 functionalism_new_approach
Wpaper 005 functionalism_new_approachWpaper 005 functionalism_new_approach
Wpaper 005 functionalism_new_approachRoman Zykov
 
Searchpatterns 100519055231-phpapp02
Searchpatterns 100519055231-phpapp02Searchpatterns 100519055231-phpapp02
Searchpatterns 100519055231-phpapp02Roman Zykov
 
Metrics drivendesign
Metrics drivendesignMetrics drivendesign
Metrics drivendesignRoman Zykov
 
Ozon в высшей школе экономики часть 4
Ozon в высшей школе экономики часть 4Ozon в высшей школе экономики часть 4
Ozon в высшей школе экономики часть 4Roman Zykov
 
Ozon в высшей школе экономики часть 3
Ozon в высшей школе экономики часть 3Ozon в высшей школе экономики часть 3
Ozon в высшей школе экономики часть 3Roman Zykov
 
Ozon в высшей школе экономики часть 2
Ozon в высшей школе экономики часть 2Ozon в высшей школе экономики часть 2
Ozon в высшей школе экономики часть 2Roman Zykov
 
Ozon в высшей школе экономики часть 1
Ozon в высшей школе экономики часть 1Ozon в высшей школе экономики часть 1
Ozon в высшей школе экономики часть 1Roman Zykov
 
Roman Zykov Certificates
Roman Zykov CertificatesRoman Zykov Certificates
Roman Zykov CertificatesRoman Zykov
 

Plus de Roman Zykov (20)

Kib Rif 2015. Make money from your data
Kib Rif 2015. Make money from your dataKib Rif 2015. Make money from your data
Kib Rif 2015. Make money from your data
 
сервисы персонализации на основе данных
сервисы персонализации на основе данныхсервисы персонализации на основе данных
сервисы персонализации на основе данных
 
Big data europe 2012 brochure (3)
Big data europe 2012 brochure (3)Big data europe 2012 brochure (3)
Big data europe 2012 brochure (3)
 
Wikimart recommendations
Wikimart recommendationsWikimart recommendations
Wikimart recommendations
 
Hadoop in Wikimart. Part 1. Business
Hadoop in Wikimart. Part 1. BusinessHadoop in Wikimart. Part 1. Business
Hadoop in Wikimart. Part 1. Business
 
Hadoop implementation in Wikimart
Hadoop implementation in WikimartHadoop implementation in Wikimart
Hadoop implementation in Wikimart
 
Google Analytics vs Omniture SiteCatalyst vs In-ouse Webanalytics at iMetrics
Google Analytics vs Omniture SiteCatalyst vs In-ouse Webanalytics at iMetricsGoogle Analytics vs Omniture SiteCatalyst vs In-ouse Webanalytics at iMetrics
Google Analytics vs Omniture SiteCatalyst vs In-ouse Webanalytics at iMetrics
 
MIPhT presentation about BI
MIPhT presentation about BIMIPhT presentation about BI
MIPhT presentation about BI
 
Owox rzykov kp_iexamples
Owox rzykov kp_iexamplesOwox rzykov kp_iexamples
Owox rzykov kp_iexamples
 
Owox rzykov
Owox rzykovOwox rzykov
Owox rzykov
 
Roman zykovcertificates
Roman zykovcertificatesRoman zykovcertificates
Roman zykovcertificates
 
Wpaper 005 functionalism_new_approach
Wpaper 005 functionalism_new_approachWpaper 005 functionalism_new_approach
Wpaper 005 functionalism_new_approach
 
Searchpatterns 100519055231-phpapp02
Searchpatterns 100519055231-phpapp02Searchpatterns 100519055231-phpapp02
Searchpatterns 100519055231-phpapp02
 
Metrics drivendesign
Metrics drivendesignMetrics drivendesign
Metrics drivendesign
 
E-commerce KPIs
E-commerce KPIsE-commerce KPIs
E-commerce KPIs
 
Ozon в высшей школе экономики часть 4
Ozon в высшей школе экономики часть 4Ozon в высшей школе экономики часть 4
Ozon в высшей школе экономики часть 4
 
Ozon в высшей школе экономики часть 3
Ozon в высшей школе экономики часть 3Ozon в высшей школе экономики часть 3
Ozon в высшей школе экономики часть 3
 
Ozon в высшей школе экономики часть 2
Ozon в высшей школе экономики часть 2Ozon в высшей школе экономики часть 2
Ozon в высшей школе экономики часть 2
 
Ozon в высшей школе экономики часть 1
Ozon в высшей школе экономики часть 1Ozon в высшей школе экономики часть 1
Ozon в высшей школе экономики часть 1
 
Roman Zykov Certificates
Roman Zykov CertificatesRoman Zykov Certificates
Roman Zykov Certificates
 

Электронная коммерция: от Hadoop к Spark Scala

  • 1. retailrocket На пути к Apache Spark Роман Зыков Со-­‐основатель и директор по аналитике 12 ноября 2014, Москва Платформа для мультиканальной персонализации интернет-­‐магазина на основе big data
  • 2. Как работает Retail Rocket Платформа для мультиканальной персонализации интернет-­‐магазина на основе big data
  • 3. Мы используем сложную big data модель для формирования товарных рекомендаций 1. Наш сервис собирает всю информацию о пользователях и их поведении на сайте магазина. 2. Мощный аналитический аппарат превращает огромное количество данных в рекомендации. 3. Персональные рекомендации через виджеты или серверный API размещаются на сайте магазина, в персональных email-­‐сообщениях, в CRM у операторов колл-­‐центра и в любых других каналах коммуникации. Система постоянно самообучается и увеличивает эффективность. 1 2 3
  • 4. Что дает Retail Rocket Платформа для мультиканальной персонализации интернет-­‐магазина на основе big data
  • 5. Что дает Retail Rocket? + Персонализация сайта – Более 10 сценариев, разработанных создателями рекомендательных систем Ozon.ru и Wikimart.ru – Рост продаж от 10% до 50% (по результатам независимых А/Б тестов) – Месяц на бесплатное тестирование + Персонализация email – Полностью автоматизированные рассылки без затрат на персонал – Средняя конверсия из переходов в заказы – >10% (!) – Оплата только за результат (CPO или Revenue Share)
  • 6. * Согласно независимому исследованию InSales от 30.10.2014 Платформа для мультиканальной персонализации интернет-­‐магазина на основе big data
  • 7. Архитектура Retail Rocket Платформа для мультиканальной персонализации интернет-­‐магазина на основе big data
  • 8. • CDH 5.1.2 • Spark 1.1 • High Availability: 2 Namenodes, 3 Journalnodes • 18 Datanodes • 100 Tb несжатых данных • 100 млн новых событий в сутки
  • 9.
  • 10. Проблемы!!! • Зоопарк языков программирования • Сложность реализации итеративных алгоритмов • Инвестиции в железо
  • 11. Apache Spark Платформа для мультиканальной персонализации интернет-­‐магазина на основе big data
  • 12. Решение • Один язык программирования -­‐ Scala • Расчеты в памяти – поддержка итеративных алгоритмов • Производительность (в 3-­‐5 раз) • Лучше использует память • Spark SQL вместо Hive • Spark Streaming • Parquet
  • 13. Переезд хуже пожара – нужен Yarn Old cluster Name nodes Journal nodes New cluster Name nodes Journal nodes Puppet CDH 4.5 CDH 5.1 Yarn hzps://github.com/RetailRocket/puppet-­‐cdh5
  • 14. Spark Scala • Проблема «мелких» файлов • Капризен к опциям параллелизации (reduce) • Нет удобного notebook • Лучше писать свои сериализаторы на базе Kryo
  • 15. Проблема мелких файлов • По-­‐умолчанию Hadoop: 1 маппер на файл • org.apache.hadoop.hive.ql.io.CombineHiveInputFormat • Pig: • pig.splitCombinaƒon = true • pig.maxCombinedSplitSize • Hive: • hive.input.format = org.apache.hadoop.hive.ql.io.CombineHiveInputFormat • hive.hadoop.supports.splizable.combineinpuˆormat=true • Spark/Scala • hzps://github.com/RetailRocket/SparkMulƒTool Retail Rocket: 100000 файлов -­‐ 100000(ДО), 3000(после) Скорость чтения выросла в «три» раза
  • 16. Ссылки • Книга Learning on Spark (hzp://shop.oreilly.com/product/0636920028512.do) • Курс Coursera курс по Scala (hzps://www.coursera.org/course/progfun) • Видео Spark Summit 2014 (hzp://spark-­‐summit.org/2014) • Spark should be bezer than MapReduce (if only it worked) • Retail Rocket Public GitHub (hzps://github.com/RetailRocket)