SlideShare une entreprise Scribd logo
1  sur  15
Hadoop & Wikimart
      Роман Зыков
    http://wikimart.ru




Moscow, BI trends, 11th October 2012
Введение


Быть или не быть….

Hadoop
Задачи Wikimart

Что
•BI задачи
•Веб аналитика (внутреннее решение)
•Рекомендации на сайте
•Сервисы для маркетинга

Кто
•Аналитический отдел
•Аналитики других отделов
•IT
Проблема

Ждать или платить?
•Объем данных
•# сервисов
Map Reduce



       Standalone


DATA


       Map Reduce
Наша идея

Новая платформа только для “больших”
задач

•Исследовать Map Reduce ПО
•Первый пациент – алгоритмы рекомендаций

Сложности
- нет бюджета       ->   Hadoop бесплатен
- нет экспертов     ->   изучили
- нет железа        ->   виртуальный кластер
Требования


•   Масштабируемость
•   Инсталляция
•   Интеграция
•   Без Java
•   SQL запросы
Схема данных




DWH
           Сервисы данных
Результаты

Рекомендации
•Коллаборативная фильтрация (веб данные, PIG)
•Товары аналоги (атрибуты товаров, PIG)
•Популярные товары (веб данные, HiveQL)
•Поисковые рекомендации (HiveQL)

 1 год эксплуатации
•>10% доходов
•3 месяца на запуск
•Десятки гигабайт обрабатываются за 2 часа
•1 авария из-за полного отключения питания

Решение: Вложить деньги в железо
Конечный пользователь

Внутренние ЯП
•HiveQL
•Pig

BI задачи
•Агрегация данных для OLAP
•RDBMS как витирина
•OLAP и BI должны поддерживать HiveQL
Интеграция данных

• SQOOP
  • Параллельный обмен с RDBMS
    (MS SQL, MySQL, Oracle, Teradata… )
  • Инкрементальное обновление
  • HDFS, Hive, HBASE

• Talend Open Studio
Hadoop и RDBMS

• Не заменят RDBMS:
   • Задержка
   • Слабые возможности HiveQL отн. SQL
• Задачи по оффлайн вычислениям:
   • Машинное обучение
   • Запросы к «большим» таблицам
   • ….
• Онлайн запросы: NOSQL
Миф


  Терабайты?
  Петабайты?

  Big tasks!
Выводы

• Hadoop это не квантовая физика
• Вычислительные данные могут быть большими

Starter kit
• Система управления Hadoop
• Виртуальное железо (облако и т.д.)
• Оффлайн вычисления
• Pig или HiveQL
• Sqoop: импорт/экспорт данных из БД
Спасибо!!!

     rzykov@gmail.com
linkedin.com/in/romanzykov
        http://kpis.ru

Contenu connexe

Tendances

SSAS: multidemention vs tabular mode
SSAS: multidemention vs tabular modeSSAS: multidemention vs tabular mode
SSAS: multidemention vs tabular modeAndrey Korshikov
 
Промышленное ускорение сайтов / Николай Мациевский (Айри.рф)
Промышленное ускорение сайтов / Николай Мациевский (Айри.рф)Промышленное ускорение сайтов / Николай Мациевский (Айри.рф)
Промышленное ускорение сайтов / Николай Мациевский (Айри.рф)Ontico
 
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...IT-Portfolio
 
HappyDev'15 Keynote: Когда все данные станут большими...
HappyDev'15 Keynote: Когда все данные станут большими...HappyDev'15 Keynote: Когда все данные станут большими...
HappyDev'15 Keynote: Когда все данные станут большими...Alexey Zinoviev
 
"OLAP с помощью Postgres (как мы строили BI)" Фефелов Андрей, Mastery.pro
"OLAP с помощью Postgres (как мы строили BI)" Фефелов Андрей, Mastery.pro"OLAP с помощью Postgres (как мы строили BI)" Фефелов Андрей, Mastery.pro
"OLAP с помощью Postgres (как мы строили BI)" Фефелов Андрей, Mastery.proit-people
 
«Про аналитику и серебряные пули» Александр Подсобляев, Rambler&Co
«Про аналитику и серебряные пули» Александр Подсобляев, Rambler&Co«Про аналитику и серебряные пули» Александр Подсобляев, Rambler&Co
«Про аналитику и серебряные пули» Александр Подсобляев, Rambler&Coit-people
 
Семантическое ядро рунета
Семантическое ядро рунетаСемантическое ядро рунета
Семантическое ядро рунетаCEE-SEC(R)
 
Владислав Флакс — OWOX — IСBDA 2015
Владислав Флакс — OWOX — IСBDA 2015Владислав Флакс — OWOX — IСBDA 2015
Владислав Флакс — OWOX — IСBDA 2015rusbase
 
владивосток форум Deep_see
владивосток форум Deep_seeвладивосток форум Deep_see
владивосток форум Deep_seeElena Ometova
 
Илья Салтанов, Олег Новиков (Sports.ru)
Илья Салтанов, Олег Новиков (Sports.ru)Илья Салтанов, Олег Новиков (Sports.ru)
Илья Салтанов, Олег Новиков (Sports.ru)Ontico
 
Моделирование для NoSQL БД
Моделирование для NoSQL БДМоделирование для NoSQL БД
Моделирование для NoSQL БДAndrew Sovtsov
 
Простая и дешёвая бизнес-аналитика на базе Google BigQuery / Алексей Паршуков...
Простая и дешёвая бизнес-аналитика на базе Google BigQuery / Алексей Паршуков...Простая и дешёвая бизнес-аналитика на базе Google BigQuery / Алексей Паршуков...
Простая и дешёвая бизнес-аналитика на базе Google BigQuery / Алексей Паршуков...Ontico
 
Внутренняя архитектура и устройства соц. сети "Одноклассники"
Внутренняя архитектура и устройства соц. сети "Одноклассники"Внутренняя архитектура и устройства соц. сети "Одноклассники"
Внутренняя архитектура и устройства соц. сети "Одноклассники".toster
 
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...IT-Portfolio
 
Блеск и нищета распределённых кэшей
Блеск и нищета распределённых кэшейБлеск и нищета распределённых кэшей
Блеск и нищета распределённых кэшейaragozin
 
2015-12-05 Алексей Зиновьев - Когда все данные станут большими...
2015-12-05 Алексей Зиновьев - Когда все данные станут большими...2015-12-05 Алексей Зиновьев - Когда все данные станут большими...
2015-12-05 Алексей Зиновьев - Когда все данные станут большими...HappyDev
 
Про аналитику и серебряные пули
Про аналитику и серебряные пулиПро аналитику и серебряные пули
Про аналитику и серебряные пулиRamblerML
 
"High load в условиях ограниченных ресурсов", Олег Бунин
"High load в условиях ограниченных ресурсов", Олег Бунин"High load в условиях ограниченных ресурсов", Олег Бунин
"High load в условиях ограниченных ресурсов", Олег Бунинit-people
 

Tendances (20)

SSAS: multidemention vs tabular mode
SSAS: multidemention vs tabular modeSSAS: multidemention vs tabular mode
SSAS: multidemention vs tabular mode
 
Промышленное ускорение сайтов / Николай Мациевский (Айри.рф)
Промышленное ускорение сайтов / Николай Мациевский (Айри.рф)Промышленное ускорение сайтов / Николай Мациевский (Айри.рф)
Промышленное ускорение сайтов / Николай Мациевский (Айри.рф)
 
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Оптимиза...
 
HappyDev'15 Keynote: Когда все данные станут большими...
HappyDev'15 Keynote: Когда все данные станут большими...HappyDev'15 Keynote: Когда все данные станут большими...
HappyDev'15 Keynote: Когда все данные станут большими...
 
"OLAP с помощью Postgres (как мы строили BI)" Фефелов Андрей, Mastery.pro
"OLAP с помощью Postgres (как мы строили BI)" Фефелов Андрей, Mastery.pro"OLAP с помощью Postgres (как мы строили BI)" Фефелов Андрей, Mastery.pro
"OLAP с помощью Postgres (как мы строили BI)" Фефелов Андрей, Mastery.pro
 
«Про аналитику и серебряные пули» Александр Подсобляев, Rambler&Co
«Про аналитику и серебряные пули» Александр Подсобляев, Rambler&Co«Про аналитику и серебряные пули» Александр Подсобляев, Rambler&Co
«Про аналитику и серебряные пули» Александр Подсобляев, Rambler&Co
 
Семантическое ядро рунета
Семантическое ядро рунетаСемантическое ядро рунета
Семантическое ядро рунета
 
Владислав Флакс — OWOX — IСBDA 2015
Владислав Флакс — OWOX — IСBDA 2015Владислав Флакс — OWOX — IСBDA 2015
Владислав Флакс — OWOX — IСBDA 2015
 
владивосток форум Deep_see
владивосток форум Deep_seeвладивосток форум Deep_see
владивосток форум Deep_see
 
Илья Салтанов, Олег Новиков (Sports.ru)
Илья Салтанов, Олег Новиков (Sports.ru)Илья Салтанов, Олег Новиков (Sports.ru)
Илья Салтанов, Олег Новиков (Sports.ru)
 
Моделирование для NoSQL БД
Моделирование для NoSQL БДМоделирование для NoSQL БД
Моделирование для NoSQL БД
 
Простая и дешёвая бизнес-аналитика на базе Google BigQuery / Алексей Паршуков...
Простая и дешёвая бизнес-аналитика на базе Google BigQuery / Алексей Паршуков...Простая и дешёвая бизнес-аналитика на базе Google BigQuery / Алексей Паршуков...
Простая и дешёвая бизнес-аналитика на базе Google BigQuery / Алексей Паршуков...
 
Внутренняя архитектура и устройства соц. сети "Одноклассники"
Внутренняя архитектура и устройства соц. сети "Одноклассники"Внутренняя архитектура и устройства соц. сети "Одноклассники"
Внутренняя архитектура и устройства соц. сети "Одноклассники"
 
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...
16 декабря, DEV {highload} - конференция о Highload веб-разработке, "Строим N...
 
Databases on Client Side
Databases on Client SideDatabases on Client Side
Databases on Client Side
 
Блеск и нищета распределённых кэшей
Блеск и нищета распределённых кэшейБлеск и нищета распределённых кэшей
Блеск и нищета распределённых кэшей
 
2015-12-05 Алексей Зиновьев - Когда все данные станут большими...
2015-12-05 Алексей Зиновьев - Когда все данные станут большими...2015-12-05 Алексей Зиновьев - Когда все данные станут большими...
2015-12-05 Алексей Зиновьев - Когда все данные станут большими...
 
Про аналитику и серебряные пули
Про аналитику и серебряные пулиПро аналитику и серебряные пули
Про аналитику и серебряные пули
 
2013-02-02 02 Нелюбин. Почему NoSql
2013-02-02 02 Нелюбин. Почему NoSql2013-02-02 02 Нелюбин. Почему NoSql
2013-02-02 02 Нелюбин. Почему NoSql
 
"High load в условиях ограниченных ресурсов", Олег Бунин
"High load в условиях ограниченных ресурсов", Олег Бунин"High load в условиях ограниченных ресурсов", Олег Бунин
"High load в условиях ограниченных ресурсов", Олег Бунин
 

En vedette

[Mirantis Day 2015] Проект Sahara - BigData на OpenStack
[Mirantis Day 2015] Проект Sahara - BigData на OpenStack[Mirantis Day 2015] Проект Sahara - BigData на OpenStack
[Mirantis Day 2015] Проект Sahara - BigData на OpenStackSergey Lukjanov
 
Bi роскошь для богатых или насущная необходимость
Bi роскошь для богатых или насущная необходимостьBi роскошь для богатых или насущная необходимость
Bi роскошь для богатых или насущная необходимостьSimon Tarara
 
Подход к решению аналитических задач на базе opensource
Подход к решению аналитических задач на базе opensourceПодход к решению аналитических задач на базе opensource
Подход к решению аналитических задач на базе opensourceКРОК
 
FOSS Sea 2014_DataWarehouse & BigData_Владимир Слободянюк ( Luxoft)
FOSS Sea 2014_DataWarehouse & BigData_Владимир Слободянюк ( Luxoft)FOSS Sea 2014_DataWarehouse & BigData_Владимир Слободянюк ( Luxoft)
FOSS Sea 2014_DataWarehouse & BigData_Владимир Слободянюк ( Luxoft)GeeksLab Odessa
 
Опыт использования Spark, Основано на реальных событиях
Опыт использования Spark, Основано на реальных событияхОпыт использования Spark, Основано на реальных событиях
Опыт использования Spark, Основано на реальных событияхVasil Remeniuk
 
Практика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopПрактика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopYury Petrov
 
High impact data visualization with power view, power map, and power bi
High impact data visualization with power view, power map, and power biHigh impact data visualization with power view, power map, and power bi
High impact data visualization with power view, power map, and power biHoàng Việt
 
PowerBI — новые возможности анализа данных в облаке
PowerBI — новые возможности анализа данных в облакеPowerBI — новые возможности анализа данных в облаке
PowerBI — новые возможности анализа данных в облакеStas Vyschepan
 
Особенности ETL — инструмента pentaho data integrator. Опыт КРОК
Особенности ETL — инструмента pentaho data integrator. Опыт КРОКОсобенности ETL — инструмента pentaho data integrator. Опыт КРОК
Особенности ETL — инструмента pentaho data integrator. Опыт КРОККРОК
 
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...WG_ Events
 
Hadoop presentation
Hadoop presentationHadoop presentation
Hadoop presentationVlad Orlov
 
Реализация bi-системы собственными силами или как снизить стоимость проекта. ...
Реализация bi-системы собственными силами или как снизить стоимость проекта. ...Реализация bi-системы собственными силами или как снизить стоимость проекта. ...
Реализация bi-системы собственными силами или как снизить стоимость проекта. ...КРОК
 
Обзор интересного функционала из последних релизов PowerBI
Обзор интересного функционала из последних релизов PowerBI Обзор интересного функционала из последних релизов PowerBI
Обзор интересного функционала из последних релизов PowerBI Marina Payvina
 
Igor Bobak, Business Analysis Tool
Igor Bobak, Business Analysis ToolIgor Bobak, Business Analysis Tool
Igor Bobak, Business Analysis ToolLviv Startup Club
 
Чем отличаются BI и Big Data?
Чем отличаются BI и Big Data?Чем отличаются BI и Big Data?
Чем отличаются BI и Big Data?Michael Kozloff
 
Realtime Analytics with Storm and Hadoop
Realtime Analytics with Storm and HadoopRealtime Analytics with Storm and Hadoop
Realtime Analytics with Storm and HadoopDataWorks Summit
 
Scaling Apache Storm - Strata + Hadoop World 2014
Scaling Apache Storm - Strata + Hadoop World 2014Scaling Apache Storm - Strata + Hadoop World 2014
Scaling Apache Storm - Strata + Hadoop World 2014P. Taylor Goetz
 

En vedette (20)

[Mirantis Day 2015] Проект Sahara - BigData на OpenStack
[Mirantis Day 2015] Проект Sahara - BigData на OpenStack[Mirantis Day 2015] Проект Sahara - BigData на OpenStack
[Mirantis Day 2015] Проект Sahara - BigData на OpenStack
 
Bi роскошь для богатых или насущная необходимость
Bi роскошь для богатых или насущная необходимостьBi роскошь для богатых или насущная необходимость
Bi роскошь для богатых или насущная необходимость
 
Подход к решению аналитических задач на базе opensource
Подход к решению аналитических задач на базе opensourceПодход к решению аналитических задач на базе opensource
Подход к решению аналитических задач на базе opensource
 
ETL со Spark
ETL со SparkETL со Spark
ETL со Spark
 
FOSS Sea 2014_DataWarehouse & BigData_Владимир Слободянюк ( Luxoft)
FOSS Sea 2014_DataWarehouse & BigData_Владимир Слободянюк ( Luxoft)FOSS Sea 2014_DataWarehouse & BigData_Владимир Слободянюк ( Luxoft)
FOSS Sea 2014_DataWarehouse & BigData_Владимир Слободянюк ( Luxoft)
 
Опыт использования Spark, Основано на реальных событиях
Опыт использования Spark, Основано на реальных событияхОпыт использования Spark, Основано на реальных событиях
Опыт использования Spark, Основано на реальных событиях
 
Практика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopПрактика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему Hadoop
 
High impact data visualization with power view, power map, and power bi
High impact data visualization with power view, power map, and power biHigh impact data visualization with power view, power map, and power bi
High impact data visualization with power view, power map, and power bi
 
PowerBI — новые возможности анализа данных в облаке
PowerBI — новые возможности анализа данных в облакеPowerBI — новые возможности анализа данных в облаке
PowerBI — новые возможности анализа данных в облаке
 
Особенности ETL — инструмента pentaho data integrator. Опыт КРОК
Особенности ETL — инструмента pentaho data integrator. Опыт КРОКОсобенности ETL — инструмента pentaho data integrator. Опыт КРОК
Особенности ETL — инструмента pentaho data integrator. Опыт КРОК
 
Talend - about company and solutions
Talend - about company and solutionsTalend - about company and solutions
Talend - about company and solutions
 
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...
DataTalks #4: Построение хранилища данных на основе платформы hadoop / Игорь ...
 
Hadoop presentation
Hadoop presentationHadoop presentation
Hadoop presentation
 
Реализация bi-системы собственными силами или как снизить стоимость проекта. ...
Реализация bi-системы собственными силами или как снизить стоимость проекта. ...Реализация bi-системы собственными силами или как снизить стоимость проекта. ...
Реализация bi-системы собственными силами или как снизить стоимость проекта. ...
 
Обзор интересного функционала из последних релизов PowerBI
Обзор интересного функционала из последних релизов PowerBI Обзор интересного функционала из последних релизов PowerBI
Обзор интересного функционала из последних релизов PowerBI
 
Igor Bobak, Business Analysis Tool
Igor Bobak, Business Analysis ToolIgor Bobak, Business Analysis Tool
Igor Bobak, Business Analysis Tool
 
Чем отличаются BI и Big Data?
Чем отличаются BI и Big Data?Чем отличаются BI и Big Data?
Чем отличаются BI и Big Data?
 
Resource Aware Scheduling in Apache Storm
Resource Aware Scheduling in Apache StormResource Aware Scheduling in Apache Storm
Resource Aware Scheduling in Apache Storm
 
Realtime Analytics with Storm and Hadoop
Realtime Analytics with Storm and HadoopRealtime Analytics with Storm and Hadoop
Realtime Analytics with Storm and Hadoop
 
Scaling Apache Storm - Strata + Hadoop World 2014
Scaling Apache Storm - Strata + Hadoop World 2014Scaling Apache Storm - Strata + Hadoop World 2014
Scaling Apache Storm - Strata + Hadoop World 2014
 

Similaire à Hadoop in Wikimart. Part 1. Business

Решения Oracle для Big Data
Решения Oracle для Big DataРешения Oracle для Big Data
Решения Oracle для Big DataAndrey Akulov
 
OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015Ilya Gershanov
 
Гетерогенные сервисы для highload-проектов на примере Imhonet.ru и 4talk.im, ...
Гетерогенные сервисы для highload-проектов на примере Imhonet.ru и 4talk.im, ...Гетерогенные сервисы для highload-проектов на примере Imhonet.ru и 4talk.im, ...
Гетерогенные сервисы для highload-проектов на примере Imhonet.ru и 4talk.im, ...Ontico
 
Oracle Big Data proposition
Oracle Big Data propositionOracle Big Data proposition
Oracle Big Data propositionAndrey Akulov
 
BigIntegrate - разрушение мифов по поводу ETL на Hadoop
BigIntegrate - разрушение мифов по поводу ETL на HadoopBigIntegrate - разрушение мифов по поводу ETL на Hadoop
BigIntegrate - разрушение мифов по поводу ETL на HadoopAndrey Orlov
 
DataBase Intellegence Presentation
DataBase Intellegence Presentation DataBase Intellegence Presentation
DataBase Intellegence Presentation Alexandr Zhuravlev
 
Sponsors' Sessions: BAKOTECH (Dell Software)
Sponsors' Sessions: BAKOTECH (Dell Software)Sponsors' Sessions: BAKOTECH (Dell Software)
Sponsors' Sessions: BAKOTECH (Dell Software)BAKOTECH
 
Oracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийOracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийAndrey Akulov
 
SECON'2016. Алексеев Олег, Живой API
SECON'2016. Алексеев Олег, Живой APISECON'2016. Алексеев Олег, Живой API
SECON'2016. Алексеев Олег, Живой APISECON
 
Точка кипения: проектирование крупных веб-систем
Точка кипения:  проектирование крупных веб-системТочка кипения:  проектирование крупных веб-систем
Точка кипения: проектирование крупных веб-системRoman Ivliev
 
Проектирование архитектуры крупных веб-систем
Проектирование архитектуры крупных веб-системПроектирование архитектуры крупных веб-систем
Проектирование архитектуры крупных веб-системTKConf
 
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"Alexey Zinoviev
 
Асинхронный биллинг для службы такси - IzhDevCom November 2014
Асинхронный биллинг для службы такси - IzhDevCom November 2014Асинхронный биллинг для службы такси - IzhDevCom November 2014
Асинхронный биллинг для службы такси - IzhDevCom November 2014Egor Konovalov
 
1 big data oracle digi oct
1 big data oracle digi oct1 big data oracle digi oct
1 big data oracle digi octantishmanti
 
Слоны в облаках
Слоны в облакахСлоны в облаках
Слоны в облакахPavel Mezentsev
 
Построение системы аналитики
Построение системы аналитикиПостроение системы аналитики
Построение системы аналитикиИлья Середа
 

Similaire à Hadoop in Wikimart. Part 1. Business (20)

Решения Oracle для Big Data
Решения Oracle для Big DataРешения Oracle для Big Data
Решения Oracle для Big Data
 
OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015OSPconf. Big Data Forum 2015
OSPconf. Big Data Forum 2015
 
Гетерогенные сервисы для highload-проектов на примере Imhonet.ru и 4talk.im, ...
Гетерогенные сервисы для highload-проектов на примере Imhonet.ru и 4talk.im, ...Гетерогенные сервисы для highload-проектов на примере Imhonet.ru и 4talk.im, ...
Гетерогенные сервисы для highload-проектов на примере Imhonet.ru и 4talk.im, ...
 
Oracle Big Data proposition
Oracle Big Data propositionOracle Big Data proposition
Oracle Big Data proposition
 
3 ibm bdw2015
3 ibm bdw20153 ibm bdw2015
3 ibm bdw2015
 
BigIntegrate - разрушение мифов по поводу ETL на Hadoop
BigIntegrate - разрушение мифов по поводу ETL на HadoopBigIntegrate - разрушение мифов по поводу ETL на Hadoop
BigIntegrate - разрушение мифов по поводу ETL на Hadoop
 
DataBase Intellegence Presentation
DataBase Intellegence Presentation DataBase Intellegence Presentation
DataBase Intellegence Presentation
 
Big data
Big dataBig data
Big data
 
Big Data
Big DataBig Data
Big Data
 
Sponsors' Sessions: BAKOTECH (Dell Software)
Sponsors' Sessions: BAKOTECH (Dell Software)Sponsors' Sessions: BAKOTECH (Dell Software)
Sponsors' Sessions: BAKOTECH (Dell Software)
 
Oracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологийOracle Big Data. Обзор технологий
Oracle Big Data. Обзор технологий
 
SECON'2016. Алексеев Олег, Живой API
SECON'2016. Алексеев Олег, Живой APISECON'2016. Алексеев Олег, Живой API
SECON'2016. Алексеев Олег, Живой API
 
Точка кипения: проектирование крупных веб-систем
Точка кипения:  проектирование крупных веб-системТочка кипения:  проектирование крупных веб-систем
Точка кипения: проектирование крупных веб-систем
 
Проектирование архитектуры крупных веб-систем
Проектирование архитектуры крупных веб-системПроектирование архитектуры крупных веб-систем
Проектирование архитектуры крупных веб-систем
 
2 bdw.key
2 bdw.key2 bdw.key
2 bdw.key
 
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
Выбор NoSQL базы данных для вашего проекта: "Не в свои сани не садись"
 
Асинхронный биллинг для службы такси - IzhDevCom November 2014
Асинхронный биллинг для службы такси - IzhDevCom November 2014Асинхронный биллинг для службы такси - IzhDevCom November 2014
Асинхронный биллинг для службы такси - IzhDevCom November 2014
 
1 big data oracle digi oct
1 big data oracle digi oct1 big data oracle digi oct
1 big data oracle digi oct
 
Слоны в облаках
Слоны в облакахСлоны в облаках
Слоны в облаках
 
Построение системы аналитики
Построение системы аналитикиПостроение системы аналитики
Построение системы аналитики
 

Plus de Roman Zykov

How to eliminate ideas as soon as possible
How to eliminate ideas as soon as possibleHow to eliminate ideas as soon as possible
How to eliminate ideas as soon as possibleRoman Zykov
 
Kib Rif 2015. Make money from your data
Kib Rif 2015. Make money from your dataKib Rif 2015. Make money from your data
Kib Rif 2015. Make money from your dataRoman Zykov
 
Электронная коммерция: от Hadoop к Spark Scala
Электронная коммерция: от Hadoop к Spark ScalaЭлектронная коммерция: от Hadoop к Spark Scala
Электронная коммерция: от Hadoop к Spark ScalaRoman Zykov
 
Big data europe 2012 brochure (3)
Big data europe 2012 brochure (3)Big data europe 2012 brochure (3)
Big data europe 2012 brochure (3)Roman Zykov
 
Wikimart recommendations
Wikimart recommendationsWikimart recommendations
Wikimart recommendationsRoman Zykov
 
Hadoop implementation in Wikimart
Hadoop implementation in WikimartHadoop implementation in Wikimart
Hadoop implementation in WikimartRoman Zykov
 
Google Analytics vs Omniture SiteCatalyst vs In-ouse Webanalytics at iMetrics
Google Analytics vs Omniture SiteCatalyst vs In-ouse Webanalytics at iMetricsGoogle Analytics vs Omniture SiteCatalyst vs In-ouse Webanalytics at iMetrics
Google Analytics vs Omniture SiteCatalyst vs In-ouse Webanalytics at iMetricsRoman Zykov
 
MIPhT presentation about BI
MIPhT presentation about BIMIPhT presentation about BI
MIPhT presentation about BIRoman Zykov
 
Owox rzykov kp_iexamples
Owox rzykov kp_iexamplesOwox rzykov kp_iexamples
Owox rzykov kp_iexamplesRoman Zykov
 
Roman zykovcertificates
Roman zykovcertificatesRoman zykovcertificates
Roman zykovcertificatesRoman Zykov
 
Wpaper 005 functionalism_new_approach
Wpaper 005 functionalism_new_approachWpaper 005 functionalism_new_approach
Wpaper 005 functionalism_new_approachRoman Zykov
 
Searchpatterns 100519055231-phpapp02
Searchpatterns 100519055231-phpapp02Searchpatterns 100519055231-phpapp02
Searchpatterns 100519055231-phpapp02Roman Zykov
 
Metrics drivendesign
Metrics drivendesignMetrics drivendesign
Metrics drivendesignRoman Zykov
 
Ozon в высшей школе экономики часть 4
Ozon в высшей школе экономики часть 4Ozon в высшей школе экономики часть 4
Ozon в высшей школе экономики часть 4Roman Zykov
 
Ozon в высшей школе экономики часть 3
Ozon в высшей школе экономики часть 3Ozon в высшей школе экономики часть 3
Ozon в высшей школе экономики часть 3Roman Zykov
 
Ozon в высшей школе экономики часть 2
Ozon в высшей школе экономики часть 2Ozon в высшей школе экономики часть 2
Ozon в высшей школе экономики часть 2Roman Zykov
 
Ozon в высшей школе экономики часть 1
Ozon в высшей школе экономики часть 1Ozon в высшей школе экономики часть 1
Ozon в высшей школе экономики часть 1Roman Zykov
 
Roman Zykov Certificates
Roman Zykov CertificatesRoman Zykov Certificates
Roman Zykov CertificatesRoman Zykov
 

Plus de Roman Zykov (20)

How to eliminate ideas as soon as possible
How to eliminate ideas as soon as possibleHow to eliminate ideas as soon as possible
How to eliminate ideas as soon as possible
 
Kib Rif 2015. Make money from your data
Kib Rif 2015. Make money from your dataKib Rif 2015. Make money from your data
Kib Rif 2015. Make money from your data
 
Электронная коммерция: от Hadoop к Spark Scala
Электронная коммерция: от Hadoop к Spark ScalaЭлектронная коммерция: от Hadoop к Spark Scala
Электронная коммерция: от Hadoop к Spark Scala
 
Big data europe 2012 brochure (3)
Big data europe 2012 brochure (3)Big data europe 2012 brochure (3)
Big data europe 2012 brochure (3)
 
Wikimart recommendations
Wikimart recommendationsWikimart recommendations
Wikimart recommendations
 
Hadoop implementation in Wikimart
Hadoop implementation in WikimartHadoop implementation in Wikimart
Hadoop implementation in Wikimart
 
Google Analytics vs Omniture SiteCatalyst vs In-ouse Webanalytics at iMetrics
Google Analytics vs Omniture SiteCatalyst vs In-ouse Webanalytics at iMetricsGoogle Analytics vs Omniture SiteCatalyst vs In-ouse Webanalytics at iMetrics
Google Analytics vs Omniture SiteCatalyst vs In-ouse Webanalytics at iMetrics
 
MIPhT presentation about BI
MIPhT presentation about BIMIPhT presentation about BI
MIPhT presentation about BI
 
Owox rzykov kp_iexamples
Owox rzykov kp_iexamplesOwox rzykov kp_iexamples
Owox rzykov kp_iexamples
 
Owox rzykov
Owox rzykovOwox rzykov
Owox rzykov
 
Roman zykovcertificates
Roman zykovcertificatesRoman zykovcertificates
Roman zykovcertificates
 
Wpaper 005 functionalism_new_approach
Wpaper 005 functionalism_new_approachWpaper 005 functionalism_new_approach
Wpaper 005 functionalism_new_approach
 
Searchpatterns 100519055231-phpapp02
Searchpatterns 100519055231-phpapp02Searchpatterns 100519055231-phpapp02
Searchpatterns 100519055231-phpapp02
 
Metrics drivendesign
Metrics drivendesignMetrics drivendesign
Metrics drivendesign
 
E-commerce KPIs
E-commerce KPIsE-commerce KPIs
E-commerce KPIs
 
Ozon в высшей школе экономики часть 4
Ozon в высшей школе экономики часть 4Ozon в высшей школе экономики часть 4
Ozon в высшей школе экономики часть 4
 
Ozon в высшей школе экономики часть 3
Ozon в высшей школе экономики часть 3Ozon в высшей школе экономики часть 3
Ozon в высшей школе экономики часть 3
 
Ozon в высшей школе экономики часть 2
Ozon в высшей школе экономики часть 2Ozon в высшей школе экономики часть 2
Ozon в высшей школе экономики часть 2
 
Ozon в высшей школе экономики часть 1
Ozon в высшей школе экономики часть 1Ozon в высшей школе экономики часть 1
Ozon в высшей школе экономики часть 1
 
Roman Zykov Certificates
Roman Zykov CertificatesRoman Zykov Certificates
Roman Zykov Certificates
 

Hadoop in Wikimart. Part 1. Business

  • 1. Hadoop & Wikimart Роман Зыков http://wikimart.ru Moscow, BI trends, 11th October 2012
  • 3. Задачи Wikimart Что •BI задачи •Веб аналитика (внутреннее решение) •Рекомендации на сайте •Сервисы для маркетинга Кто •Аналитический отдел •Аналитики других отделов •IT
  • 5. Map Reduce Standalone DATA Map Reduce
  • 6. Наша идея Новая платформа только для “больших” задач •Исследовать Map Reduce ПО •Первый пациент – алгоритмы рекомендаций Сложности - нет бюджета -> Hadoop бесплатен - нет экспертов -> изучили - нет железа -> виртуальный кластер
  • 7. Требования • Масштабируемость • Инсталляция • Интеграция • Без Java • SQL запросы
  • 8. Схема данных DWH Сервисы данных
  • 9. Результаты Рекомендации •Коллаборативная фильтрация (веб данные, PIG) •Товары аналоги (атрибуты товаров, PIG) •Популярные товары (веб данные, HiveQL) •Поисковые рекомендации (HiveQL) 1 год эксплуатации •>10% доходов •3 месяца на запуск •Десятки гигабайт обрабатываются за 2 часа •1 авария из-за полного отключения питания Решение: Вложить деньги в железо
  • 10. Конечный пользователь Внутренние ЯП •HiveQL •Pig BI задачи •Агрегация данных для OLAP •RDBMS как витирина •OLAP и BI должны поддерживать HiveQL
  • 11. Интеграция данных • SQOOP • Параллельный обмен с RDBMS (MS SQL, MySQL, Oracle, Teradata… ) • Инкрементальное обновление • HDFS, Hive, HBASE • Talend Open Studio
  • 12. Hadoop и RDBMS • Не заменят RDBMS: • Задержка • Слабые возможности HiveQL отн. SQL • Задачи по оффлайн вычислениям: • Машинное обучение • Запросы к «большим» таблицам • …. • Онлайн запросы: NOSQL
  • 13. Миф Терабайты? Петабайты? Big tasks!
  • 14. Выводы • Hadoop это не квантовая физика • Вычислительные данные могут быть большими Starter kit • Система управления Hadoop • Виртуальное железо (облако и т.д.) • Оффлайн вычисления • Pig или HiveQL • Sqoop: импорт/экспорт данных из БД
  • 15. Спасибо!!! rzykov@gmail.com linkedin.com/in/romanzykov http://kpis.ru