Этот доклад я презентовал на конференции BI тренды 11 октября 2012 года в Москве. http://events.cnews.ru/events/programm/bi_instrumenty_v_rossii__poslednie_trendy.shtml
3. Задачи Wikimart
Что
•BI задачи
•Веб аналитика (внутреннее решение)
•Рекомендации на сайте
•Сервисы для маркетинга
Кто
•Аналитический отдел
•Аналитики других отделов
•IT
6. Наша идея
Новая платформа только для “больших”
задач
•Исследовать Map Reduce ПО
•Первый пациент – алгоритмы рекомендаций
Сложности
- нет бюджета -> Hadoop бесплатен
- нет экспертов -> изучили
- нет железа -> виртуальный кластер
7. Требования
• Масштабируемость
• Инсталляция
• Интеграция
• Без Java
• SQL запросы
9. Результаты
Рекомендации
•Коллаборативная фильтрация (веб данные, PIG)
•Товары аналоги (атрибуты товаров, PIG)
•Популярные товары (веб данные, HiveQL)
•Поисковые рекомендации (HiveQL)
1 год эксплуатации
•>10% доходов
•3 месяца на запуск
•Десятки гигабайт обрабатываются за 2 часа
•1 авария из-за полного отключения питания
Решение: Вложить деньги в железо
11. Интеграция данных
• SQOOP
• Параллельный обмен с RDBMS
(MS SQL, MySQL, Oracle, Teradata… )
• Инкрементальное обновление
• HDFS, Hive, HBASE
• Talend Open Studio
12. Hadoop и RDBMS
• Не заменят RDBMS:
• Задержка
• Слабые возможности HiveQL отн. SQL
• Задачи по оффлайн вычислениям:
• Машинное обучение
• Запросы к «большим» таблицам
• ….
• Онлайн запросы: NOSQL
14. Выводы
• Hadoop это не квантовая физика
• Вычислительные данные могут быть большими
Starter kit
• Система управления Hadoop
• Виртуальное железо (облако и т.д.)
• Оффлайн вычисления
• Pig или HiveQL
• Sqoop: импорт/экспорт данных из БД