SlideShare une entreprise Scribd logo
1  sur  26
Télécharger pour lire hors ligne
ЭКОСИСТЕМЫHADOOP 
Становление и тенденции коммерциализации
ЭКОСИСТЕМА? 
«Экосистема» как архитектура конкретных решений, использующих Hadoop 
Тиражируемые ИТ-решения, связанные с Hadoop 
«Экосистема» программных продуктов, стыкующихсяс Hadoop(как проектов фонда Apache, так и сторонних) 
Готовые сборки «экосистем» – дистриубитвы Hadoop 
Готовые услуги по предоставлению «экосистем» – «Hadoopкак услуга» 
Готовые аппаратно- программные «экосистемы»
HADOOPИ СВЯЗАННЫЕ ПРОЕКТЫ 
Проекты Apache 
Сторонние проекты
HADOOP2.0 КАК ВЕХА В СТАНОВЛЕНИИ ЭКОСИСТЕМЫ 
YARN[yet another resource negotiator] 
От MapReduceотделена логика управления ресурсами и планирования заданий 
Мультиарендностьв одном кластере 
YARN –«кластерная операционная система» 
Изображения: ©2014, Hortonworks
“ЭКОСИСТЕМА” ПРОЕКТОВ 
HDFS 
GlusterFS 
Ceph 
YARN 
MapReduce 
(пакетная обработка) 
Tez 
(интерактивная обработка) 
Amazon S3 
CloudStore 
Swift 
Pig 
(сценарии) 
Hive 
(запросы) 
HBase 
(NoSQL) 
Impala 
(SQL) 
Drill 
(аналог Dremel) 
Mahout 
(машинное обучение) 
Zookeeper 
(координатор) 
Ambari 
(управление) 
Hue 
(ClouderaManager) 
Ganglia 
(монитор) 
Spark(оперативная обработка) 
Storm 
(поточная обработка) 
Kafka 
(брокер сообщений) 
Oozie 
(workflow) 
Sqoop 
(пакетная загрука) 
Flume 
(поточная загрузка) 
Hama 
(машинное обучение) 
Taychon(in-memory data grid) 
Azure Blob Storage 
файловые системы 
объектные хранилища 
обработчики 
СУБД-сервис 
глубинный анализ 
связующие 
управляющие 
Сторонние проекты 
ЯдроHadoop 
Проекты Фонда Apache 
BigTop 
(сборка пакетов)
©2014, Arian Nawa 
ВЗГЛЯД НА ЭКОСИСТЕМУ КАК КОНГЛОМЕРАТ ПРОЕКТОВ (АРИАННАВА)
ДИСТРИБУТИВЫ HADOOP
Рынок дистрибутивов Hadoop 
ДИСТРИБУТИВЫ-ЛИДЕРЫ 
Cloudera 
Oracle Big Data Appliance 
EMC Isilon 
MapR 
Amazon EMR 
Pivotal GreenplumHD(первая версия) 
Hortonworks 
Teradata 
MircosoftWindows и Azure 
Изображение: ©2013, Altoros
ДРУГИЕ ДИСТРИБУТИВЫ И «ПРЕДДИСТРИБУТИВЫ» 
IBM 
выпускается 
EMC (Pivotal) 
выпускается 
Intel 
закрыт(в пользу Cloudera) 
Yahoo 
закрыт [в пользу Hortonworks] 
Дистрибутивы Linux 
Red Hat,Fedora, CentOS 
SuSE 
Debian, Ubuntu 
Apache BigTop 
.rpm 
.deb 
рецепты для Vagrant, docker…
HADOOPКАК УСЛУГА 
Hadoopв публичных облаках
ОСНОВНЫЕ ПРОВАЙДЕРЫ 
•На базе MapR 
•Интегрирован с S3 
AmazonElastic MapReduce 
•На базе Hortonworks 
•Интегрирован с SwiftFS 
Rackspace 
•На базе Hortonworks 
Microsoft Azure 
•BigInsights 
IBM Bluemix
HADOOP- КОМПЛЕКСЫ 
Тиражируемые интегрированные аппаратно- программные комплексы с Hadoop
КОМПЛЕКСЫ 
Hadoopна «голом железе» 
Oracle Big Data Appliance 
Teradata HadoopAppliance 
EMC/PivotalGreenplumHD 
Конвергентные комплексы 
VCE [Cisco –Vmware–EMC] 
FlexPod[Cisco –… –NetApp] 
IBM/LenovoPure for Hadoop
КАРТИНЫ МИРА ОТ DATAMEER 
…названные «экосистема Hadoop»
HADOOP ECOSYSTEM 
as of January, 2012 
Изображение: ©2012, Datameer
Изображение: ©2013, Datameer
Изображение: ©2014, Forrester Research 
… И «ВОЛНЫ» FORRESTER(I КВАРТАЛ 2014)
АРХИТЕКТУРНЫЕ РЕШЕНИЯ
Λ-АРХИТЕКТУРА 
Все данные 
Свежие данные 
Предобработанныеданные 
слой раздачи 
… 
пакетный слой 
быстрый слой 
Данные реального времени 
Поток данных 
Инкремент данных 
Комплексный агрегат 
Частичный агрегат 
Частичный агрегат 
Пакетные представления 
Представление реального времени 
MapReduce 
Storm 
HDFS 
Flume 
Flume 
HBase 
Свежие данные подпадают одновременно в слои пакетной и быстрой обработки и комбинируются в отдельном слое раздачи
SPARK 
Самый активный свободный проект в области больших данных 
file= spark.textFile("hdfs://...") 
file.flatMap(lambdaline: line.split()) 
.map(lambdaword: (word, 1)) 
.reduceByKey(lambdaa, b: a+b) 
Фреймворк для оперативной распределённой обработки с предопределёнными примитивами для циклической обработки и обработки в оперативной памяти 
Изображение: ©2014, Apache Software Foundation 
Shark 
SparkSQL 
Spark streaming 
MLib 
GraphX 
Проекты над Spark:
SQL НАД HADOOP 
Изображение: ©2014, GigaomResearch 
Федераторы 
Teradata SQL-H 
GreenplumHawk 
Встраиваемые в «экосистему» (YARN) 
ClouderaImpala 
Hadapt(поглощена Teradata) 
SQL над Apache Spark 
Shark 
Spark SQL 
В развитие Hive 
HortonworksStinger 
Facebook Presto 
«Появление решений, обеспечивающих выполнение ANSI SQL над Hadoop 
создало непосредственную возможность признания Hadoopуже в 2015 году как практической платформы данных для широкого круга организаций» 
Forrester Research, ноябрь 2014
ГЛОССАРИЙ
Applicance 
Программно- аппаратный комплекс 
Комплекс 
Bare-metal 
«Голое железо» 
Box 
Узел 
Chunk 
Блок данных 
Commodity hardware 
Оборудование массового класса 
Curring 
Каррирование 
A…J 
Data node 
Узел данных 
Deployment 
Развёртывание 
Direct- attached storage 
Устройство хранения прямого подключения 
Engine 
Механизм 
Движок 
Job 
Задание 
Job tracker 
Трекерзаданий
Machine 
Машина 
Map 
[?] 
Mapper 
[?] 
Mapping 
Соответствие 
Master node 
Главный узел 
Multi- tennancy 
Мульти- арендность 
M…R 
Name node 
Узел имён 
Namespace 
Пространство имён 
Node 
Узел 
Realtime 
…реального времени 
Reduce 
Свёртка 
Сведение 
Reducer 
Свёртка
S…W 
Shard 
Узел [распределённого хранения] 
Shuffle 
Тасовка 
Slave node 
Подчинённый узел 
Slot 
Слот 
Stack 
Стек 
Task 
Задача 
Task tracker 
Трекерзадач 
Trail 
След 
Worker 
Исполнитель 
Worker node 
Узел исполнения 
Workflow 
Поток операций 
Workload 
Нагрузка
СПАСИБО ЗА ВНИМАНИЕ! 
mailto:anikolaenko@ibs.ru

Contenu connexe

En vedette

Выступление Александра Крота из "Вымпелком" на Hadoop Meetup в рамках RIT++
Выступление Александра Крота из "Вымпелком" на Hadoop Meetup в рамках RIT++Выступление Александра Крота из "Вымпелком" на Hadoop Meetup в рамках RIT++
Выступление Александра Крота из "Вымпелком" на Hadoop Meetup в рамках RIT++Антон Шестаков
 
Interactive Graph Analytics with Spark-(Daniel Darabos, Lynx Analytics)
Interactive Graph Analytics with Spark-(Daniel Darabos, Lynx Analytics)Interactive Graph Analytics with Spark-(Daniel Darabos, Lynx Analytics)
Interactive Graph Analytics with Spark-(Daniel Darabos, Lynx Analytics)Spark Summit
 
Мастер-класс по BigData Tools для HappyDev'15
Мастер-класс по BigData Tools для HappyDev'15Мастер-класс по BigData Tools для HappyDev'15
Мастер-класс по BigData Tools для HappyDev'15Alexey Zinoviev
 
Community detection (Поиск сообществ в графах)
Community detection (Поиск сообществ в графах)Community detection (Поиск сообществ в графах)
Community detection (Поиск сообществ в графах)Kirill Rybachuk
 
GraphFrames: Graph Queries In Spark SQL
GraphFrames: Graph Queries In Spark SQLGraphFrames: Graph Queries In Spark SQL
GraphFrames: Graph Queries In Spark SQLSpark Summit
 
Using spark for timeseries graph analytics
Using spark for timeseries graph analyticsUsing spark for timeseries graph analytics
Using spark for timeseries graph analyticsSigmoid
 
Building a Graph of all US Businesses Using Spark Technologies by Alexis Roos
Building a Graph of all US Businesses Using Spark Technologies by Alexis RoosBuilding a Graph of all US Businesses Using Spark Technologies by Alexis Roos
Building a Graph of all US Businesses Using Spark Technologies by Alexis RoosSpark Summit
 
Graphs are everywhere! Distributed graph computing with Spark GraphX
Graphs are everywhere! Distributed graph computing with Spark GraphXGraphs are everywhere! Distributed graph computing with Spark GraphX
Graphs are everywhere! Distributed graph computing with Spark GraphXAndrea Iacono
 
Лекция 12. Spark
Лекция 12. SparkЛекция 12. Spark
Лекция 12. SparkTechnopark
 
Big Graph Analytics on Neo4j with Apache Spark
Big Graph Analytics on Neo4j with Apache SparkBig Graph Analytics on Neo4j with Apache Spark
Big Graph Analytics on Neo4j with Apache SparkKenny Bastani
 
GraphFrames: Graph Queries in Spark SQL by Ankur Dave
GraphFrames: Graph Queries in Spark SQL by Ankur DaveGraphFrames: Graph Queries in Spark SQL by Ankur Dave
GraphFrames: Graph Queries in Spark SQL by Ankur DaveSpark Summit
 
Credit Fraud Prevention with Spark and Graph Analysis
Credit Fraud Prevention with Spark and Graph AnalysisCredit Fraud Prevention with Spark and Graph Analysis
Credit Fraud Prevention with Spark and Graph AnalysisJen Aman
 
Graph Analytics in Spark
Graph Analytics in SparkGraph Analytics in Spark
Graph Analytics in SparkPaco Nathan
 
Multiplatform Spark solution for Graph datasources by Javier Dominguez
Multiplatform Spark solution for Graph datasources by Javier DominguezMultiplatform Spark solution for Graph datasources by Javier Dominguez
Multiplatform Spark solution for Graph datasources by Javier DominguezBig Data Spain
 

En vedette (14)

Выступление Александра Крота из "Вымпелком" на Hadoop Meetup в рамках RIT++
Выступление Александра Крота из "Вымпелком" на Hadoop Meetup в рамках RIT++Выступление Александра Крота из "Вымпелком" на Hadoop Meetup в рамках RIT++
Выступление Александра Крота из "Вымпелком" на Hadoop Meetup в рамках RIT++
 
Interactive Graph Analytics with Spark-(Daniel Darabos, Lynx Analytics)
Interactive Graph Analytics with Spark-(Daniel Darabos, Lynx Analytics)Interactive Graph Analytics with Spark-(Daniel Darabos, Lynx Analytics)
Interactive Graph Analytics with Spark-(Daniel Darabos, Lynx Analytics)
 
Мастер-класс по BigData Tools для HappyDev'15
Мастер-класс по BigData Tools для HappyDev'15Мастер-класс по BigData Tools для HappyDev'15
Мастер-класс по BigData Tools для HappyDev'15
 
Community detection (Поиск сообществ в графах)
Community detection (Поиск сообществ в графах)Community detection (Поиск сообществ в графах)
Community detection (Поиск сообществ в графах)
 
GraphFrames: Graph Queries In Spark SQL
GraphFrames: Graph Queries In Spark SQLGraphFrames: Graph Queries In Spark SQL
GraphFrames: Graph Queries In Spark SQL
 
Using spark for timeseries graph analytics
Using spark for timeseries graph analyticsUsing spark for timeseries graph analytics
Using spark for timeseries graph analytics
 
Building a Graph of all US Businesses Using Spark Technologies by Alexis Roos
Building a Graph of all US Businesses Using Spark Technologies by Alexis RoosBuilding a Graph of all US Businesses Using Spark Technologies by Alexis Roos
Building a Graph of all US Businesses Using Spark Technologies by Alexis Roos
 
Graphs are everywhere! Distributed graph computing with Spark GraphX
Graphs are everywhere! Distributed graph computing with Spark GraphXGraphs are everywhere! Distributed graph computing with Spark GraphX
Graphs are everywhere! Distributed graph computing with Spark GraphX
 
Лекция 12. Spark
Лекция 12. SparkЛекция 12. Spark
Лекция 12. Spark
 
Big Graph Analytics on Neo4j with Apache Spark
Big Graph Analytics on Neo4j with Apache SparkBig Graph Analytics on Neo4j with Apache Spark
Big Graph Analytics on Neo4j with Apache Spark
 
GraphFrames: Graph Queries in Spark SQL by Ankur Dave
GraphFrames: Graph Queries in Spark SQL by Ankur DaveGraphFrames: Graph Queries in Spark SQL by Ankur Dave
GraphFrames: Graph Queries in Spark SQL by Ankur Dave
 
Credit Fraud Prevention with Spark and Graph Analysis
Credit Fraud Prevention with Spark and Graph AnalysisCredit Fraud Prevention with Spark and Graph Analysis
Credit Fraud Prevention with Spark and Graph Analysis
 
Graph Analytics in Spark
Graph Analytics in SparkGraph Analytics in Spark
Graph Analytics in Spark
 
Multiplatform Spark solution for Graph datasources by Javier Dominguez
Multiplatform Spark solution for Graph datasources by Javier DominguezMultiplatform Spark solution for Graph datasources by Javier Dominguez
Multiplatform Spark solution for Graph datasources by Javier Dominguez
 

Similaire à Introductory Keynote at Hadoop Workshop by Ospcon (2014)

Rapid Deployment of Hadoop Development Environments
Rapid Deployment of Hadoop Development EnvironmentsRapid Deployment of Hadoop Development Environments
Rapid Deployment of Hadoop Development EnvironmentsAndrei Nikolaenko
 
Лекция 2. Основы Hadoop
Лекция 2. Основы HadoopЛекция 2. Основы Hadoop
Лекция 2. Основы HadoopTechnopark
 
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...it-people
 
Spark overview (18.06.2015)
Spark overview (18.06.2015)Spark overview (18.06.2015)
Spark overview (18.06.2015)bddmoscow
 
Решения Oracle для Big Data
Решения Oracle для Big DataРешения Oracle для Big Data
Решения Oracle для Big DataAndrey Akulov
 
Fors и big data appliance
Fors и big data applianceFors и big data appliance
Fors и big data applianceCleverDATA
 
Cостав дистрибутва Hortonworks data platform 2.3
Cостав дистрибутва Hortonworks data platform 2.3Cостав дистрибутва Hortonworks data platform 2.3
Cостав дистрибутва Hortonworks data platform 2.3Евгений Плакса
 
Слоны в облаках
Слоны в облакахСлоны в облаках
Слоны в облакахPavel Mezentsev
 
Hadoop presentation
Hadoop presentationHadoop presentation
Hadoop presentationVlad Orlov
 
Платформа Apache Hadoop
Платформа Apache HadoopПлатформа Apache Hadoop
Платформа Apache HadoopDotNetConf
 
NoSQL: issues and progress, current status and prospects
NoSQL: issues and progress, current status and prospectsNoSQL: issues and progress, current status and prospects
NoSQL: issues and progress, current status and prospectsAndrei Nikolaenko
 
Машины баз данных: таксономия, анатомия, эволюция, ареал, воспроизведение / А...
Машины баз данных: таксономия, анатомия, эволюция, ареал, воспроизведение / А...Машины баз данных: таксономия, анатомия, эволюция, ареал, воспроизведение / А...
Машины баз данных: таксономия, анатомия, эволюция, ареал, воспроизведение / А...Ontico
 
1 big data oracle digi oct
1 big data oracle digi oct1 big data oracle digi oct
1 big data oracle digi octantishmanti
 
AZadonsky New Cloud Services
AZadonsky New Cloud ServicesAZadonsky New Cloud Services
AZadonsky New Cloud ServicesVasily Demin
 
Технологии и продукты Oracle для обработки и анализа Больших Данных
Технологии и продукты Oracle для обработки и анализа Больших ДанныхТехнологии и продукты Oracle для обработки и анализа Больших Данных
Технологии и продукты Oracle для обработки и анализа Больших ДанныхAndrey Akulov
 
Облачные вычисления и сервисы: классификация, основные функции и недостатки
Облачные вычисления и сервисы: классификация, основные функции и недостаткиОблачные вычисления и сервисы: классификация, основные функции и недостатки
Облачные вычисления и сервисы: классификация, основные функции и недостаткиТранслируем.бел
 
Hadoop > cascading -> cascalog (very short)
Hadoop  > cascading -> cascalog (very short)Hadoop  > cascading -> cascalog (very short)
Hadoop > cascading -> cascalog (very short)Andrew Panfilov
 
Корпоративный Linux: осваиваем с нуля Red Hat Enterprise Linux
Корпоративный Linux: осваиваем с нуля Red Hat Enterprise LinuxКорпоративный Linux: осваиваем с нуля Red Hat Enterprise Linux
Корпоративный Linux: осваиваем с нуля Red Hat Enterprise LinuxSkillFactory
 

Similaire à Introductory Keynote at Hadoop Workshop by Ospcon (2014) (20)

Rapid Deployment of Hadoop Development Environments
Rapid Deployment of Hadoop Development EnvironmentsRapid Deployment of Hadoop Development Environments
Rapid Deployment of Hadoop Development Environments
 
Лекция 2. Основы Hadoop
Лекция 2. Основы HadoopЛекция 2. Основы Hadoop
Лекция 2. Основы Hadoop
 
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
DUMP-2013 Наука и жизнь - Использование Hadoop в машинном обучении - Созыкин ...
 
Spark overview (18.06.2015)
Spark overview (18.06.2015)Spark overview (18.06.2015)
Spark overview (18.06.2015)
 
Решения Oracle для Big Data
Решения Oracle для Big DataРешения Oracle для Big Data
Решения Oracle для Big Data
 
Fors и big data appliance
Fors и big data applianceFors и big data appliance
Fors и big data appliance
 
Cостав дистрибутва Hortonworks data platform 2.3
Cостав дистрибутва Hortonworks data platform 2.3Cостав дистрибутва Hortonworks data platform 2.3
Cостав дистрибутва Hortonworks data platform 2.3
 
Слоны в облаках
Слоны в облакахСлоны в облаках
Слоны в облаках
 
OpenShift 2.2
OpenShift 2.2OpenShift 2.2
OpenShift 2.2
 
Apache Hadoop
Apache HadoopApache Hadoop
Apache Hadoop
 
Hadoop presentation
Hadoop presentationHadoop presentation
Hadoop presentation
 
Платформа Apache Hadoop
Платформа Apache HadoopПлатформа Apache Hadoop
Платформа Apache Hadoop
 
NoSQL: issues and progress, current status and prospects
NoSQL: issues and progress, current status and prospectsNoSQL: issues and progress, current status and prospects
NoSQL: issues and progress, current status and prospects
 
Машины баз данных: таксономия, анатомия, эволюция, ареал, воспроизведение / А...
Машины баз данных: таксономия, анатомия, эволюция, ареал, воспроизведение / А...Машины баз данных: таксономия, анатомия, эволюция, ареал, воспроизведение / А...
Машины баз данных: таксономия, анатомия, эволюция, ареал, воспроизведение / А...
 
1 big data oracle digi oct
1 big data oracle digi oct1 big data oracle digi oct
1 big data oracle digi oct
 
AZadonsky New Cloud Services
AZadonsky New Cloud ServicesAZadonsky New Cloud Services
AZadonsky New Cloud Services
 
Технологии и продукты Oracle для обработки и анализа Больших Данных
Технологии и продукты Oracle для обработки и анализа Больших ДанныхТехнологии и продукты Oracle для обработки и анализа Больших Данных
Технологии и продукты Oracle для обработки и анализа Больших Данных
 
Облачные вычисления и сервисы: классификация, основные функции и недостатки
Облачные вычисления и сервисы: классификация, основные функции и недостаткиОблачные вычисления и сервисы: классификация, основные функции и недостатки
Облачные вычисления и сервисы: классификация, основные функции и недостатки
 
Hadoop > cascading -> cascalog (very short)
Hadoop  > cascading -> cascalog (very short)Hadoop  > cascading -> cascalog (very short)
Hadoop > cascading -> cascalog (very short)
 
Корпоративный Linux: осваиваем с нуля Red Hat Enterprise Linux
Корпоративный Linux: осваиваем с нуля Red Hat Enterprise LinuxКорпоративный Linux: осваиваем с нуля Red Hat Enterprise Linux
Корпоративный Linux: осваиваем с нуля Red Hat Enterprise Linux
 

Plus de Andrei Nikolaenko

Байтоадресуемая энергонезависимая память и СУБД
Байтоадресуемая энергонезависимая память и СУБДБайтоадресуемая энергонезависимая память и СУБД
Байтоадресуемая энергонезависимая память и СУБДAndrei Nikolaenko
 
DB-Technologies-2017 Keynote (Strategy and tactics for db evaluation)
DB-Technologies-2017 Keynote (Strategy and tactics for db evaluation)DB-Technologies-2017 Keynote (Strategy and tactics for db evaluation)
DB-Technologies-2017 Keynote (Strategy and tactics for db evaluation)Andrei Nikolaenko
 
Нереляционный SQL
Нереляционный SQLНереляционный SQL
Нереляционный SQLAndrei Nikolaenko
 
DBMS Benchmarks in a Nutshell
DBMS Benchmarks in a Nutshell DBMS Benchmarks in a Nutshell
DBMS Benchmarks in a Nutshell Andrei Nikolaenko
 
Инструменты больших данных: от конкуренции — к интеграции
Инструменты больших данных: от конкуренции — к интеграцииИнструменты больших данных: от конкуренции — к интеграции
Инструменты больших данных: от конкуренции — к интеграцииAndrei Nikolaenko
 
Эталонные тесты производительнсоти СУБД: обзор и тенденции
Эталонные тесты производительнсоти СУБД: обзор и тенденцииЭталонные тесты производительнсоти СУБД: обзор и тенденции
Эталонные тесты производительнсоти СУБД: обзор и тенденцииAndrei Nikolaenko
 
DBMS benchmarking overview and trends for Moscow ACM SIGMOD Chapter
DBMS benchmarking overview and trends for Moscow ACM SIGMOD ChapterDBMS benchmarking overview and trends for Moscow ACM SIGMOD Chapter
DBMS benchmarking overview and trends for Moscow ACM SIGMOD ChapterAndrei Nikolaenko
 
Note on hyperconvered infrastructure on CIPR
Note on hyperconvered infrastructure on CIPR Note on hyperconvered infrastructure on CIPR
Note on hyperconvered infrastructure on CIPR Andrei Nikolaenko
 
SQL+NoSQL: On the Way to Converged Data Management Platforms
SQL+NoSQL: On the Way to Converged Data Management PlatformsSQL+NoSQL: On the Way to Converged Data Management Platforms
SQL+NoSQL: On the Way to Converged Data Management PlatformsAndrei Nikolaenko
 
Cloud Databases, ACM SIGMOD Moscow Workshop, November, 2013
Cloud Databases, ACM SIGMOD Moscow Workshop, November, 2013Cloud Databases, ACM SIGMOD Moscow Workshop, November, 2013
Cloud Databases, ACM SIGMOD Moscow Workshop, November, 2013Andrei Nikolaenko
 
IBS at IBM Fast Data (Moscow, 2014)
IBS at IBM Fast Data (Moscow, 2014)IBS at IBM Fast Data (Moscow, 2014)
IBS at IBM Fast Data (Moscow, 2014)Andrei Nikolaenko
 

Plus de Andrei Nikolaenko (12)

Байтоадресуемая энергонезависимая память и СУБД
Байтоадресуемая энергонезависимая память и СУБДБайтоадресуемая энергонезависимая память и СУБД
Байтоадресуемая энергонезависимая память и СУБД
 
DB-Technologies-2017 Keynote (Strategy and tactics for db evaluation)
DB-Technologies-2017 Keynote (Strategy and tactics for db evaluation)DB-Technologies-2017 Keynote (Strategy and tactics for db evaluation)
DB-Technologies-2017 Keynote (Strategy and tactics for db evaluation)
 
Нереляционный SQL
Нереляционный SQLНереляционный SQL
Нереляционный SQL
 
DBMS Benchmarks in a Nutshell
DBMS Benchmarks in a Nutshell DBMS Benchmarks in a Nutshell
DBMS Benchmarks in a Nutshell
 
Инструменты больших данных: от конкуренции — к интеграции
Инструменты больших данных: от конкуренции — к интеграцииИнструменты больших данных: от конкуренции — к интеграции
Инструменты больших данных: от конкуренции — к интеграции
 
Эталонные тесты производительнсоти СУБД: обзор и тенденции
Эталонные тесты производительнсоти СУБД: обзор и тенденцииЭталонные тесты производительнсоти СУБД: обзор и тенденции
Эталонные тесты производительнсоти СУБД: обзор и тенденции
 
DBMS benchmarking overview and trends for Moscow ACM SIGMOD Chapter
DBMS benchmarking overview and trends for Moscow ACM SIGMOD ChapterDBMS benchmarking overview and trends for Moscow ACM SIGMOD Chapter
DBMS benchmarking overview and trends for Moscow ACM SIGMOD Chapter
 
Note on hyperconvered infrastructure on CIPR
Note on hyperconvered infrastructure on CIPR Note on hyperconvered infrastructure on CIPR
Note on hyperconvered infrastructure on CIPR
 
SQL+NoSQL: On the Way to Converged Data Management Platforms
SQL+NoSQL: On the Way to Converged Data Management PlatformsSQL+NoSQL: On the Way to Converged Data Management Platforms
SQL+NoSQL: On the Way to Converged Data Management Platforms
 
DBMS benchmarking overview
DBMS benchmarking overviewDBMS benchmarking overview
DBMS benchmarking overview
 
Cloud Databases, ACM SIGMOD Moscow Workshop, November, 2013
Cloud Databases, ACM SIGMOD Moscow Workshop, November, 2013Cloud Databases, ACM SIGMOD Moscow Workshop, November, 2013
Cloud Databases, ACM SIGMOD Moscow Workshop, November, 2013
 
IBS at IBM Fast Data (Moscow, 2014)
IBS at IBM Fast Data (Moscow, 2014)IBS at IBM Fast Data (Moscow, 2014)
IBS at IBM Fast Data (Moscow, 2014)
 

Introductory Keynote at Hadoop Workshop by Ospcon (2014)

  • 1. ЭКОСИСТЕМЫHADOOP Становление и тенденции коммерциализации
  • 2. ЭКОСИСТЕМА? «Экосистема» как архитектура конкретных решений, использующих Hadoop Тиражируемые ИТ-решения, связанные с Hadoop «Экосистема» программных продуктов, стыкующихсяс Hadoop(как проектов фонда Apache, так и сторонних) Готовые сборки «экосистем» – дистриубитвы Hadoop Готовые услуги по предоставлению «экосистем» – «Hadoopкак услуга» Готовые аппаратно- программные «экосистемы»
  • 3. HADOOPИ СВЯЗАННЫЕ ПРОЕКТЫ Проекты Apache Сторонние проекты
  • 4. HADOOP2.0 КАК ВЕХА В СТАНОВЛЕНИИ ЭКОСИСТЕМЫ YARN[yet another resource negotiator] От MapReduceотделена логика управления ресурсами и планирования заданий Мультиарендностьв одном кластере YARN –«кластерная операционная система» Изображения: ©2014, Hortonworks
  • 5. “ЭКОСИСТЕМА” ПРОЕКТОВ HDFS GlusterFS Ceph YARN MapReduce (пакетная обработка) Tez (интерактивная обработка) Amazon S3 CloudStore Swift Pig (сценарии) Hive (запросы) HBase (NoSQL) Impala (SQL) Drill (аналог Dremel) Mahout (машинное обучение) Zookeeper (координатор) Ambari (управление) Hue (ClouderaManager) Ganglia (монитор) Spark(оперативная обработка) Storm (поточная обработка) Kafka (брокер сообщений) Oozie (workflow) Sqoop (пакетная загрука) Flume (поточная загрузка) Hama (машинное обучение) Taychon(in-memory data grid) Azure Blob Storage файловые системы объектные хранилища обработчики СУБД-сервис глубинный анализ связующие управляющие Сторонние проекты ЯдроHadoop Проекты Фонда Apache BigTop (сборка пакетов)
  • 6. ©2014, Arian Nawa ВЗГЛЯД НА ЭКОСИСТЕМУ КАК КОНГЛОМЕРАТ ПРОЕКТОВ (АРИАННАВА)
  • 8. Рынок дистрибутивов Hadoop ДИСТРИБУТИВЫ-ЛИДЕРЫ Cloudera Oracle Big Data Appliance EMC Isilon MapR Amazon EMR Pivotal GreenplumHD(первая версия) Hortonworks Teradata MircosoftWindows и Azure Изображение: ©2013, Altoros
  • 9. ДРУГИЕ ДИСТРИБУТИВЫ И «ПРЕДДИСТРИБУТИВЫ» IBM выпускается EMC (Pivotal) выпускается Intel закрыт(в пользу Cloudera) Yahoo закрыт [в пользу Hortonworks] Дистрибутивы Linux Red Hat,Fedora, CentOS SuSE Debian, Ubuntu Apache BigTop .rpm .deb рецепты для Vagrant, docker…
  • 10. HADOOPКАК УСЛУГА Hadoopв публичных облаках
  • 11. ОСНОВНЫЕ ПРОВАЙДЕРЫ •На базе MapR •Интегрирован с S3 AmazonElastic MapReduce •На базе Hortonworks •Интегрирован с SwiftFS Rackspace •На базе Hortonworks Microsoft Azure •BigInsights IBM Bluemix
  • 12. HADOOP- КОМПЛЕКСЫ Тиражируемые интегрированные аппаратно- программные комплексы с Hadoop
  • 13. КОМПЛЕКСЫ Hadoopна «голом железе» Oracle Big Data Appliance Teradata HadoopAppliance EMC/PivotalGreenplumHD Конвергентные комплексы VCE [Cisco –Vmware–EMC] FlexPod[Cisco –… –NetApp] IBM/LenovoPure for Hadoop
  • 14. КАРТИНЫ МИРА ОТ DATAMEER …названные «экосистема Hadoop»
  • 15. HADOOP ECOSYSTEM as of January, 2012 Изображение: ©2012, Datameer
  • 17. Изображение: ©2014, Forrester Research … И «ВОЛНЫ» FORRESTER(I КВАРТАЛ 2014)
  • 19. Λ-АРХИТЕКТУРА Все данные Свежие данные Предобработанныеданные слой раздачи … пакетный слой быстрый слой Данные реального времени Поток данных Инкремент данных Комплексный агрегат Частичный агрегат Частичный агрегат Пакетные представления Представление реального времени MapReduce Storm HDFS Flume Flume HBase Свежие данные подпадают одновременно в слои пакетной и быстрой обработки и комбинируются в отдельном слое раздачи
  • 20. SPARK Самый активный свободный проект в области больших данных file= spark.textFile("hdfs://...") file.flatMap(lambdaline: line.split()) .map(lambdaword: (word, 1)) .reduceByKey(lambdaa, b: a+b) Фреймворк для оперативной распределённой обработки с предопределёнными примитивами для циклической обработки и обработки в оперативной памяти Изображение: ©2014, Apache Software Foundation Shark SparkSQL Spark streaming MLib GraphX Проекты над Spark:
  • 21. SQL НАД HADOOP Изображение: ©2014, GigaomResearch Федераторы Teradata SQL-H GreenplumHawk Встраиваемые в «экосистему» (YARN) ClouderaImpala Hadapt(поглощена Teradata) SQL над Apache Spark Shark Spark SQL В развитие Hive HortonworksStinger Facebook Presto «Появление решений, обеспечивающих выполнение ANSI SQL над Hadoop создало непосредственную возможность признания Hadoopуже в 2015 году как практической платформы данных для широкого круга организаций» Forrester Research, ноябрь 2014
  • 23. Applicance Программно- аппаратный комплекс Комплекс Bare-metal «Голое железо» Box Узел Chunk Блок данных Commodity hardware Оборудование массового класса Curring Каррирование A…J Data node Узел данных Deployment Развёртывание Direct- attached storage Устройство хранения прямого подключения Engine Механизм Движок Job Задание Job tracker Трекерзаданий
  • 24. Machine Машина Map [?] Mapper [?] Mapping Соответствие Master node Главный узел Multi- tennancy Мульти- арендность M…R Name node Узел имён Namespace Пространство имён Node Узел Realtime …реального времени Reduce Свёртка Сведение Reducer Свёртка
  • 25. S…W Shard Узел [распределённого хранения] Shuffle Тасовка Slave node Подчинённый узел Slot Слот Stack Стек Task Задача Task tracker Трекерзадач Trail След Worker Исполнитель Worker node Узел исполнения Workflow Поток операций Workload Нагрузка
  • 26. СПАСИБО ЗА ВНИМАНИЕ! mailto:anikolaenko@ibs.ru