Introductory Keynote at Hadoop Workshop by Ospcon (2014)

ЭКОСИСТЕМЫHADOOP
Становление и тенденции коммерциализации

ЭКОСИСТЕМА?
«Экосистема» как архитектура конкретных решений, использующих Hadoop
Тиражируемые ИТ-решения, связанные с Hadoop
«Экосистема» программных продуктов, стыкующихсяс Hadoop(как проектов фонда Apache, так и сторонних)
Готовые сборки «экосистем» – дистриубитвы Hadoop
Готовые услуги по предоставлению «экосистем» – «Hadoopкак услуга»
Готовые аппаратно- программные «экосистемы»

HADOOPИ СВЯЗАННЫЕ ПРОЕКТЫ
Проекты Apache
Сторонние проекты

HADOOP2.0 КАК ВЕХА В СТАНОВЛЕНИИ ЭКОСИСТЕМЫ
YARN[yet another resource negotiator]
От MapReduceотделена логика управления ресурсами и планирования заданий
Мультиарендностьв одном кластере
YARN –«кластерная операционная система»
Изображения: ©2014, Hortonworks

“ЭКОСИСТЕМА” ПРОЕКТОВ
HDFS
GlusterFS
Ceph
YARN
MapReduce
(пакетная обработка)
Tez
(интерактивная обработка)
Amazon S3
CloudStore
Swift
Pig
(сценарии)
Hive
(запросы)
HBase
(NoSQL)
Impala
(SQL)
Drill
(аналог Dremel)
Mahout
(машинное обучение)
Zookeeper
(координатор)
Ambari
(управление)
Hue
(ClouderaManager)
Ganglia
(монитор)
Spark(оперативная обработка)
Storm
(поточная обработка)
Kafka
(брокер сообщений)
Oozie
(workflow)
Sqoop
(пакетная загрука)
Flume
(поточная загрузка)
Hama
(машинное обучение)
Taychon(in-memory data grid)
Azure Blob Storage
файловые системы
объектные хранилища
обработчики
СУБД-сервис
глубинный анализ
связующие
управляющие
Сторонние проекты
ЯдроHadoop
Проекты Фонда Apache
BigTop
(сборка пакетов)

©2014, Arian Nawa
ВЗГЛЯД НА ЭКОСИСТЕМУ КАК КОНГЛОМЕРАТ ПРОЕКТОВ (АРИАННАВА)

ДИСТРИБУТИВЫ HADOOP

Рынок дистрибутивов Hadoop
ДИСТРИБУТИВЫ-ЛИДЕРЫ
Cloudera
Oracle Big Data Appliance
EMC Isilon
MapR
Amazon EMR
Pivotal GreenplumHD(первая версия)
Hortonworks
Teradata
MircosoftWindows и Azure
Изображение: ©2013, Altoros

ДРУГИЕ ДИСТРИБУТИВЫ И «ПРЕДДИСТРИБУТИВЫ»
IBM
выпускается
EMC (Pivotal)
выпускается
Intel
закрыт(в пользу Cloudera)
Yahoo
закрыт [в пользу Hortonworks]
Дистрибутивы Linux
Red Hat,Fedora, CentOS
SuSE
Debian, Ubuntu
Apache BigTop
.rpm
.deb
рецепты для Vagrant, docker…

HADOOPКАК УСЛУГА
Hadoopв публичных облаках

ОСНОВНЫЕ ПРОВАЙДЕРЫ
•На базе MapR
•Интегрирован с S3
AmazonElastic MapReduce
•На базе Hortonworks
•Интегрирован с SwiftFS
Rackspace
•На базе Hortonworks
Microsoft Azure
•BigInsights
IBM Bluemix

HADOOP- КОМПЛЕКСЫ
Тиражируемые интегрированные аппаратно- программные комплексы с Hadoop

КОМПЛЕКСЫ
Hadoopна «голом железе»
Oracle Big Data Appliance
Teradata HadoopAppliance
EMC/PivotalGreenplumHD
Конвергентные комплексы
VCE [Cisco –Vmware–EMC]
FlexPod[Cisco –… –NetApp]
IBM/LenovoPure for Hadoop

КАРТИНЫ МИРА ОТ DATAMEER
…названные «экосистема Hadoop»

HADOOP ECOSYSTEM
as of January, 2012
Изображение: ©2012, Datameer

Изображение: ©2014, Forrester Research
… И «ВОЛНЫ» FORRESTER(I КВАРТАЛ 2014)

АРХИТЕКТУРНЫЕ РЕШЕНИЯ

Λ-АРХИТЕКТУРА
Все данные
Свежие данные
Предобработанныеданные
слой раздачи
…
пакетный слой
быстрый слой
Данные реального времени
Поток данных
Инкремент данных
Комплексный агрегат
Частичный агрегат
Частичный агрегат
Пакетные представления
Представление реального времени
MapReduce
Storm
HDFS
Flume
Flume
HBase
Свежие данные подпадают одновременно в слои пакетной и быстрой обработки и комбинируются в отдельном слое раздачи

SPARK
Самый активный свободный проект в области больших данных
file= spark.textFile("hdfs://...")
file.flatMap(lambdaline: line.split())
.map(lambdaword: (word, 1))
.reduceByKey(lambdaa, b: a+b)
Фреймворк для оперативной распределённой обработки с предопределёнными примитивами для циклической обработки и обработки в оперативной памяти
Изображение: ©2014, Apache Software Foundation
Shark
SparkSQL
Spark streaming
MLib
GraphX
Проекты над Spark:

SQL НАД HADOOP
Изображение: ©2014, GigaomResearch
Федераторы
Teradata SQL-H
GreenplumHawk
Встраиваемые в «экосистему» (YARN)
ClouderaImpala
Hadapt(поглощена Teradata)
SQL над Apache Spark
Shark
Spark SQL
В развитие Hive
HortonworksStinger
Facebook Presto
«Появление решений, обеспечивающих выполнение ANSI SQL над Hadoop
создало непосредственную возможность признания Hadoopуже в 2015 году как практической платформы данных для широкого круга организаций»
Forrester Research, ноябрь 2014

Applicance
Программно- аппаратный комплекс
Комплекс
Bare-metal
«Голое железо»
Box
Узел
Chunk
Блок данных
Commodity hardware
Оборудование массового класса
Curring
Каррирование
A…J
Data node
Узел данных
Deployment
Развёртывание
Direct- attached storage
Устройство хранения прямого подключения
Engine
Механизм
Движок
Job
Задание
Job tracker
Трекерзаданий

Machine
Машина
Map
[?]
Mapper
[?]
Mapping
Соответствие
Master node
Главный узел
Multi- tennancy
Мульти- арендность
M…R
Name node
Узел имён
Namespace
Пространство имён
Node
Узел
Realtime
…реального времени
Reduce
Свёртка
Сведение
Reducer
Свёртка

S…W
Shard
Узел [распределённого хранения]
Shuffle
Тасовка
Slave node
Подчинённый узел
Slot
Слот
Stack
Стек
Task
Задача
Task tracker
Трекерзадач
Trail
След
Worker
Исполнитель
Worker node
Узел исполнения
Workflow
Поток операций
Workload
Нагрузка

СПАСИБО ЗА ВНИМАНИЕ!
mailto:anikolaenko@ibs.ru

Introductory Keynote at Hadoop Workshop by Ospcon (2014)

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (14)

Similaire à Introductory Keynote at Hadoop Workshop by Ospcon (2014)

Similaire à Introductory Keynote at Hadoop Workshop by Ospcon (2014) (20)

Plus de Andrei Nikolaenko

Plus de Andrei Nikolaenko (12)

Introductory Keynote at Hadoop Workshop by Ospcon (2014)