Petit-Déjeuner OCTO / Cloudera "Tout pour réussir votre premier projet Hadoop et passer à l’échelle industrielle"

1
© OCTO 2013© OCTO 2012© OCTO 2013
Réussir votre premier projet
Hadoop et passer à l’échelle
En partenariat avec

2
© OCTO 2013
OCTO et le Big Data
Une offre cohérente entre technologie et analyse prédictive
CONSEIL EN SI BIG DATA
 Etude et positionnement des solutions
en fonction de votre contexte
 Transformation de SI Décisionnel vers le
Big Data
 Cadrage de projets Big Data
ARCHITECTURE DES SYSTÈMES BIG DATA
 POC sur Hadoop et NoSQL
 Conception et réalisation de systèmes
sous Hadoop et NoSQL
 Formation Hadoop
CONSEIL EN ANALYSE DE DONNÉES AVANCÉES
 Benchmarks de projets Big Data par
secteur
 Formation des équipes de datamining
aux techniques Big Data
 Accompagnent des projets pilote
métiers
COLLECTE DE DONNÉES EXTERNES
 Identification de sources de données
 Collecte et traitements de données non
structurées
 Recherche de corrélations économiques
DIRECTION SI DIRECTION MÉTIER

3
© OCTO 2013
Une équipe dédiée, composée de
Experts et architectes sur les clusters de stockage et de calcul
Statisticiens et consultants en machine learning
Une R&D spécifique sur Hadoop, NoSQL et le machine learning
Des relations très approfondies avec les équipes R&D de nos
partenaires
Cloudera
10Gen Mongodb
Datastax Cassandra
L’équipe OCTO Big Data Analytics

4
© OCTO 2013
Intervenants
Julien CABOT
Directeur Big Data Analytics
OCTO
jcabot@octo.com
Graham Gear
Systems Engineer
Cloudera
graham@cloudera.com
Rémy SAISSY
Architecte, expert Hadoop
OCTO
rsaissy@octo.com

5
© OCTO 2013
Introduction à Big Data et Hadoop
Comment fournir une solution business de bout en bout avec
Hadoop?
Questions/réponses
10 Best practices pour dimensionner et configurer un cluster
Hadoop
4 - Hadoop CDH4 sous YARN dans les coms. Retour
d' rience
Questions/réponses
Quoi de neuf dans la Cloudera CDH en 2013?
Retour d’expérience aux US
Questions/réponses
Agenda

6
© OCTO 2013© OCTO 2012© OCTO 2013
Big Data et Hadoop

7
© OCTO 2013
Un concept devenant une réalité pour les entreprises
Des réflexions et prototypes activés dans les entreprises françaises
Big Data, une écosystème multiple
Web
Google, Amazon,
Facebook, Twitter,
…
Logiciel IT
IBM, Teradata,
Vmware, EMC,
…
Management
McKinsey,
BCG, Deloitte,
…

8
© OCTO 2013
Il n’existe pas aujourd’hui de définition claire de Big Data
Il s’agit à la fois
d’une ambition métier et d’une opportunité technologique
Définir Big Data
Super datawarehouse?
Stockage low cost?
NoSQL?
Cloud?
Internet Intelligence?
Analyse en temps
réel?
Non structuré? Open Data?

9
© OCTO 2013
Big Data, une ambition stratégique
Big data est l’ambition de tirer un
avantage économique
de
l’analyse quantitative des
données
internes et externes de l’entreprise

10
© OCTO 2013
Quelques usages de Big Data dans les entreprises
Marketing
comportemental
des clients retails
bancaire
• Analyse des opérations de
gestion (CRE) bancaires
pour déterminer une
segmentation marketing
basée sur le
comportement des clients
retails et non sur une
segmentation par foyer
fiscal
• Recommandations de
produits financiers
Analyse prédictive
IARD exploitant
les tendances des
communautés
Web
• Identifier des corrélations
entre les sujets d’intérêts
des communautés (
patients, auto, habitation,
épargne, …) et les
sinistres
• Enrichir les modèles de
datamining avec des
indicateurs exogènes
reflétant les facteurs
psycho sociaux
Off loading des
entrepôts de
données
• Réduire les coûts de
stockage des
datawarehouses par 100
en déchargeant
partiellement les systèmes
Oracle ou Teradata vers
Hadoop
• Tirer profit d’une
architecture cloud
privé/hybride, élastique à
la demande

11
© OCTO 2013
Big Data, un univers technologique pour construire
des systèmes à haute performance
Application
orientée Flux
évènementiel
Application orientée
Transaction
Stockage
Calculs
Univers
« standard »
SGBDR,
Serveur d’application,
ETL, ESB
Au-delà de 10 To en ligne, les
architectures « classiques »
nécessitent des adaptations
logiques et matérielles très
importantes.
Au-delà de 1 000
transactions/seconde, les
architectures « classiques » des
adaptations logiques et
matérielles très importantes
Au-delà de 10 threads/Core
CPU, la programmation
séquentielle classique atteint
ses limites (I/O).
Au-delà de 1 000
évènements/seconde, les
architectures « classiques »
nécessitent des adaptations
logiques et matérielles très
importantes.
Stockage
distribué
Share
nothing
XTP
Programmation
parallèle
Event Stream
Processing

12
© OCTO 2013
Evolution non uniforme de la capacité et du débit des
disques
0
10
20
30
40
50
60
70
Débit(MB/s)
Gain : x91
64 MB/s
0,7 MB/s
Seagate
Barracuda
7200.10
Seagate
Barracuda
ATA IV
IBM DTTA
35010
Gain : x100 000
1990 2010
La croissance du débit reste très inférieure de celle de la capacité

13
© OCTO 2013
Une limite structurelle à la loi
de Moore!
Latences des composants technologiques
L’architecture client-serveur traditionnelle doit évoluer pour continuer
à suivre la loi de Moore

14
© OCTO 2013
Evolution des architectures pour dépasser
cette limite structurelle
Architecture In Memory
• Réduire la latence en utilisant
des supports plus rapides
(DRAM, SSD)
• Bénéficier de l’évolution des
capacités des composants
• La limite structurelle n’est pas
que déplacée
• Pour évoluer, l’architecture doit
devenir une grille In Memory
Architecture en grille
• Paralléliser les accès I/O en
divisant les volumes (sharding)
• Bénéficier du différentiel de
coût entre commodity
hardware et haut de gamme
• Le réseau de la grille devient
un composant
principal, nécessitant co-
localisation des données et
des traitements
• Permet de scaler à l’infini, c’est
le Warehouse scale
computing!

15
© OCTO 2013
Hadoop dans l’univers Big
data
Application
orientée Flux
évènementiels
Transactions
Stockage
Calculs
Parrallel database
NoSQL
NewSQL
CEP, ESP Hadoop
HDFS
MapReduce
Projets
associés
Cassandra
Pig
Hive
Chuckwa
Hbase
Mahout
Pig
ZooKeeper
In Memory

16
© OCTO 2013
Hadoop s’impose comme une architecture
de référence sur le marché
• Apache Hadoop
Open Source
• Cloudera CDH
• Hortonworks
• MapR
• DataStax (Brisk)
COTS
• Greenplum (EMC)
• IBM InfoSphere BigInsights (CDH)
• Oracle Big data appliance (CDH)
• NetApp Analytics (CDH)
• …
Editeurs
• Amazon EMR (MapR)
• VirtualScale (CDH)
Cloud

17
© OCTO 2013© OCTO 2012© OCTO 2013
Comment fournir une solution business
de bout en bout avec Hadoop ?

18
© OCTO 2013
Hadoop, un écosystème riche
et complexe

19
© OCTO 2013
Stockage de fichiers plus volumineux qu’un unique disque
Répartition des données sur plusieurs machines
Réplication des données pour assurer le « fail-over » : « rack
awareness »
Hadoop Distributed File System
(HDFS)

20
© OCTO 2013
Paralléliser et distribuer les traitements
Traiter plus rapidement des volumes de données unitaires plus faibles
Co-localiser traitements / données
MapReduce, le système de
traitement

21
© OCTO 2013
Hadoop est à la fois
Un système de stockage distribué pour les grands fichiers (N x 64
Mo)
Un système d’agrégation et de traitement parallèle en mode batch
à la demande, reposant sur la grille de stockage
Hadoop n’est pas aujourd’hui
Un système d’accès à la donnée unitaire (random access)
Un système temps réel, mais batch à la demande
Un outils de visualisation graphique des données
Une librairie de traitements statistiques et text mining finalisée
Mahout, Hama fournissent des algorithmes parallèles
Hadoop nécessite des composants externes pour compléter le
puzzle
Les mythes et réalités sur Hadoop

22
© OCTO 2013
Data lab
Offloading d’entrepôts/appliance
Traitement de flux d’informations (Hadoop as
an ELT)
Grille de calculs
Machine learning temps réel (Online learning)
Quels composants? Pour faire quoi?

23
© OCTO 2013
Le puzzle complet (une vision)
HDFS
MapReduce
Hive Pig Mahout
Hbase
Cassandra
Data MiningData Visualization
Collecte de stocks
Système
opérationnel
Système
décisionnel
Infrastructure EvènementsWeb
Collecte de streams
GPU
Système
opérationnel
Métiers Data miners
Web Services
Cataloguede
données

24
© OCTO 2013
Collecte en stocks
PUT HDFS natif
Sqoop pour les SGBDR
Talend : ELT pour Hadoop
Syncsort : chargement de gros volumes
ETL via Connecteurs sur Hive
Collecte en streams
Flume / Kafka : logs
Cassandra
Storm : collecte et traitement en temps réel de gros volumes
ESB via Connecteurs sur Hive
Outils de collecte

25
© OCTO 2013
Hadoop et les outils de BI et de Data mining

26
© OCTO 2013
L’architecture matérielle et logicielle d’un projet Hadoop dépend
des usages du cluster
Il n’existe pas une architecture de référence pour tous les
usages, mais des architectures par classe d’utilisation
L’architecture et la configuration du cluster sont les points les
plus critiques, qui nécessitent une expérience et une expertise
pointue
Il existe néanmoins des best practices et des pièges à éviter
Concevoir une architecture Hadoop complète

28
© OCTO 2013© OCTO 2012© OCTO 2013
10 best practices pour
dimensionner et configurer un
cluster Hadoop

29
© OCTO 2013
Piège 1 : la tentation des machines « monstres de guerre »
Piège 2 : le réseau, mieux vaut 10Gb/s c’est plus sûr
Piège 3 : pour superviser, mes outils actuels suffisent !
Piège 4 : un SCM ? Pas le temps, SSH fera l’affaire !
Piège 5 : les logs c’est important, il faut tous les collecter
Piège 6 : conserver les paramètres mémoire par défaut
Piège 7 : conserver la configuration par défaut de HDFS
Piège 8 : conserver la configuration par défaut de MapReduce
Piège 9 : utiliser les formats de fichier par défaut
Piège 10 : benchmarker son cluster avec TeraSort
Sommaire

30
© OCTO 2013
Le piège
Des ressources inutilisées
Un niveau de parallélisme insuffisant
Un surcoût aux performances non garanties
Best Practice
Penser parallélisation
Notion de conteneur : 1 CPU physique / xGo de RAM / Disque dur
HDFS
Dimensionner pour du temps de traitement
Piège 1 : la tentation des machines « monstres de guerre »

31
© OCTO 2013
Le piège
Pour garder de bonnes perfs, il faut éviter la sursouscription
Switchs de rack plus gros, donc plus cher
10Gb/s = 1Go/s = 40Go/s au niveau du switch
Backbone encore plus gros, donc encore plus cher
40Go/s * <nombre de racks> = ?
Best Practice
Utiliser deux cartes 1Gb/s FD
Moins de disque sur chaque serveur
Superviser
Piège 2 : le réseau, mieux vaut 10Gb/s c’est plus sûr

32
© OCTO 2013
Le piège
Pas de détail sur les métriques internes d’Hadoop
Lectures / écritures de HDFS par nœud
Consommation mémoire pendant les étapes d’un job
Best Practice
Pensez aux développeurs !
Utiliser Ganglia pour des métriques fines
Piège 3 : pour superviser, mes outils actuels suffisent !

33
© OCTO 2013
Le piège
Un petit cluster Hadoop, c’est 10 machines
Configuration et maintenance à la main difficile
Perte de temps
Best Practice
Utiliser un SCM
Piège 4 : un SCM ? Pas le temps, SSH fera l’affaire !

34
© OCTO 2013
Le piège
500 mappers et 20 reducers
520 fichiers de logs à collecter sur tout le cluster
Peu d’informations utiles à long terme
Best Practice
Pas de collecte sur les slaves
Collecte sur les masters
Piège 5 : les logs c’est important, il faut tous les collecter

35
© OCTO 2013
Le piège
Ils ne sont pas optimisés pour votre cluster
Sous utilisation des ressources
Échecs possibles de certains jobs
Best Practice
2Go pour les démons tasktracker et datanode
4Go pour le démon JobTracker
4Go + 1Go par million de bloc pour le namenode
Utiliser 4Go voire 8Go par tâche de map et de reduce
Superviser
Piège 6 : conserver les paramètres mémoire par défaut

36
© OCTO 2013
Le piège
Pas optimisée pour un cluster
Les paramètres dépendent de vos données, de votre réseau, …
Best Practice
Configurer en pensant I/O vs mémoire vs réseau
Chaque cas d’utilisation a sa propre configuration optimisée
Superviser
Piège 7 : conserver la configuration par défaut de HDFS

37
© OCTO 2013
Le piège
Pas optimisée pour un cluster
Les paramètres dépendent de votre utilisation
Best Practice
Utiliser le CapacityScheduler
Configurer avec des règles de calcul
Auditer l’usage réel pour optimiser les configurations
Piège 8 : conserver la configuration par défaut de MapReduce

38
© OCTO 2013
Le piège
Lenteur des jobs dû à un stockage inefficace
Plus d’espace utilisé que nécessaire
Best Practice
Format de stockage : distinguer les usages
Base de données
Données binaires
Compression : quelle fréquence d’accès ?
Donnée utilisée
Archivage
Piège 9 : utiliser les formats de fichier par défaut

39
© OCTO 2013
Le piège
Non représentatif de l’usage réel du cluster
Best Practice
Utiliser du code de production
Piège 10 : benchmarker son cluster avec TeraSort

41
© OCTO 2013© OCTO 2012© OCTO 2013
Hadoop CDH4 sous YARN dans
les télécoms. Retour d'expérience

42
© OCTO 2013
Contexte
Caractéristiques du cluster
Déroulement du projet
Déploiement de Hadoop
Déploiement des outils support
Les alimentations de données
L’analyse des données
La migration du cluster
Le benchmark du cluster
Cluster en fin de mission
Conclusion
Sommaire

43
© OCTO 2013
Durée : 3 mois
Equipe opérationnelle : 8 personnes
Trois enjeux majeurs :
Construire une plateforme Big Data opérationnelle
Montée en compétence des équipes
Préconisations pour une plateforme industrielle
Equipe colocalisée
Contexte

44
© OCTO 2013
1 rack, 12 serveurs
1 nœud pour les outils, 1 autre pour l’anonymisation
2 nœuds master
namenode / resourcemanager
secondary namenode
8 nœuds slave : datanode et nodemanager
Caractéristiques du cluster
Slaves
Masters
Outils
Accès Masters et
Outils

45
© OCTO 2013
Déroulement du projet

46
© OCTO 2013
Réseau de production : utiliser un mirroir local
Configuration OS : compétences système et réseau requises
Utiliser un SCM pour déployer
Nécessité d’avoir des profils polyvalents
Déploiement de Hadoop
A l’attaque
!

47
© OCTO 2013
Relativement facile une fois Hadoop correctement installé
Peu d’impact sur le cluster en lui même
Ne déployer que le nécessaire
Déploiement des outils support

48
© OCTO 2013
KISS : Keep It Simple Stupid
Ne pas négliger le travail en amont de l’analyse !
Les alimentations de données

49
© OCTO 2013
Beaucoup de travail en amont
Un cluster s’optimise au contact de la réalité
Limites des outils
Ajustement de l’ordonnanceur
Configuration mémoire
Configuration d’HDFS
L’analyse des données

50
© OCTO 2013
Passage de CDH 4.0.1 à CDH 4.1.2
Des leçons
Du travail en amont
Le SCM aurait fait gagner du temps
Suivre les préconisations !
La migration du cluster

51
© OCTO 2013
Initialement en début de projet…
Terasort ? Plutôt HiBench
Au final, le travail réalisé pendant le projet a été le meilleur
benchmark
Le benchmark du cluster

52
© OCTO 2013
Cluster YARN opérationnel
Plusieurs outils testés au cours de l’exploration
HDFS occupé à 70% : 1 427 251 fichiers, 280To
Les jobs ne saturent pas complètement le cluster
Cluster en fin de mission

53
© OCTO 2013
Des points positifs
YARN : stable et ouvre à d’autres frameworks que Map Reduce
Des outils polyvalents
Des points à améliorer
Maturité des outils et de leur environnement de travail
Complexité de la configuration de Hadoop comme de ses outils
Des documentations et des abaques
Mettre en place votre cluster ?
une équipe pluri disciplinaire
de la polyvalence technique
Conclusion

55
© OCTO 2013© OCTO 2013
Présentation Cloudera

56
© OCTO 2013© OCTO 2012© OCTO 2013
Conclusion

57
© OCTO 2013
L’écosystème Hadoop est riche et
complexe, en mouvement
Les gains attendus sont sans précédents
L’usage a une incidence forte sur
l’architecture et la configuration
Conclusion

58
© OCTO 2013
Identifiez les use cases métiers applicables dans votre contexte, en
benchmarkant les projets lancés dans d’autres secteurs en France et
au-delà
Lancez un POC métier d’exploration des données, avec les métiers les
plus early adopters
Marketing
Distribution
Infrastructure industrielle
Trading
Risques
Valorisez les résultats du POC en termes métiers
Définissez une architecture cible de classe industrielle pour généraliser
l’approche en réduisant les coûts
Comment démarrer cet après midi?

59
© OCTO 2013
OCTO et le Big Data
Une offre cohérente entre technologie et analyse prédictive
CONSEIL EN SI BIG DATA
 Etude et positionnement des solutions
en fonction de votre contexte
 Transformation de SI Décisionnel vers le
Big Data
 Cadrage de projets Big Data
ARCHITECTURE DES SYSTÈMES BIG DATA
 POC sur Hadoop et NoSQL
 Conception et réalisation de systèmes
sous Hadoop et NoSQL
 Formation Hadoop
CONSEIL EN ANALYSE DE DONNÉES AVANCÉES
 Benchmarks de projets Big Data par
secteur
 Formation des équipes de datamining
aux techniques Big Data
 Accompagnent des projets pilotes
métiers
COLLECTE DE DONNÉES EXTERNES
 Identification de sources de données
 Collecte et traitements de données non
structurées
 Recherche de corrélations économiques
DIRECTION SI DIRECTION MÉTIER

61
© OCTO 201361
CLOUDERA
TIMELINE
2008
CLOUDERA FOUNDED
BY MIKE OLSON,
AMR AWADALLAH &
JEFF HAMMERBACHER
2009
HADOOP CREATOR
DOUG CUTTING JOINS
CLOUDERA
2009
CDH:
FIRST COMMERCIAL
APACHE HADOOP
DISTRIBUTION
2010
CLOUDERA MANAGER:
FIRST MANAGEMENT
APPLICATION FOR
HADOOP
2011
CLOUDERA REACHES
100 PRODUCTION
CUSTOMERS
2011
CLOUDERA UNIVERSITY
EXPANDS TO 140
COUNTRIES
2012
CLOUDERA
ENTERPRISE 4:
THE STANDARD FOR
HADOOP IN THE
ENTERPRISE
2012
CLOUDERA CONNECT
REACHES 300
PARTNERS
BEYOND…
TRANSFORMING
HOW COMPANIES
THINK ABOUT
DATA
CDH CLOUDERA
MANAGER
CLOUDERA
ENTERPRISE
4
CHANGING
THE WORLD
ONE PETABYTE
AT A TIME

62
© OCTO 2013
Pervasive in the Enterprise
62
20+ B events online per
day are ingested by
Cloudera
70% of all the smart
phones in the U.S. are
powered by Cloudera
250 million Tweets per day
are filtered for actionable
business insights by Cloudera
4 of the top 5 commercial
banks rely on Cloudera
20 M households
lower their power bill
using Cloudera
3 of the top 5 organizations in
telecoms, defense, media,
banking and retail run Cloudera
CONFIDENTIAL - RESTRICTED

63
© OCTO 2013
SIMPLIFIED, UNIFIED, EFFICIENT
• Bulk of data stored on scalable low cost platform
• Perform end-to-end workflows
• Specialized systems reserved for specialized workloads
• Provides data access across departments or LOB
COMPLEX, FRAGMENTED, COSTLY
•Data silos by department or LOB
• Lots of data stored in expensive specialized
systems
• Analysts pull select data into EDW
• No one has a complete view
The Cloudera Approach
63
Meet enterprise demands with a new way to think about data.
THE CLOUDERA WAYTHE OLD WAY
Single data platform to
support BI, Reporting &
App Serving
Multiple platforms
for multiple workloads

64
© OCTO 2013
A Complete Solution
64
CLOUDERA
UNIVERSITY
DEVELOPER
TRAINING
ADMINISTRATOR
TRAINING
DATA SCIENCE
TRAINING
CERTIFICATION
PROGRAMS
PROFESSIONAL SERVICES
USE CASE DISCOVERY NEW HADOOP
DEPLOYMENT
PROOF-OF-CONCEPT
DEPLOYMENT
CERTIFICATION
PROCESS & TEAM
DEVELOPMENT
PRODUCTION PILOTS
INGEST STORE
EXPLO
RE
PROCE
SS
ANALY
ZE
SERVE
CDH CLOUDERA
MANAGER
CLOUDERA
SUPPORT
CLOUDERA
NAVIGATOR

65
© OCTO 201365
Cloudera Enterprise Core
Includes Support & Management for all the Core
Components of CDHINGEST STORE EXPLORE PROCESS ANALYZE SERVE
CERTIFIED CONNECTORS
CONNECTORS ARE COLOR
CODED TO THEIR
CORRESPONDING
SUBSCRIPTION OPTION
CDH
PROJECTS ARE
COLOR CODED TO
THEIR
CORRESPONDING
SUBCRIPTION
OPTION
STORAGE
RESOURCE MGMT
& COORDINATION
USER INTERFACE WORKFLOW MGMT METADA
TA
CLOUD
INTEGRATION
YA
YARN
ZO
ZOOKEEPER
HDFS
HADOOP DFS
HB
HBASE
HU
HUE
OO
OOZIE
WH
WHIRR
SQ
SQOOP
FL
FLUME
FILE
FUSE-DFS
REST
WEBHDFS
HTTPFS
SQL
ODBC
JDBC
MS
META
STORE
AC
ACCESS
BI ETL RDBMS
BATCH COMPUTE
BATCH PROCESSING REAL-TIME
ACCESS
& COMPUTE
MR
MAPREDUCE
MR2
MAPREDUCE2
HI
HIVE
PI
PIG
MA
MAHOUT
DF
DATAFU
IM
IMPALA
MANAGEMENT
SOFTWARE &
TECHNICAL SUPPORT
SUBSCIPTION OPTIONS
CLOUDERA
NAVIGATOR
CLOUDERA
MANAGER
CORE
(REQUIRED)

66
© OCTO 201366
Cloudera Enterprise RTD
Includes Support & Management for Apache HBase
INGEST STORE EXPLORE PROCESS ANALYZE SERVE
CODED TO THEIR
CORRESPONDING
SUBSCRIPTION OPTION
CDH
PROJECTS ARE
COLOR CODED TO
THEIR
CORRESPONDING
SUBCRIPTION
OPTION
STORAGE
RESOURCE MGMT
& COORDINATION
TA
CLOUD
INTEGRATION
YA
YARN
ZO
ZOOKEEPER
HDFS
HADOOP DFS
HB
HBASE
HU
HUE
OO
OOZIE
WH
WHIRR
SQ
SQOOP
FL
FLUME
FILE
FUSE-DFS
REST
WEBHDFS
HTTPFS
SQL
ODBC
JDBC
MS
META
STORE
AC
ACCESS
BI ETL RDBMS
BATCH COMPUTE
ACCESS
& COMPUTE
MR
MAPREDUCE
MR2
MAPREDUCE2
HI
HIVE
PI
PIG
MA
MAHOUT
DF
DATAFU
IM
IMPALA
MANAGEMENT
SOFTWARE &
TECHNICAL SUPPORT
SUBSCIPTION OPTIONS
CLOUDERA
NAVIGATOR
CLOUDERA
MANAGER
CORE
(REQUIRED)
RTD

67
© OCTO 201367
Cloudera Enterprise RTQ
Includes Support & Management for Cloudera Impala
CODED TO THEIR
CORRESPONDING
SUBSCRIPTION OPTION
CDH
PROJECTS ARE
COLOR CODED TO
THEIR
CORRESPONDING
SUBCRIPTION
OPTION
STORAGE
RESOURCE MGMT
& COORDINATION
TA
CLOUD
INTEGRATION
YA
YARN
ZO
ZOOKEEPER
HDFS
HADOOP DFS
HB
HBASE
HU
HUE
OO
OOZIE
WH
WHIRR
SQ
SQOOP
FL
FLUME
FILE
FUSE-DFS
REST
WEBHDFS
HTTPFS
SQL
ODBC
JDBC
MS
META
STORE
AC
ACCESS
BI ETL RDBMS
BATCH COMPUTE
ACCESS
& COMPUTE
MR
MAPREDUCE
MR2
MAPREDUCE2
HI
HIVE
PI
PIG
MA
MAHOUT
DF
DATAFU
IM
IMPALA
MANAGEMENT
SOFTWARE &
TECHNICAL SUPPORT
SUBSCIPTION OPTIONS
CLOUDERA
NAVIGATOR
CLOUDERA
MANAGER
CORE
(REQUIRED)
RTD RTQ

68
© OCTO 201368
Cloudera Enterprise BDR
Backup & Disaster Recovery Module for Cloudera
EnterpriseINGEST STORE EXPLORE PROCESS ANALYZE SERVE
CODED TO THEIR
CORRESPONDING
SUBSCRIPTION OPTION
CDH
PROJECTS ARE
COLOR CODED TO
THEIR
CORRESPONDING
SUBCRIPTION
OPTION
STORAGE
RESOURCE MGMT
& COORDINATION
TA
CLOUD
INTEGRATION
YA
YARN
ZO
ZOOKEEPER
HDFS
HADOOP DFS
HU
HUE
OO
OOZIE
WH
WHIRR
SQ
SQOOP
FL
FLUME
FILE
FUSE-DFS
REST
WEBHDFS
HTTPFS
SQL
ODBC
JDBC
MS
META
STORE
AC
ACCESS
BI ETL RDBMS
BATCH COMPUTE
ACCESS
& COMPUTE
MR
MAPREDUCE
MR2
MAPREDUCE2
HI
HIVE
PI
PIG
MA
MAHOUT
DF
DATAFU
IM
IMPALA
MANAGEMENT
SOFTWARE &
TECHNICAL SUPPORT
SUBSCIPTION OPTIONS
CLOUDERA
NAVIGATOR
CLOUDERA
MANAGER
CORE
(REQUIRED)
RTD RTQ
BDR
HB
HBASE

69
© OCTO 201369
Cloudera Navigator
Data Audit & Access Control for Cloudera Enterprise
CODED TO THEIR
CORRESPONDING
SUBSCRIPTION OPTION
CDH
PROJECTS ARE
COLOR CODED TO
THEIR
CORRESPONDING
SUBCRIPTION
OPTION
STORAGE
RESOURCE MGMT
& COORDINATION
TA
CLOUD
INTEGRATION
YA
YARN
ZO
ZOOKEEPER
HDFS
HADOOP DFS
HB
HBASE
HU
HUE
OO
OOZIE
WH
WHIRR
SQ
SQOOP
FL
FLUME
FILE
FUSE-DFS
REST
WEBHDFS
HTTPFS
SQL
ODBC
JDBC
MS
META
STORE
AC
ACCESS
BI ETL RDBMS
BATCH COMPUTE
ACCESS
& COMPUTE
MR
MAPREDUCE
MR2
MAPREDUCE2
HI
HIVE
PI
PIG
MA
MAHOUT
DF
DATAFU
IM
IMPALA
MANAGEMENT
SOFTWARE &
TECHNICAL SUPPORT
SUBSCIPTION OPTIONS
CLOUDERA
NAVIGATOR
CLOUDERA
MANAGER
CORE
(REQUIRED)
RTD RTQ
BDR
AUDIT
(v1.0)
LINEAGE
ACCESS
(v1.0)
LIFECYCLE
EXPLORE

71
© OCTO 2013
A multinational bank saves
millions by optimizing DW for
analytics & reducing data
storage costs by 99%.
Ask Bigger Questions:
How can we optimize our
data warehouse
investment?

72
© OCTO 2013
Cloudera optimizes the EDW, saves millions
72
The Challenge:
• Teradata EDW at capacity: ETL processes consume 7 days; takes 5
weeks to make historical data available for analysis
• Performance issues in business critical apps; little room for discovery,
analytics, ROI from opportunities
Multinational bank saves millions
by optimizing existing DW for
analytics & reducing data storage
costs by 99%.
The Solution:
• Cloudera Enterprise offloads data
storage, processing & some
analytics from EDW
• Teradata can focus on
operational functions & analytics

73
© OCTO 2013
The quant risk LOB within a
multinational bank saves
millions through better risk
exposure analysis & fraud
prevention.
How can we prevent
fraud?

74
© OCTO 2013
Cloudera delivers savings through fraud prevention
74
The Challenge:
• Fraud detection is a cumbersome, multi-step analytic process requiring
data sampling
• 2B transactions/month necessitate constant revisions to risk profiles
• Highly tuned 100TB Teradata DW drives over-budget capital reserves &
lower investment returns
Quant risk LOB in multinational
bank saves millions through better
risk exposure analysis & fraud
prevention
The Solution:
• Cloudera Enterprise data factory
for fraud prevention, credit &
operational risk analysis
• Look at every incidence of fraud
for 5 years for each person
• Reduced costs; expensive CPU
no longer consumed by data
processing

75
© OCTO 2013
A Semiconductor Manufacturer
uses
predictive analytics to take
preventative action on chips
likely to fail.
Which semiconductor
chips will fail?

76
© OCTO 2013
Cloudera enables better
predictions
76
The Challenge:
• Want to capture greater granular and historical data for more accurate
predictive yield modeling
• Storing 9 months’ data on Oracle is expensive
Semiconductor manufacturer can
prevent chip failure with more
accurate predictive yield models.
The Solution:
•Dell | Cloudera solution for Apache
Hadoop
•53 nodes; plan to store up to 10
years (~10PB)
•Capturing & processing data from
each phase of manufacturing process
CONFIDENTIAL - RESTRICTED

77
© OCTO 2013
BlackBerry eliminates data
sampling & simplifies data
processing for better, more
comprehensive analysis.
How do we retain
customers in a competitive
market?

78
© OCTO 2013
Cloudera delivers ROI through storage alone
78
The Challenge:
• BlackBerry Services generates .5PB (50-60TB compressed) data per day
• RDBMS is expensive – limited to 1% data sampling for analytics
BlackBerry can analyze all their
data vs. relying on 1% sample for
better network capacity trending &
management.
The Solution:
• Cloudera Enterprise manages
global data set of ~100PB
• Collecting device content,
machine-generated log data,
audit details
• 90% ETL code base reduction

79
© OCTO 2013
A leading manufacturer of
mobile devices gleans new
insights & delivers instant
software bug fixes.
How do we prevent
mobile device returns?

80
© OCTO 2013
Cloudera complements the data warehouse
80
The Challenge:
• Fast-growing Oracle DW – difficult & expensive to maintain performance
at scale
• Need to ingest massive volumes of unstructured data very quickly
Mobile technology leader identified
a hidden software bug causing
sudden spike in returns.
The Solution:
• Cloudera Enterprise + RTD: data
processing, storage & analysis
on 25 years data
• Integrated with Oracle: closed
loop analytical process
• Collecting device data every
min., loading 1TB/day into
ClouderaRead the case study:
http://www.cloudera.com/content/cloudera/en/resources/library/casestudy/driving-innovation-in-
mobile-devices-with-cloudera-and-oracle.html

81
© OCTO 2013
YellowPages enables new
publisher services through
faster data processing.
How can we increase the
value we deliver to
publishers?

82
© OCTO 2013
The Challenge:
• Want to keep 260M billable daily events for 13 mos. + 600M non-billable
daily events for 90 days
• Performance & scale challenges on SQL Server
The Solution:
• Cloudera Enterprise – core
production traffic processing system
• Integrated with HP Vertica – 315
CDH nodes; 30TB on Vertica
Cloudera expedites data
processing from days to hours
82 CONFIDENTIAL - RESTRICTED
YP deploys Cloudera to offload
the data warehouse, enabling
new business functions.

Petit-Déjeuner OCTO / Cloudera "Tout pour réussir votre premier projet Hadoop et passer à l’échelle industrielle"

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (19)

Plus de OCTO Technology

Plus de OCTO Technology (20)

Petit-Déjeuner OCTO / Cloudera "Tout pour réussir votre premier projet Hadoop et passer à l’échelle industrielle"

Notes de l'éditeur