SlideShare une entreprise Scribd logo
1  sur  82
1
© OCTO 2013© OCTO 2012© OCTO 2013
Réussir votre premier projet
Hadoop et passer à l’échelle
En partenariat avec
2
© OCTO 2013
OCTO et le Big Data
Une offre cohérente entre technologie et analyse prédictive
CONSEIL EN SI BIG DATA
 Etude et positionnement des solutions
en fonction de votre contexte
 Transformation de SI Décisionnel vers le
Big Data
 Cadrage de projets Big Data
ARCHITECTURE DES SYSTÈMES BIG DATA
 POC sur Hadoop et NoSQL
 Conception et réalisation de systèmes
sous Hadoop et NoSQL
 Formation Hadoop
CONSEIL EN ANALYSE DE DONNÉES AVANCÉES
 Benchmarks de projets Big Data par
secteur
 Formation des équipes de datamining
aux techniques Big Data
 Accompagnent des projets pilote
métiers
COLLECTE DE DONNÉES EXTERNES
 Identification de sources de données
 Collecte et traitements de données non
structurées
 Recherche de corrélations économiques
DIRECTION SI DIRECTION MÉTIER
3
© OCTO 2013
Une équipe dédiée, composée de
Experts et architectes sur les clusters de stockage et de calcul
Statisticiens et consultants en machine learning
Une R&D spécifique sur Hadoop, NoSQL et le machine learning
Des relations très approfondies avec les équipes R&D de nos
partenaires
Cloudera
10Gen Mongodb
Datastax Cassandra
L’équipe OCTO Big Data Analytics
4
© OCTO 2013
Intervenants
Julien CABOT
Directeur Big Data Analytics
OCTO
jcabot@octo.com
Graham Gear
Systems Engineer
Cloudera
graham@cloudera.com
Rémy SAISSY
Architecte, expert Hadoop
OCTO
rsaissy@octo.com
5
© OCTO 2013
Introduction à Big Data et Hadoop
Comment fournir une solution business de bout en bout avec
Hadoop?
Questions/réponses
10 Best practices pour dimensionner et configurer un cluster
Hadoop
4 - Hadoop CDH4 sous YARN dans les coms. Retour
d' rience
Questions/réponses
Quoi de neuf dans la Cloudera CDH en 2013?
Retour d’expérience aux US
Questions/réponses
Agenda
6
© OCTO 2013© OCTO 2012© OCTO 2013
Big Data et Hadoop
7
© OCTO 2013
Un concept devenant une réalité pour les entreprises
Des réflexions et prototypes activés dans les entreprises françaises
Big Data, une écosystème multiple
Web
Google, Amazon,
Facebook, Twitter,
…
Logiciel IT
IBM, Teradata,
Vmware, EMC,
…
Management
McKinsey,
BCG, Deloitte,
…
8
© OCTO 2013
Il n’existe pas aujourd’hui de définition claire de Big Data
Il s’agit à la fois
d’une ambition métier et d’une opportunité technologique
Définir Big Data
Super datawarehouse?
Stockage low cost?
NoSQL?
Cloud?
Internet Intelligence?
Analyse en temps
réel?
Non structuré? Open Data?
9
© OCTO 2013
Big Data, une ambition stratégique
Big data est l’ambition de tirer un
avantage économique
de
l’analyse quantitative des
données
internes et externes de l’entreprise
10
© OCTO 2013
Quelques usages de Big Data dans les entreprises
Marketing
comportemental
des clients retails
bancaire
• Analyse des opérations de
gestion (CRE) bancaires
pour déterminer une
segmentation marketing
basée sur le
comportement des clients
retails et non sur une
segmentation par foyer
fiscal
• Recommandations de
produits financiers
Analyse prédictive
IARD exploitant
les tendances des
communautés
Web
• Identifier des corrélations
entre les sujets d’intérêts
des communautés (
patients, auto, habitation,
épargne, …) et les
sinistres
• Enrichir les modèles de
datamining avec des
indicateurs exogènes
reflétant les facteurs
psycho sociaux
Off loading des
entrepôts de
données
• Réduire les coûts de
stockage des
datawarehouses par 100
en déchargeant
partiellement les systèmes
Oracle ou Teradata vers
Hadoop
• Tirer profit d’une
architecture cloud
privé/hybride, élastique à
la demande
11
© OCTO 2013
Big Data, un univers technologique pour construire
des systèmes à haute performance
Application
orientée Flux
évènementiel
Application orientée
Transaction
Application orientée
Stockage
Application orientée
Calculs
Univers
« standard »
SGBDR,
Serveur d’application,
ETL, ESB
Au-delà de 10 To en ligne, les
architectures « classiques »
nécessitent des adaptations
logiques et matérielles très
importantes.
Au-delà de 1 000
transactions/seconde, les
architectures « classiques » des
adaptations logiques et
matérielles très importantes
Au-delà de 10 threads/Core
CPU, la programmation
séquentielle classique atteint
ses limites (I/O).
Au-delà de 1 000
évènements/seconde, les
architectures « classiques »
nécessitent des adaptations
logiques et matérielles très
importantes.
Stockage
distribué
Share
nothing
XTP
Programmation
parallèle
Event Stream
Processing
12
© OCTO 2013
Evolution non uniforme de la capacité et du débit des
disques
0
10
20
30
40
50
60
70
Débit(MB/s)
Gain : x91
64 MB/s
0,7 MB/s
Seagate
Barracuda
7200.10
Seagate
Barracuda
ATA IV
IBM DTTA
35010
Gain : x100 000
1990 2010
La croissance du débit reste très inférieure de celle de la capacité
13
© OCTO 2013
Une limite structurelle à la loi
de Moore!
Latences des composants technologiques
L’architecture client-serveur traditionnelle doit évoluer pour continuer
à suivre la loi de Moore
14
© OCTO 2013
Evolution des architectures pour dépasser
cette limite structurelle
Architecture In Memory
• Réduire la latence en utilisant
des supports plus rapides
(DRAM, SSD)
• Bénéficier de l’évolution des
capacités des composants
• La limite structurelle n’est pas
que déplacée
• Pour évoluer, l’architecture doit
devenir une grille In Memory
Architecture en grille
• Paralléliser les accès I/O en
divisant les volumes (sharding)
• Bénéficier du différentiel de
coût entre commodity
hardware et haut de gamme
• Le réseau de la grille devient
un composant
principal, nécessitant co-
localisation des données et
des traitements
• Permet de scaler à l’infini, c’est
le Warehouse scale
computing!
15
© OCTO 2013
Hadoop dans l’univers Big
data
Application
orientée Flux
évènementiels
Application orientée
Transactions
Application orientée
Stockage
Application orientée
Calculs
Parrallel database
NoSQL
NewSQL
CEP, ESP Hadoop
HDFS
MapReduce
Projets
associés
Cassandra
Pig
Hive
Chuckwa
Hbase
Mahout
Pig
ZooKeeper
In Memory
16
© OCTO 2013
Hadoop s’impose comme une architecture
de référence sur le marché
• Apache Hadoop
Open Source
• Cloudera CDH
• Hortonworks
• MapR
• DataStax (Brisk)
COTS
• Greenplum (EMC)
• IBM InfoSphere BigInsights (CDH)
• Oracle Big data appliance (CDH)
• NetApp Analytics (CDH)
• …
Editeurs
• Amazon EMR (MapR)
• VirtualScale (CDH)
Cloud
17
© OCTO 2013© OCTO 2012© OCTO 2013
Comment fournir une solution business
de bout en bout avec Hadoop ?
18
© OCTO 2013
Hadoop, un écosystème riche
et complexe
19
© OCTO 2013
Stockage de fichiers plus volumineux qu’un unique disque
Répartition des données sur plusieurs machines
Réplication des données pour assurer le « fail-over » : « rack
awareness »
Hadoop Distributed File System
(HDFS)
20
© OCTO 2013
Paralléliser et distribuer les traitements
Traiter plus rapidement des volumes de données unitaires plus faibles
Co-localiser traitements / données
MapReduce, le système de
traitement
21
© OCTO 2013
Hadoop est à la fois
Un système de stockage distribué pour les grands fichiers (N x 64
Mo)
Un système d’agrégation et de traitement parallèle en mode batch
à la demande, reposant sur la grille de stockage
Hadoop n’est pas aujourd’hui
Un système d’accès à la donnée unitaire (random access)
Un système temps réel, mais batch à la demande
Un outils de visualisation graphique des données
Une librairie de traitements statistiques et text mining finalisée
Mahout, Hama fournissent des algorithmes parallèles
Hadoop nécessite des composants externes pour compléter le
puzzle
Les mythes et réalités sur Hadoop
22
© OCTO 2013
Data lab
Offloading d’entrepôts/appliance
Traitement de flux d’informations (Hadoop as
an ELT)
Grille de calculs
Machine learning temps réel (Online learning)
Quels composants? Pour faire quoi?
23
© OCTO 2013
Le puzzle complet (une vision)
HDFS
MapReduce
Hive Pig Mahout
Hbase
Cassandra
Data MiningData Visualization
Collecte de stocks
Système
opérationnel
Système
décisionnel
Infrastructure EvènementsWeb
Collecte de streams
GPU
Système
opérationnel
Métiers Data miners
Web Services
Cataloguede
données
24
© OCTO 2013
Collecte en stocks
PUT HDFS natif
Sqoop pour les SGBDR
Talend : ELT pour Hadoop
Syncsort : chargement de gros volumes
ETL via Connecteurs sur Hive
Collecte en streams
Flume / Kafka : logs
Cassandra
Storm : collecte et traitement en temps réel de gros volumes
ESB via Connecteurs sur Hive
Outils de collecte
25
© OCTO 2013
Hadoop et les outils de BI et de Data mining
26
© OCTO 2013
L’architecture matérielle et logicielle d’un projet Hadoop dépend
des usages du cluster
Il n’existe pas une architecture de référence pour tous les
usages, mais des architectures par classe d’utilisation
L’architecture et la configuration du cluster sont les points les
plus critiques, qui nécessitent une expérience et une expertise
pointue
Il existe néanmoins des best practices et des pièges à éviter
Concevoir une architecture Hadoop complète
27
© OCTO 2013
Discussion
28
© OCTO 2013© OCTO 2012© OCTO 2013
10 best practices pour
dimensionner et configurer un
cluster Hadoop
29
© OCTO 2013
Piège 1 : la tentation des machines « monstres de guerre »
Piège 2 : le réseau, mieux vaut 10Gb/s c’est plus sûr
Piège 3 : pour superviser, mes outils actuels suffisent !
Piège 4 : un SCM ? Pas le temps, SSH fera l’affaire !
Piège 5 : les logs c’est important, il faut tous les collecter
Piège 6 : conserver les paramètres mémoire par défaut
Piège 7 : conserver la configuration par défaut de HDFS
Piège 8 : conserver la configuration par défaut de MapReduce
Piège 9 : utiliser les formats de fichier par défaut
Piège 10 : benchmarker son cluster avec TeraSort
Sommaire
30
© OCTO 2013
Le piège
Des ressources inutilisées
Un niveau de parallélisme insuffisant
Un surcoût aux performances non garanties
Best Practice
Penser parallélisation
Notion de conteneur : 1 CPU physique / xGo de RAM / Disque dur
HDFS
Dimensionner pour du temps de traitement
Piège 1 : la tentation des machines « monstres de guerre »
31
© OCTO 2013
Le piège
Pour garder de bonnes perfs, il faut éviter la sursouscription
Switchs de rack plus gros, donc plus cher
10Gb/s = 1Go/s = 40Go/s au niveau du switch
Backbone encore plus gros, donc encore plus cher
40Go/s * <nombre de racks> = ?
Best Practice
Utiliser deux cartes 1Gb/s FD
Moins de disque sur chaque serveur
Superviser
Piège 2 : le réseau, mieux vaut 10Gb/s c’est plus sûr
32
© OCTO 2013
Le piège
Pas de détail sur les métriques internes d’Hadoop
Lectures / écritures de HDFS par nœud
Consommation mémoire pendant les étapes d’un job
Best Practice
Pensez aux développeurs !
Utiliser Ganglia pour des métriques fines
Piège 3 : pour superviser, mes outils actuels suffisent !
33
© OCTO 2013
Le piège
Un petit cluster Hadoop, c’est 10 machines
Configuration et maintenance à la main difficile
Perte de temps
Best Practice
Utiliser un SCM
Piège 4 : un SCM ? Pas le temps, SSH fera l’affaire !
34
© OCTO 2013
Le piège
500 mappers et 20 reducers
520 fichiers de logs à collecter sur tout le cluster
Peu d’informations utiles à long terme
Best Practice
Pas de collecte sur les slaves
Collecte sur les masters
Piège 5 : les logs c’est important, il faut tous les collecter
35
© OCTO 2013
Le piège
Ils ne sont pas optimisés pour votre cluster
Sous utilisation des ressources
Échecs possibles de certains jobs
Best Practice
2Go pour les démons tasktracker et datanode
4Go pour le démon JobTracker
4Go + 1Go par million de bloc pour le namenode
Utiliser 4Go voire 8Go par tâche de map et de reduce
Superviser
Piège 6 : conserver les paramètres mémoire par défaut
36
© OCTO 2013
Le piège
Pas optimisée pour un cluster
Les paramètres dépendent de vos données, de votre réseau, …
Best Practice
Configurer en pensant I/O vs mémoire vs réseau
Chaque cas d’utilisation a sa propre configuration optimisée
Superviser
Piège 7 : conserver la configuration par défaut de HDFS
37
© OCTO 2013
Le piège
Pas optimisée pour un cluster
Les paramètres dépendent de votre utilisation
Best Practice
Utiliser le CapacityScheduler
Configurer avec des règles de calcul
Auditer l’usage réel pour optimiser les configurations
Piège 8 : conserver la configuration par défaut de MapReduce
38
© OCTO 2013
Le piège
Lenteur des jobs dû à un stockage inefficace
Plus d’espace utilisé que nécessaire
Best Practice
Format de stockage : distinguer les usages
Base de données
Données binaires
Compression : quelle fréquence d’accès ?
Donnée utilisée
Archivage
Piège 9 : utiliser les formats de fichier par défaut
39
© OCTO 2013
Le piège
Non représentatif de l’usage réel du cluster
Best Practice
Utiliser du code de production
Piège 10 : benchmarker son cluster avec TeraSort
40
© OCTO 2013
Discussion
41
© OCTO 2013© OCTO 2012© OCTO 2013
Hadoop CDH4 sous YARN dans
les télécoms. Retour d'expérience
42
© OCTO 2013
Contexte
Caractéristiques du cluster
Déroulement du projet
Déploiement de Hadoop
Déploiement des outils support
Les alimentations de données
L’analyse des données
La migration du cluster
Le benchmark du cluster
Cluster en fin de mission
Conclusion
Sommaire
43
© OCTO 2013
Durée : 3 mois
Equipe opérationnelle : 8 personnes
Trois enjeux majeurs :
Construire une plateforme Big Data opérationnelle
Montée en compétence des équipes
Préconisations pour une plateforme industrielle
Equipe colocalisée
Contexte
44
© OCTO 2013
1 rack, 12 serveurs
1 nœud pour les outils, 1 autre pour l’anonymisation
2 nœuds master
namenode / resourcemanager
secondary namenode
8 nœuds slave : datanode et nodemanager
Caractéristiques du cluster
Slaves
Masters
Outils
Accès Masters et
Outils
45
© OCTO 2013
Déroulement du projet
46
© OCTO 2013
Réseau de production : utiliser un mirroir local
Configuration OS : compétences système et réseau requises
Utiliser un SCM pour déployer
Nécessité d’avoir des profils polyvalents
Déploiement de Hadoop
A l’attaque
!
47
© OCTO 2013
Relativement facile une fois Hadoop correctement installé
Peu d’impact sur le cluster en lui même
Ne déployer que le nécessaire
Déploiement des outils support
48
© OCTO 2013
KISS : Keep It Simple Stupid
Ne pas négliger le travail en amont de l’analyse !
Les alimentations de données
49
© OCTO 2013
Beaucoup de travail en amont
Un cluster s’optimise au contact de la réalité
Limites des outils
Ajustement de l’ordonnanceur
Configuration mémoire
Configuration d’HDFS
L’analyse des données
50
© OCTO 2013
Passage de CDH 4.0.1 à CDH 4.1.2
Des leçons
Du travail en amont
Le SCM aurait fait gagner du temps
Suivre les préconisations !
La migration du cluster
51
© OCTO 2013
Initialement en début de projet…
Terasort ? Plutôt HiBench
Au final, le travail réalisé pendant le projet a été le meilleur
benchmark
Le benchmark du cluster
52
© OCTO 2013
Cluster YARN opérationnel
Plusieurs outils testés au cours de l’exploration
HDFS occupé à 70% : 1 427 251 fichiers, 280To
Les jobs ne saturent pas complètement le cluster
Cluster en fin de mission
53
© OCTO 2013
Des points positifs
YARN : stable et ouvre à d’autres frameworks que Map Reduce
Des outils polyvalents
Des points à améliorer
Maturité des outils et de leur environnement de travail
Complexité de la configuration de Hadoop comme de ses outils
Des documentations et des abaques
Mettre en place votre cluster ?
une équipe pluri disciplinaire
de la polyvalence technique
Conclusion
54
© OCTO 2013
Discussion
55
© OCTO 2013© OCTO 2013
Présentation Cloudera
56
© OCTO 2013© OCTO 2012© OCTO 2013
Conclusion
57
© OCTO 2013
L’écosystème Hadoop est riche et
complexe, en mouvement
Les gains attendus sont sans précédents
L’usage a une incidence forte sur
l’architecture et la configuration
Conclusion
58
© OCTO 2013
Identifiez les use cases métiers applicables dans votre contexte, en
benchmarkant les projets lancés dans d’autres secteurs en France et
au-delà
Lancez un POC métier d’exploration des données, avec les métiers les
plus early adopters
Marketing
Distribution
Infrastructure industrielle
Trading
Risques
Valorisez les résultats du POC en termes métiers
Définissez une architecture cible de classe industrielle pour généraliser
l’approche en réduisant les coûts
Comment démarrer cet après midi?
59
© OCTO 2013
OCTO et le Big Data
Une offre cohérente entre technologie et analyse prédictive
CONSEIL EN SI BIG DATA
 Etude et positionnement des solutions
en fonction de votre contexte
 Transformation de SI Décisionnel vers le
Big Data
 Cadrage de projets Big Data
ARCHITECTURE DES SYSTÈMES BIG DATA
 POC sur Hadoop et NoSQL
 Conception et réalisation de systèmes
sous Hadoop et NoSQL
 Formation Hadoop
CONSEIL EN ANALYSE DE DONNÉES AVANCÉES
 Benchmarks de projets Big Data par
secteur
 Formation des équipes de datamining
aux techniques Big Data
 Accompagnent des projets pilotes
métiers
COLLECTE DE DONNÉES EXTERNES
 Identification de sources de données
 Collecte et traitements de données non
structurées
 Recherche de corrélations économiques
DIRECTION SI DIRECTION MÉTIER
60
© OCTO 201360
Petit Déjeuner Hadoop - Cloudera
Graham Gear | graham@cloudera.com
APRIL 2013
61
© OCTO 201361
CLOUDERA
TIMELINE
2008
CLOUDERA FOUNDED
BY MIKE OLSON,
AMR AWADALLAH &
JEFF HAMMERBACHER
2009
HADOOP CREATOR
DOUG CUTTING JOINS
CLOUDERA
2009
CDH:
FIRST COMMERCIAL
APACHE HADOOP
DISTRIBUTION
2010
CLOUDERA MANAGER:
FIRST MANAGEMENT
APPLICATION FOR
HADOOP
2011
CLOUDERA REACHES
100 PRODUCTION
CUSTOMERS
2011
CLOUDERA UNIVERSITY
EXPANDS TO 140
COUNTRIES
2012
CLOUDERA
ENTERPRISE 4:
THE STANDARD FOR
HADOOP IN THE
ENTERPRISE
2012
CLOUDERA CONNECT
REACHES 300
PARTNERS
BEYOND…
TRANSFORMING
HOW COMPANIES
THINK ABOUT
DATA
CDH CLOUDERA
MANAGER
CLOUDERA
ENTERPRISE
4
CHANGING
THE WORLD
ONE PETABYTE
AT A TIME
62
© OCTO 2013
Pervasive in the Enterprise
62
20+ B events online per
day are ingested by
Cloudera
70% of all the smart
phones in the U.S. are
powered by Cloudera
250 million Tweets per day
are filtered for actionable
business insights by Cloudera
4 of the top 5 commercial
banks rely on Cloudera
20 M households
lower their power bill
using Cloudera
3 of the top 5 organizations in
telecoms, defense, media,
banking and retail run Cloudera
CONFIDENTIAL - RESTRICTED
63
© OCTO 2013
SIMPLIFIED, UNIFIED, EFFICIENT
• Bulk of data stored on scalable low cost platform
• Perform end-to-end workflows
• Specialized systems reserved for specialized workloads
• Provides data access across departments or LOB
COMPLEX, FRAGMENTED, COSTLY
•Data silos by department or LOB
• Lots of data stored in expensive specialized
systems
• Analysts pull select data into EDW
• No one has a complete view
The Cloudera Approach
63
Meet enterprise demands with a new way to think about data.
THE CLOUDERA WAYTHE OLD WAY
Single data platform to
support BI, Reporting &
App Serving
Multiple platforms
for multiple workloads
64
© OCTO 2013
A Complete Solution
64
CLOUDERA
UNIVERSITY
DEVELOPER
TRAINING
ADMINISTRATOR
TRAINING
DATA SCIENCE
TRAINING
CERTIFICATION
PROGRAMS
PROFESSIONAL SERVICES
USE CASE DISCOVERY NEW HADOOP
DEPLOYMENT
PROOF-OF-CONCEPT
DEPLOYMENT
CERTIFICATION
PROCESS & TEAM
DEVELOPMENT
PRODUCTION PILOTS
INGEST STORE
EXPLO
RE
PROCE
SS
ANALY
ZE
SERVE
CDH CLOUDERA
MANAGER
CLOUDERA
SUPPORT
CLOUDERA
NAVIGATOR
65
© OCTO 201365
Cloudera Enterprise Core
Includes Support & Management for all the Core
Components of CDHINGEST STORE EXPLORE PROCESS ANALYZE SERVE
CERTIFIED CONNECTORS
CONNECTORS ARE COLOR
CODED TO THEIR
CORRESPONDING
SUBSCRIPTION OPTION
CDH
PROJECTS ARE
COLOR CODED TO
THEIR
CORRESPONDING
SUBCRIPTION
OPTION
STORAGE
RESOURCE MGMT
& COORDINATION
USER INTERFACE WORKFLOW MGMT METADA
TA
CLOUD
INTEGRATION
YA
YARN
ZO
ZOOKEEPER
HDFS
HADOOP DFS
HB
HBASE
HU
HUE
OO
OOZIE
WH
WHIRR
SQ
SQOOP
FL
FLUME
FILE
FUSE-DFS
REST
WEBHDFS
HTTPFS
SQL
ODBC
JDBC
MS
META
STORE
AC
ACCESS
BI ETL RDBMS
BATCH COMPUTE
BATCH PROCESSING REAL-TIME
ACCESS
& COMPUTE
MR
MAPREDUCE
MR2
MAPREDUCE2
HI
HIVE
PI
PIG
MA
MAHOUT
DF
DATAFU
IM
IMPALA
MANAGEMENT
SOFTWARE &
TECHNICAL SUPPORT
SUBSCIPTION OPTIONS
CLOUDERA
NAVIGATOR
CLOUDERA
MANAGER
CORE
(REQUIRED)
66
© OCTO 201366
Cloudera Enterprise RTD
Includes Support & Management for Apache HBase
INGEST STORE EXPLORE PROCESS ANALYZE SERVE
CERTIFIED CONNECTORS
CONNECTORS ARE COLOR
CODED TO THEIR
CORRESPONDING
SUBSCRIPTION OPTION
CDH
PROJECTS ARE
COLOR CODED TO
THEIR
CORRESPONDING
SUBCRIPTION
OPTION
STORAGE
RESOURCE MGMT
& COORDINATION
USER INTERFACE WORKFLOW MGMT METADA
TA
CLOUD
INTEGRATION
YA
YARN
ZO
ZOOKEEPER
HDFS
HADOOP DFS
HB
HBASE
HU
HUE
OO
OOZIE
WH
WHIRR
SQ
SQOOP
FL
FLUME
FILE
FUSE-DFS
REST
WEBHDFS
HTTPFS
SQL
ODBC
JDBC
MS
META
STORE
AC
ACCESS
BI ETL RDBMS
BATCH COMPUTE
BATCH PROCESSING REAL-TIME
ACCESS
& COMPUTE
MR
MAPREDUCE
MR2
MAPREDUCE2
HI
HIVE
PI
PIG
MA
MAHOUT
DF
DATAFU
IM
IMPALA
MANAGEMENT
SOFTWARE &
TECHNICAL SUPPORT
SUBSCIPTION OPTIONS
CLOUDERA
NAVIGATOR
CLOUDERA
MANAGER
CORE
(REQUIRED)
RTD
67
© OCTO 201367
Cloudera Enterprise RTQ
Includes Support & Management for Cloudera Impala
INGEST STORE EXPLORE PROCESS ANALYZE SERVE
CERTIFIED CONNECTORS
CONNECTORS ARE COLOR
CODED TO THEIR
CORRESPONDING
SUBSCRIPTION OPTION
CDH
PROJECTS ARE
COLOR CODED TO
THEIR
CORRESPONDING
SUBCRIPTION
OPTION
STORAGE
RESOURCE MGMT
& COORDINATION
USER INTERFACE WORKFLOW MGMT METADA
TA
CLOUD
INTEGRATION
YA
YARN
ZO
ZOOKEEPER
HDFS
HADOOP DFS
HB
HBASE
HU
HUE
OO
OOZIE
WH
WHIRR
SQ
SQOOP
FL
FLUME
FILE
FUSE-DFS
REST
WEBHDFS
HTTPFS
SQL
ODBC
JDBC
MS
META
STORE
AC
ACCESS
BI ETL RDBMS
BATCH COMPUTE
BATCH PROCESSING REAL-TIME
ACCESS
& COMPUTE
MR
MAPREDUCE
MR2
MAPREDUCE2
HI
HIVE
PI
PIG
MA
MAHOUT
DF
DATAFU
IM
IMPALA
MANAGEMENT
SOFTWARE &
TECHNICAL SUPPORT
SUBSCIPTION OPTIONS
CLOUDERA
NAVIGATOR
CLOUDERA
MANAGER
CORE
(REQUIRED)
RTD RTQ
68
© OCTO 201368
Cloudera Enterprise BDR
Backup & Disaster Recovery Module for Cloudera
EnterpriseINGEST STORE EXPLORE PROCESS ANALYZE SERVE
CERTIFIED CONNECTORS
CONNECTORS ARE COLOR
CODED TO THEIR
CORRESPONDING
SUBSCRIPTION OPTION
CDH
PROJECTS ARE
COLOR CODED TO
THEIR
CORRESPONDING
SUBCRIPTION
OPTION
STORAGE
RESOURCE MGMT
& COORDINATION
USER INTERFACE WORKFLOW MGMT METADA
TA
CLOUD
INTEGRATION
YA
YARN
ZO
ZOOKEEPER
HDFS
HADOOP DFS
HU
HUE
OO
OOZIE
WH
WHIRR
SQ
SQOOP
FL
FLUME
FILE
FUSE-DFS
REST
WEBHDFS
HTTPFS
SQL
ODBC
JDBC
MS
META
STORE
AC
ACCESS
BI ETL RDBMS
BATCH COMPUTE
BATCH PROCESSING REAL-TIME
ACCESS
& COMPUTE
MR
MAPREDUCE
MR2
MAPREDUCE2
HI
HIVE
PI
PIG
MA
MAHOUT
DF
DATAFU
IM
IMPALA
MANAGEMENT
SOFTWARE &
TECHNICAL SUPPORT
SUBSCIPTION OPTIONS
CLOUDERA
NAVIGATOR
CLOUDERA
MANAGER
CORE
(REQUIRED)
RTD RTQ
BDR
HB
HBASE
69
© OCTO 201369
Cloudera Navigator
Data Audit & Access Control for Cloudera Enterprise
INGEST STORE EXPLORE PROCESS ANALYZE SERVE
CERTIFIED CONNECTORS
CONNECTORS ARE COLOR
CODED TO THEIR
CORRESPONDING
SUBSCRIPTION OPTION
CDH
PROJECTS ARE
COLOR CODED TO
THEIR
CORRESPONDING
SUBCRIPTION
OPTION
STORAGE
RESOURCE MGMT
& COORDINATION
USER INTERFACE WORKFLOW MGMT METADA
TA
CLOUD
INTEGRATION
YA
YARN
ZO
ZOOKEEPER
HDFS
HADOOP DFS
HB
HBASE
HU
HUE
OO
OOZIE
WH
WHIRR
SQ
SQOOP
FL
FLUME
FILE
FUSE-DFS
REST
WEBHDFS
HTTPFS
SQL
ODBC
JDBC
MS
META
STORE
AC
ACCESS
BI ETL RDBMS
BATCH COMPUTE
BATCH PROCESSING REAL-TIME
ACCESS
& COMPUTE
MR
MAPREDUCE
MR2
MAPREDUCE2
HI
HIVE
PI
PIG
MA
MAHOUT
DF
DATAFU
IM
IMPALA
MANAGEMENT
SOFTWARE &
TECHNICAL SUPPORT
SUBSCIPTION OPTIONS
CLOUDERA
NAVIGATOR
CLOUDERA
MANAGER
CORE
(REQUIRED)
RTD RTQ
BDR
AUDIT
(v1.0)
LINEAGE
ACCESS
(v1.0)
LIFECYCLE
EXPLORE
70
© OCTO 201370
Customer Case Studies
71
© OCTO 2013
A multinational bank saves
millions by optimizing DW for
analytics & reducing data
storage costs by 99%.
Ask Bigger Questions:
How can we optimize our
data warehouse
investment?
72
© OCTO 2013
Cloudera optimizes the EDW, saves millions
72
The Challenge:
• Teradata EDW at capacity: ETL processes consume 7 days; takes 5
weeks to make historical data available for analysis
• Performance issues in business critical apps; little room for discovery,
analytics, ROI from opportunities
Multinational bank saves millions
by optimizing existing DW for
analytics & reducing data storage
costs by 99%.
The Solution:
• Cloudera Enterprise offloads data
storage, processing & some
analytics from EDW
• Teradata can focus on
operational functions & analytics
73
© OCTO 2013
The quant risk LOB within a
multinational bank saves
millions through better risk
exposure analysis & fraud
prevention.
Ask Bigger Questions:
How can we prevent
fraud?
74
© OCTO 2013
Cloudera delivers savings through fraud prevention
74
The Challenge:
• Fraud detection is a cumbersome, multi-step analytic process requiring
data sampling
• 2B transactions/month necessitate constant revisions to risk profiles
• Highly tuned 100TB Teradata DW drives over-budget capital reserves &
lower investment returns
Quant risk LOB in multinational
bank saves millions through better
risk exposure analysis & fraud
prevention
The Solution:
• Cloudera Enterprise data factory
for fraud prevention, credit &
operational risk analysis
• Look at every incidence of fraud
for 5 years for each person
• Reduced costs; expensive CPU
no longer consumed by data
processing
75
© OCTO 2013
A Semiconductor Manufacturer
uses
predictive analytics to take
preventative action on chips
likely to fail.
Ask Bigger Questions:
Which semiconductor
chips will fail?
76
© OCTO 2013
Cloudera enables better
predictions
76
The Challenge:
• Want to capture greater granular and historical data for more accurate
predictive yield modeling
• Storing 9 months’ data on Oracle is expensive
Semiconductor manufacturer can
prevent chip failure with more
accurate predictive yield models.
The Solution:
•Dell | Cloudera solution for Apache
Hadoop
•53 nodes; plan to store up to 10
years (~10PB)
•Capturing & processing data from
each phase of manufacturing process
CONFIDENTIAL - RESTRICTED
77
© OCTO 2013
BlackBerry eliminates data
sampling & simplifies data
processing for better, more
comprehensive analysis.
Ask Bigger Questions:
How do we retain
customers in a competitive
market?
78
© OCTO 2013
Cloudera delivers ROI through storage alone
78
The Challenge:
• BlackBerry Services generates .5PB (50-60TB compressed) data per day
• RDBMS is expensive – limited to 1% data sampling for analytics
BlackBerry can analyze all their
data vs. relying on 1% sample for
better network capacity trending &
management.
The Solution:
• Cloudera Enterprise manages
global data set of ~100PB
• Collecting device content,
machine-generated log data,
audit details
• 90% ETL code base reduction
79
© OCTO 2013
A leading manufacturer of
mobile devices gleans new
insights & delivers instant
software bug fixes.
Ask Bigger Questions:
How do we prevent
mobile device returns?
80
© OCTO 2013
Cloudera complements the data warehouse
80
The Challenge:
• Fast-growing Oracle DW – difficult & expensive to maintain performance
at scale
• Need to ingest massive volumes of unstructured data very quickly
Mobile technology leader identified
a hidden software bug causing
sudden spike in returns.
The Solution:
• Cloudera Enterprise + RTD: data
processing, storage & analysis
on 25 years data
• Integrated with Oracle: closed
loop analytical process
• Collecting device data every
min., loading 1TB/day into
ClouderaRead the case study:
http://www.cloudera.com/content/cloudera/en/resources/library/casestudy/driving-innovation-in-
mobile-devices-with-cloudera-and-oracle.html
81
© OCTO 2013
YellowPages enables new
publisher services through
faster data processing.
Ask Bigger Questions:
How can we increase the
value we deliver to
publishers?
82
© OCTO 2013
The Challenge:
• Want to keep 260M billable daily events for 13 mos. + 600M non-billable
daily events for 90 days
• Performance & scale challenges on SQL Server
The Solution:
• Cloudera Enterprise – core
production traffic processing system
• Integrated with HP Vertica – 315
CDH nodes; 30TB on Vertica
Cloudera expedites data
processing from days to hours
82 CONFIDENTIAL - RESTRICTED
YP deploys Cloudera to offload
the data warehouse, enabling
new business functions.

Contenu connexe

En vedette

Big data 2 4 - big-social-predicting-behavior-with-big-data
Big data 2 4 - big-social-predicting-behavior-with-big-dataBig data 2 4 - big-social-predicting-behavior-with-big-data
Big data 2 4 - big-social-predicting-behavior-with-big-dataRick Bouter
 
Big data 3 4- vint-big-data-research-privacy-technology-and-the-law - big dat...
Big data 3 4- vint-big-data-research-privacy-technology-and-the-law - big dat...Big data 3 4- vint-big-data-research-privacy-technology-and-the-law - big dat...
Big data 3 4- vint-big-data-research-privacy-technology-and-the-law - big dat...Rick Bouter
 
Sogeti big data - no more secrets with big data analytics
Sogeti   big data - no more secrets with big data analyticsSogeti   big data - no more secrets with big data analytics
Sogeti big data - no more secrets with big data analyticsRick Bouter
 
Hadoop tools with Examples
Hadoop tools with ExamplesHadoop tools with Examples
Hadoop tools with ExamplesJoe McTee
 
Apache Sqoop: Unlocking Hadoop for Your Relational Database
Apache Sqoop: Unlocking Hadoop for Your Relational Database Apache Sqoop: Unlocking Hadoop for Your Relational Database
Apache Sqoop: Unlocking Hadoop for Your Relational Database huguk
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopJoseph Glorieux
 
Cartes auto-organisée de Kohonen et clustering
Cartes auto-organisée de Kohonen et clusteringCartes auto-organisée de Kohonen et clustering
Cartes auto-organisée de Kohonen et clusteringtuxette
 
Mémoire M2 Etude d'un cluster par sa configuration sociale
Mémoire M2 Etude d'un cluster par sa configuration socialeMémoire M2 Etude d'un cluster par sa configuration sociale
Mémoire M2 Etude d'un cluster par sa configuration socialeSophie Jaboeuf
 
Presentation Tisic 2011
Presentation Tisic 2011Presentation Tisic 2011
Presentation Tisic 2011ticien
 
Meeting Performance Goals in multi-tenant Hadoop Clusters
Meeting Performance Goals in multi-tenant Hadoop ClustersMeeting Performance Goals in multi-tenant Hadoop Clusters
Meeting Performance Goals in multi-tenant Hadoop ClustersDataWorks Summit/Hadoop Summit
 
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...Hajer Trabelsi
 
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopCasablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopBenoît de CHATEAUVIEUX
 
#PortraitDeCDO - Magali Noé - CNP Assurances
#PortraitDeCDO - Magali Noé - CNP Assurances#PortraitDeCDO - Magali Noé - CNP Assurances
#PortraitDeCDO - Magali Noé - CNP AssurancesOCTO Technology
 
Building Secure User Interfaces With JWTs (JSON Web Tokens)
Building Secure User Interfaces With JWTs (JSON Web Tokens)Building Secure User Interfaces With JWTs (JSON Web Tokens)
Building Secure User Interfaces With JWTs (JSON Web Tokens)Stormpath
 
SAP Cloud for Customer Overview
SAP Cloud for Customer OverviewSAP Cloud for Customer Overview
SAP Cloud for Customer OverviewFabio Aragona
 
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataAzure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataMicrosoft
 
Protecting Your APIs Against Attack & Hijack
Protecting Your APIs Against Attack & Hijack Protecting Your APIs Against Attack & Hijack
Protecting Your APIs Against Attack & Hijack CA API Management
 

En vedette (19)

Big data 2 4 - big-social-predicting-behavior-with-big-data
Big data 2 4 - big-social-predicting-behavior-with-big-dataBig data 2 4 - big-social-predicting-behavior-with-big-data
Big data 2 4 - big-social-predicting-behavior-with-big-data
 
Big data 3 4- vint-big-data-research-privacy-technology-and-the-law - big dat...
Big data 3 4- vint-big-data-research-privacy-technology-and-the-law - big dat...Big data 3 4- vint-big-data-research-privacy-technology-and-the-law - big dat...
Big data 3 4- vint-big-data-research-privacy-technology-and-the-law - big dat...
 
Sogeti big data - no more secrets with big data analytics
Sogeti   big data - no more secrets with big data analyticsSogeti   big data - no more secrets with big data analytics
Sogeti big data - no more secrets with big data analytics
 
Hadoop tools with Examples
Hadoop tools with ExamplesHadoop tools with Examples
Hadoop tools with Examples
 
Apache Sqoop: Unlocking Hadoop for Your Relational Database
Apache Sqoop: Unlocking Hadoop for Your Relational Database Apache Sqoop: Unlocking Hadoop for Your Relational Database
Apache Sqoop: Unlocking Hadoop for Your Relational Database
 
Tech day hadoop, Spark
Tech day hadoop, SparkTech day hadoop, Spark
Tech day hadoop, Spark
 
Présentation Big Data et REX Hadoop
Présentation Big Data et REX HadoopPrésentation Big Data et REX Hadoop
Présentation Big Data et REX Hadoop
 
Cartes auto-organisée de Kohonen et clustering
Cartes auto-organisée de Kohonen et clusteringCartes auto-organisée de Kohonen et clustering
Cartes auto-organisée de Kohonen et clustering
 
Mémoire M2 Etude d'un cluster par sa configuration sociale
Mémoire M2 Etude d'un cluster par sa configuration socialeMémoire M2 Etude d'un cluster par sa configuration sociale
Mémoire M2 Etude d'un cluster par sa configuration sociale
 
Presentation Tisic 2011
Presentation Tisic 2011Presentation Tisic 2011
Presentation Tisic 2011
 
Meeting Performance Goals in multi-tenant Hadoop Clusters
Meeting Performance Goals in multi-tenant Hadoop ClustersMeeting Performance Goals in multi-tenant Hadoop Clusters
Meeting Performance Goals in multi-tenant Hadoop Clusters
 
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...Automatic Subspace Clustering of High Dimensional Data for DataMining Applic...
Automatic Subspace Clustering of High Dimensional Data for Data Mining Applic...
 
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à HadoopCasablanca Hadoop & Big Data Meetup - Introduction à Hadoop
Casablanca Hadoop & Big Data Meetup - Introduction à Hadoop
 
#PortraitDeCDO - Magali Noé - CNP Assurances
#PortraitDeCDO - Magali Noé - CNP Assurances#PortraitDeCDO - Magali Noé - CNP Assurances
#PortraitDeCDO - Magali Noé - CNP Assurances
 
Building Secure User Interfaces With JWTs (JSON Web Tokens)
Building Secure User Interfaces With JWTs (JSON Web Tokens)Building Secure User Interfaces With JWTs (JSON Web Tokens)
Building Secure User Interfaces With JWTs (JSON Web Tokens)
 
SAP Cloud for Customer Overview
SAP Cloud for Customer OverviewSAP Cloud for Customer Overview
SAP Cloud for Customer Overview
 
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataAzure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
 
Protecting Your APIs Against Attack & Hijack
Protecting Your APIs Against Attack & Hijack Protecting Your APIs Against Attack & Hijack
Protecting Your APIs Against Attack & Hijack
 
Clustering
ClusteringClustering
Clustering
 

Plus de OCTO Technology

Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloudLe Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloudOCTO Technology
 
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...OCTO Technology
 
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...OCTO Technology
 
Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives ...
Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives ...Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives ...
Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives ...OCTO Technology
 
OCTO Talks - Les IA s'invitent au chevet des développeurs
OCTO Talks - Les IA s'invitent au chevet des développeursOCTO Talks - Les IA s'invitent au chevet des développeurs
OCTO Talks - Les IA s'invitent au chevet des développeursOCTO Technology
 
OCTO Talks - Lancement du livre Culture Test
OCTO Talks - Lancement du livre Culture TestOCTO Talks - Lancement du livre Culture Test
OCTO Talks - Lancement du livre Culture TestOCTO Technology
 
Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...
Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...
Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...OCTO Technology
 
OCTO Talks - State of the art Architecture dans les frontend web
OCTO Talks - State of the art Architecture dans les frontend webOCTO Talks - State of the art Architecture dans les frontend web
OCTO Talks - State of the art Architecture dans les frontend webOCTO Technology
 
Comptoir OCTO ALD Automotive/Leaseplan
Comptoir OCTO ALD Automotive/LeaseplanComptoir OCTO ALD Automotive/Leaseplan
Comptoir OCTO ALD Automotive/LeaseplanOCTO Technology
 
Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ?
Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ? Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ?
Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ? OCTO Technology
 
Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...
Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...
Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...OCTO Technology
 
Le Comptoir OCTO - Affinez vos forecasts avec la planification distribuée et...
Le Comptoir OCTO -  Affinez vos forecasts avec la planification distribuée et...Le Comptoir OCTO -  Affinez vos forecasts avec la planification distribuée et...
Le Comptoir OCTO - Affinez vos forecasts avec la planification distribuée et...OCTO Technology
 
Le Comptoir OCTO - La formation au cœur de la stratégie d’éco-conception
Le Comptoir OCTO - La formation au cœur de la stratégie d’éco-conceptionLe Comptoir OCTO - La formation au cœur de la stratégie d’éco-conception
Le Comptoir OCTO - La formation au cœur de la stratégie d’éco-conceptionOCTO Technology
 
Le Comptoir OCTO - Une vision de plateforme sans leadership tech n’est qu’hal...
Le Comptoir OCTO - Une vision de plateforme sans leadership tech n’est qu’hal...Le Comptoir OCTO - Une vision de plateforme sans leadership tech n’est qu’hal...
Le Comptoir OCTO - Une vision de plateforme sans leadership tech n’est qu’hal...OCTO Technology
 
Le Comptoir OCTO - L'avenir de la gestion du bilan carbone : les solutions E...
Le Comptoir OCTO - L'avenir de la gestion du bilan carbone :  les solutions E...Le Comptoir OCTO - L'avenir de la gestion du bilan carbone :  les solutions E...
Le Comptoir OCTO - L'avenir de la gestion du bilan carbone : les solutions E...OCTO Technology
 
Le Comptoir OCTO - Continuous discovery et continuous delivery pour construir...
Le Comptoir OCTO - Continuous discovery et continuous delivery pour construir...Le Comptoir OCTO - Continuous discovery et continuous delivery pour construir...
Le Comptoir OCTO - Continuous discovery et continuous delivery pour construir...OCTO Technology
 
RefCard Tests sur tous les fronts
RefCard Tests sur tous les frontsRefCard Tests sur tous les fronts
RefCard Tests sur tous les frontsOCTO Technology
 
RefCard RESTful API Design
RefCard RESTful API DesignRefCard RESTful API Design
RefCard RESTful API DesignOCTO Technology
 
RefCard API Architecture Strategy
RefCard API Architecture StrategyRefCard API Architecture Strategy
RefCard API Architecture StrategyOCTO Technology
 

Plus de OCTO Technology (20)

Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloudLe Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
Le Comptoir OCTO - MLOps : Les patterns MLOps dans le cloud
 
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
La Grosse Conf 2024 - Philippe Stepniewski -Atelier - Live coding d'une base ...
 
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
La Grosse Conf 2024 - Philippe Prados - Atelier - RAG : au-delà de la démonst...
 
Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives ...
Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives ...Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives ...
Le Comptoir OCTO - Maîtriser le RAG : connecter les modèles d’IA génératives ...
 
OCTO Talks - Les IA s'invitent au chevet des développeurs
OCTO Talks - Les IA s'invitent au chevet des développeursOCTO Talks - Les IA s'invitent au chevet des développeurs
OCTO Talks - Les IA s'invitent au chevet des développeurs
 
OCTO Talks - Lancement du livre Culture Test
OCTO Talks - Lancement du livre Culture TestOCTO Talks - Lancement du livre Culture Test
OCTO Talks - Lancement du livre Culture Test
 
Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...
Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...
Le Comptoir OCTO - Green AI, comment éviter que votre votre potion magique d’...
 
OCTO Talks - State of the art Architecture dans les frontend web
OCTO Talks - State of the art Architecture dans les frontend webOCTO Talks - State of the art Architecture dans les frontend web
OCTO Talks - State of the art Architecture dans les frontend web
 
Refcard GraphQL
Refcard GraphQLRefcard GraphQL
Refcard GraphQL
 
Comptoir OCTO ALD Automotive/Leaseplan
Comptoir OCTO ALD Automotive/LeaseplanComptoir OCTO ALD Automotive/Leaseplan
Comptoir OCTO ALD Automotive/Leaseplan
 
Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ?
Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ? Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ?
Le Comptoir OCTO - Comment optimiser les stocks en linéaire par la Data ?
 
Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...
Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...
Le Comptoir OCTO - Retour sur 5 ans de mise en oeuvre : Comment le RGPD a réi...
 
Le Comptoir OCTO - Affinez vos forecasts avec la planification distribuée et...
Le Comptoir OCTO -  Affinez vos forecasts avec la planification distribuée et...Le Comptoir OCTO -  Affinez vos forecasts avec la planification distribuée et...
Le Comptoir OCTO - Affinez vos forecasts avec la planification distribuée et...
 
Le Comptoir OCTO - La formation au cœur de la stratégie d’éco-conception
Le Comptoir OCTO - La formation au cœur de la stratégie d’éco-conceptionLe Comptoir OCTO - La formation au cœur de la stratégie d’éco-conception
Le Comptoir OCTO - La formation au cœur de la stratégie d’éco-conception
 
Le Comptoir OCTO - Une vision de plateforme sans leadership tech n’est qu’hal...
Le Comptoir OCTO - Une vision de plateforme sans leadership tech n’est qu’hal...Le Comptoir OCTO - Une vision de plateforme sans leadership tech n’est qu’hal...
Le Comptoir OCTO - Une vision de plateforme sans leadership tech n’est qu’hal...
 
Le Comptoir OCTO - L'avenir de la gestion du bilan carbone : les solutions E...
Le Comptoir OCTO - L'avenir de la gestion du bilan carbone :  les solutions E...Le Comptoir OCTO - L'avenir de la gestion du bilan carbone :  les solutions E...
Le Comptoir OCTO - L'avenir de la gestion du bilan carbone : les solutions E...
 
Le Comptoir OCTO - Continuous discovery et continuous delivery pour construir...
Le Comptoir OCTO - Continuous discovery et continuous delivery pour construir...Le Comptoir OCTO - Continuous discovery et continuous delivery pour construir...
Le Comptoir OCTO - Continuous discovery et continuous delivery pour construir...
 
RefCard Tests sur tous les fronts
RefCard Tests sur tous les frontsRefCard Tests sur tous les fronts
RefCard Tests sur tous les fronts
 
RefCard RESTful API Design
RefCard RESTful API DesignRefCard RESTful API Design
RefCard RESTful API Design
 
RefCard API Architecture Strategy
RefCard API Architecture StrategyRefCard API Architecture Strategy
RefCard API Architecture Strategy
 

Petit-Déjeuner OCTO / Cloudera "Tout pour réussir votre premier projet Hadoop et passer à l’échelle industrielle"

  • 1. 1 © OCTO 2013© OCTO 2012© OCTO 2013 Réussir votre premier projet Hadoop et passer à l’échelle En partenariat avec
  • 2. 2 © OCTO 2013 OCTO et le Big Data Une offre cohérente entre technologie et analyse prédictive CONSEIL EN SI BIG DATA  Etude et positionnement des solutions en fonction de votre contexte  Transformation de SI Décisionnel vers le Big Data  Cadrage de projets Big Data ARCHITECTURE DES SYSTÈMES BIG DATA  POC sur Hadoop et NoSQL  Conception et réalisation de systèmes sous Hadoop et NoSQL  Formation Hadoop CONSEIL EN ANALYSE DE DONNÉES AVANCÉES  Benchmarks de projets Big Data par secteur  Formation des équipes de datamining aux techniques Big Data  Accompagnent des projets pilote métiers COLLECTE DE DONNÉES EXTERNES  Identification de sources de données  Collecte et traitements de données non structurées  Recherche de corrélations économiques DIRECTION SI DIRECTION MÉTIER
  • 3. 3 © OCTO 2013 Une équipe dédiée, composée de Experts et architectes sur les clusters de stockage et de calcul Statisticiens et consultants en machine learning Une R&D spécifique sur Hadoop, NoSQL et le machine learning Des relations très approfondies avec les équipes R&D de nos partenaires Cloudera 10Gen Mongodb Datastax Cassandra L’équipe OCTO Big Data Analytics
  • 4. 4 © OCTO 2013 Intervenants Julien CABOT Directeur Big Data Analytics OCTO jcabot@octo.com Graham Gear Systems Engineer Cloudera graham@cloudera.com Rémy SAISSY Architecte, expert Hadoop OCTO rsaissy@octo.com
  • 5. 5 © OCTO 2013 Introduction à Big Data et Hadoop Comment fournir une solution business de bout en bout avec Hadoop? Questions/réponses 10 Best practices pour dimensionner et configurer un cluster Hadoop 4 - Hadoop CDH4 sous YARN dans les coms. Retour d' rience Questions/réponses Quoi de neuf dans la Cloudera CDH en 2013? Retour d’expérience aux US Questions/réponses Agenda
  • 6. 6 © OCTO 2013© OCTO 2012© OCTO 2013 Big Data et Hadoop
  • 7. 7 © OCTO 2013 Un concept devenant une réalité pour les entreprises Des réflexions et prototypes activés dans les entreprises françaises Big Data, une écosystème multiple Web Google, Amazon, Facebook, Twitter, … Logiciel IT IBM, Teradata, Vmware, EMC, … Management McKinsey, BCG, Deloitte, …
  • 8. 8 © OCTO 2013 Il n’existe pas aujourd’hui de définition claire de Big Data Il s’agit à la fois d’une ambition métier et d’une opportunité technologique Définir Big Data Super datawarehouse? Stockage low cost? NoSQL? Cloud? Internet Intelligence? Analyse en temps réel? Non structuré? Open Data?
  • 9. 9 © OCTO 2013 Big Data, une ambition stratégique Big data est l’ambition de tirer un avantage économique de l’analyse quantitative des données internes et externes de l’entreprise
  • 10. 10 © OCTO 2013 Quelques usages de Big Data dans les entreprises Marketing comportemental des clients retails bancaire • Analyse des opérations de gestion (CRE) bancaires pour déterminer une segmentation marketing basée sur le comportement des clients retails et non sur une segmentation par foyer fiscal • Recommandations de produits financiers Analyse prédictive IARD exploitant les tendances des communautés Web • Identifier des corrélations entre les sujets d’intérêts des communautés ( patients, auto, habitation, épargne, …) et les sinistres • Enrichir les modèles de datamining avec des indicateurs exogènes reflétant les facteurs psycho sociaux Off loading des entrepôts de données • Réduire les coûts de stockage des datawarehouses par 100 en déchargeant partiellement les systèmes Oracle ou Teradata vers Hadoop • Tirer profit d’une architecture cloud privé/hybride, élastique à la demande
  • 11. 11 © OCTO 2013 Big Data, un univers technologique pour construire des systèmes à haute performance Application orientée Flux évènementiel Application orientée Transaction Application orientée Stockage Application orientée Calculs Univers « standard » SGBDR, Serveur d’application, ETL, ESB Au-delà de 10 To en ligne, les architectures « classiques » nécessitent des adaptations logiques et matérielles très importantes. Au-delà de 1 000 transactions/seconde, les architectures « classiques » des adaptations logiques et matérielles très importantes Au-delà de 10 threads/Core CPU, la programmation séquentielle classique atteint ses limites (I/O). Au-delà de 1 000 évènements/seconde, les architectures « classiques » nécessitent des adaptations logiques et matérielles très importantes. Stockage distribué Share nothing XTP Programmation parallèle Event Stream Processing
  • 12. 12 © OCTO 2013 Evolution non uniforme de la capacité et du débit des disques 0 10 20 30 40 50 60 70 Débit(MB/s) Gain : x91 64 MB/s 0,7 MB/s Seagate Barracuda 7200.10 Seagate Barracuda ATA IV IBM DTTA 35010 Gain : x100 000 1990 2010 La croissance du débit reste très inférieure de celle de la capacité
  • 13. 13 © OCTO 2013 Une limite structurelle à la loi de Moore! Latences des composants technologiques L’architecture client-serveur traditionnelle doit évoluer pour continuer à suivre la loi de Moore
  • 14. 14 © OCTO 2013 Evolution des architectures pour dépasser cette limite structurelle Architecture In Memory • Réduire la latence en utilisant des supports plus rapides (DRAM, SSD) • Bénéficier de l’évolution des capacités des composants • La limite structurelle n’est pas que déplacée • Pour évoluer, l’architecture doit devenir une grille In Memory Architecture en grille • Paralléliser les accès I/O en divisant les volumes (sharding) • Bénéficier du différentiel de coût entre commodity hardware et haut de gamme • Le réseau de la grille devient un composant principal, nécessitant co- localisation des données et des traitements • Permet de scaler à l’infini, c’est le Warehouse scale computing!
  • 15. 15 © OCTO 2013 Hadoop dans l’univers Big data Application orientée Flux évènementiels Application orientée Transactions Application orientée Stockage Application orientée Calculs Parrallel database NoSQL NewSQL CEP, ESP Hadoop HDFS MapReduce Projets associés Cassandra Pig Hive Chuckwa Hbase Mahout Pig ZooKeeper In Memory
  • 16. 16 © OCTO 2013 Hadoop s’impose comme une architecture de référence sur le marché • Apache Hadoop Open Source • Cloudera CDH • Hortonworks • MapR • DataStax (Brisk) COTS • Greenplum (EMC) • IBM InfoSphere BigInsights (CDH) • Oracle Big data appliance (CDH) • NetApp Analytics (CDH) • … Editeurs • Amazon EMR (MapR) • VirtualScale (CDH) Cloud
  • 17. 17 © OCTO 2013© OCTO 2012© OCTO 2013 Comment fournir une solution business de bout en bout avec Hadoop ?
  • 18. 18 © OCTO 2013 Hadoop, un écosystème riche et complexe
  • 19. 19 © OCTO 2013 Stockage de fichiers plus volumineux qu’un unique disque Répartition des données sur plusieurs machines Réplication des données pour assurer le « fail-over » : « rack awareness » Hadoop Distributed File System (HDFS)
  • 20. 20 © OCTO 2013 Paralléliser et distribuer les traitements Traiter plus rapidement des volumes de données unitaires plus faibles Co-localiser traitements / données MapReduce, le système de traitement
  • 21. 21 © OCTO 2013 Hadoop est à la fois Un système de stockage distribué pour les grands fichiers (N x 64 Mo) Un système d’agrégation et de traitement parallèle en mode batch à la demande, reposant sur la grille de stockage Hadoop n’est pas aujourd’hui Un système d’accès à la donnée unitaire (random access) Un système temps réel, mais batch à la demande Un outils de visualisation graphique des données Une librairie de traitements statistiques et text mining finalisée Mahout, Hama fournissent des algorithmes parallèles Hadoop nécessite des composants externes pour compléter le puzzle Les mythes et réalités sur Hadoop
  • 22. 22 © OCTO 2013 Data lab Offloading d’entrepôts/appliance Traitement de flux d’informations (Hadoop as an ELT) Grille de calculs Machine learning temps réel (Online learning) Quels composants? Pour faire quoi?
  • 23. 23 © OCTO 2013 Le puzzle complet (une vision) HDFS MapReduce Hive Pig Mahout Hbase Cassandra Data MiningData Visualization Collecte de stocks Système opérationnel Système décisionnel Infrastructure EvènementsWeb Collecte de streams GPU Système opérationnel Métiers Data miners Web Services Cataloguede données
  • 24. 24 © OCTO 2013 Collecte en stocks PUT HDFS natif Sqoop pour les SGBDR Talend : ELT pour Hadoop Syncsort : chargement de gros volumes ETL via Connecteurs sur Hive Collecte en streams Flume / Kafka : logs Cassandra Storm : collecte et traitement en temps réel de gros volumes ESB via Connecteurs sur Hive Outils de collecte
  • 25. 25 © OCTO 2013 Hadoop et les outils de BI et de Data mining
  • 26. 26 © OCTO 2013 L’architecture matérielle et logicielle d’un projet Hadoop dépend des usages du cluster Il n’existe pas une architecture de référence pour tous les usages, mais des architectures par classe d’utilisation L’architecture et la configuration du cluster sont les points les plus critiques, qui nécessitent une expérience et une expertise pointue Il existe néanmoins des best practices et des pièges à éviter Concevoir une architecture Hadoop complète
  • 28. 28 © OCTO 2013© OCTO 2012© OCTO 2013 10 best practices pour dimensionner et configurer un cluster Hadoop
  • 29. 29 © OCTO 2013 Piège 1 : la tentation des machines « monstres de guerre » Piège 2 : le réseau, mieux vaut 10Gb/s c’est plus sûr Piège 3 : pour superviser, mes outils actuels suffisent ! Piège 4 : un SCM ? Pas le temps, SSH fera l’affaire ! Piège 5 : les logs c’est important, il faut tous les collecter Piège 6 : conserver les paramètres mémoire par défaut Piège 7 : conserver la configuration par défaut de HDFS Piège 8 : conserver la configuration par défaut de MapReduce Piège 9 : utiliser les formats de fichier par défaut Piège 10 : benchmarker son cluster avec TeraSort Sommaire
  • 30. 30 © OCTO 2013 Le piège Des ressources inutilisées Un niveau de parallélisme insuffisant Un surcoût aux performances non garanties Best Practice Penser parallélisation Notion de conteneur : 1 CPU physique / xGo de RAM / Disque dur HDFS Dimensionner pour du temps de traitement Piège 1 : la tentation des machines « monstres de guerre »
  • 31. 31 © OCTO 2013 Le piège Pour garder de bonnes perfs, il faut éviter la sursouscription Switchs de rack plus gros, donc plus cher 10Gb/s = 1Go/s = 40Go/s au niveau du switch Backbone encore plus gros, donc encore plus cher 40Go/s * <nombre de racks> = ? Best Practice Utiliser deux cartes 1Gb/s FD Moins de disque sur chaque serveur Superviser Piège 2 : le réseau, mieux vaut 10Gb/s c’est plus sûr
  • 32. 32 © OCTO 2013 Le piège Pas de détail sur les métriques internes d’Hadoop Lectures / écritures de HDFS par nœud Consommation mémoire pendant les étapes d’un job Best Practice Pensez aux développeurs ! Utiliser Ganglia pour des métriques fines Piège 3 : pour superviser, mes outils actuels suffisent !
  • 33. 33 © OCTO 2013 Le piège Un petit cluster Hadoop, c’est 10 machines Configuration et maintenance à la main difficile Perte de temps Best Practice Utiliser un SCM Piège 4 : un SCM ? Pas le temps, SSH fera l’affaire !
  • 34. 34 © OCTO 2013 Le piège 500 mappers et 20 reducers 520 fichiers de logs à collecter sur tout le cluster Peu d’informations utiles à long terme Best Practice Pas de collecte sur les slaves Collecte sur les masters Piège 5 : les logs c’est important, il faut tous les collecter
  • 35. 35 © OCTO 2013 Le piège Ils ne sont pas optimisés pour votre cluster Sous utilisation des ressources Échecs possibles de certains jobs Best Practice 2Go pour les démons tasktracker et datanode 4Go pour le démon JobTracker 4Go + 1Go par million de bloc pour le namenode Utiliser 4Go voire 8Go par tâche de map et de reduce Superviser Piège 6 : conserver les paramètres mémoire par défaut
  • 36. 36 © OCTO 2013 Le piège Pas optimisée pour un cluster Les paramètres dépendent de vos données, de votre réseau, … Best Practice Configurer en pensant I/O vs mémoire vs réseau Chaque cas d’utilisation a sa propre configuration optimisée Superviser Piège 7 : conserver la configuration par défaut de HDFS
  • 37. 37 © OCTO 2013 Le piège Pas optimisée pour un cluster Les paramètres dépendent de votre utilisation Best Practice Utiliser le CapacityScheduler Configurer avec des règles de calcul Auditer l’usage réel pour optimiser les configurations Piège 8 : conserver la configuration par défaut de MapReduce
  • 38. 38 © OCTO 2013 Le piège Lenteur des jobs dû à un stockage inefficace Plus d’espace utilisé que nécessaire Best Practice Format de stockage : distinguer les usages Base de données Données binaires Compression : quelle fréquence d’accès ? Donnée utilisée Archivage Piège 9 : utiliser les formats de fichier par défaut
  • 39. 39 © OCTO 2013 Le piège Non représentatif de l’usage réel du cluster Best Practice Utiliser du code de production Piège 10 : benchmarker son cluster avec TeraSort
  • 41. 41 © OCTO 2013© OCTO 2012© OCTO 2013 Hadoop CDH4 sous YARN dans les télécoms. Retour d'expérience
  • 42. 42 © OCTO 2013 Contexte Caractéristiques du cluster Déroulement du projet Déploiement de Hadoop Déploiement des outils support Les alimentations de données L’analyse des données La migration du cluster Le benchmark du cluster Cluster en fin de mission Conclusion Sommaire
  • 43. 43 © OCTO 2013 Durée : 3 mois Equipe opérationnelle : 8 personnes Trois enjeux majeurs : Construire une plateforme Big Data opérationnelle Montée en compétence des équipes Préconisations pour une plateforme industrielle Equipe colocalisée Contexte
  • 44. 44 © OCTO 2013 1 rack, 12 serveurs 1 nœud pour les outils, 1 autre pour l’anonymisation 2 nœuds master namenode / resourcemanager secondary namenode 8 nœuds slave : datanode et nodemanager Caractéristiques du cluster Slaves Masters Outils Accès Masters et Outils
  • 46. 46 © OCTO 2013 Réseau de production : utiliser un mirroir local Configuration OS : compétences système et réseau requises Utiliser un SCM pour déployer Nécessité d’avoir des profils polyvalents Déploiement de Hadoop A l’attaque !
  • 47. 47 © OCTO 2013 Relativement facile une fois Hadoop correctement installé Peu d’impact sur le cluster en lui même Ne déployer que le nécessaire Déploiement des outils support
  • 48. 48 © OCTO 2013 KISS : Keep It Simple Stupid Ne pas négliger le travail en amont de l’analyse ! Les alimentations de données
  • 49. 49 © OCTO 2013 Beaucoup de travail en amont Un cluster s’optimise au contact de la réalité Limites des outils Ajustement de l’ordonnanceur Configuration mémoire Configuration d’HDFS L’analyse des données
  • 50. 50 © OCTO 2013 Passage de CDH 4.0.1 à CDH 4.1.2 Des leçons Du travail en amont Le SCM aurait fait gagner du temps Suivre les préconisations ! La migration du cluster
  • 51. 51 © OCTO 2013 Initialement en début de projet… Terasort ? Plutôt HiBench Au final, le travail réalisé pendant le projet a été le meilleur benchmark Le benchmark du cluster
  • 52. 52 © OCTO 2013 Cluster YARN opérationnel Plusieurs outils testés au cours de l’exploration HDFS occupé à 70% : 1 427 251 fichiers, 280To Les jobs ne saturent pas complètement le cluster Cluster en fin de mission
  • 53. 53 © OCTO 2013 Des points positifs YARN : stable et ouvre à d’autres frameworks que Map Reduce Des outils polyvalents Des points à améliorer Maturité des outils et de leur environnement de travail Complexité de la configuration de Hadoop comme de ses outils Des documentations et des abaques Mettre en place votre cluster ? une équipe pluri disciplinaire de la polyvalence technique Conclusion
  • 55. 55 © OCTO 2013© OCTO 2013 Présentation Cloudera
  • 56. 56 © OCTO 2013© OCTO 2012© OCTO 2013 Conclusion
  • 57. 57 © OCTO 2013 L’écosystème Hadoop est riche et complexe, en mouvement Les gains attendus sont sans précédents L’usage a une incidence forte sur l’architecture et la configuration Conclusion
  • 58. 58 © OCTO 2013 Identifiez les use cases métiers applicables dans votre contexte, en benchmarkant les projets lancés dans d’autres secteurs en France et au-delà Lancez un POC métier d’exploration des données, avec les métiers les plus early adopters Marketing Distribution Infrastructure industrielle Trading Risques Valorisez les résultats du POC en termes métiers Définissez une architecture cible de classe industrielle pour généraliser l’approche en réduisant les coûts Comment démarrer cet après midi?
  • 59. 59 © OCTO 2013 OCTO et le Big Data Une offre cohérente entre technologie et analyse prédictive CONSEIL EN SI BIG DATA  Etude et positionnement des solutions en fonction de votre contexte  Transformation de SI Décisionnel vers le Big Data  Cadrage de projets Big Data ARCHITECTURE DES SYSTÈMES BIG DATA  POC sur Hadoop et NoSQL  Conception et réalisation de systèmes sous Hadoop et NoSQL  Formation Hadoop CONSEIL EN ANALYSE DE DONNÉES AVANCÉES  Benchmarks de projets Big Data par secteur  Formation des équipes de datamining aux techniques Big Data  Accompagnent des projets pilotes métiers COLLECTE DE DONNÉES EXTERNES  Identification de sources de données  Collecte et traitements de données non structurées  Recherche de corrélations économiques DIRECTION SI DIRECTION MÉTIER
  • 60. 60 © OCTO 201360 Petit Déjeuner Hadoop - Cloudera Graham Gear | graham@cloudera.com APRIL 2013
  • 61. 61 © OCTO 201361 CLOUDERA TIMELINE 2008 CLOUDERA FOUNDED BY MIKE OLSON, AMR AWADALLAH & JEFF HAMMERBACHER 2009 HADOOP CREATOR DOUG CUTTING JOINS CLOUDERA 2009 CDH: FIRST COMMERCIAL APACHE HADOOP DISTRIBUTION 2010 CLOUDERA MANAGER: FIRST MANAGEMENT APPLICATION FOR HADOOP 2011 CLOUDERA REACHES 100 PRODUCTION CUSTOMERS 2011 CLOUDERA UNIVERSITY EXPANDS TO 140 COUNTRIES 2012 CLOUDERA ENTERPRISE 4: THE STANDARD FOR HADOOP IN THE ENTERPRISE 2012 CLOUDERA CONNECT REACHES 300 PARTNERS BEYOND… TRANSFORMING HOW COMPANIES THINK ABOUT DATA CDH CLOUDERA MANAGER CLOUDERA ENTERPRISE 4 CHANGING THE WORLD ONE PETABYTE AT A TIME
  • 62. 62 © OCTO 2013 Pervasive in the Enterprise 62 20+ B events online per day are ingested by Cloudera 70% of all the smart phones in the U.S. are powered by Cloudera 250 million Tweets per day are filtered for actionable business insights by Cloudera 4 of the top 5 commercial banks rely on Cloudera 20 M households lower their power bill using Cloudera 3 of the top 5 organizations in telecoms, defense, media, banking and retail run Cloudera CONFIDENTIAL - RESTRICTED
  • 63. 63 © OCTO 2013 SIMPLIFIED, UNIFIED, EFFICIENT • Bulk of data stored on scalable low cost platform • Perform end-to-end workflows • Specialized systems reserved for specialized workloads • Provides data access across departments or LOB COMPLEX, FRAGMENTED, COSTLY •Data silos by department or LOB • Lots of data stored in expensive specialized systems • Analysts pull select data into EDW • No one has a complete view The Cloudera Approach 63 Meet enterprise demands with a new way to think about data. THE CLOUDERA WAYTHE OLD WAY Single data platform to support BI, Reporting & App Serving Multiple platforms for multiple workloads
  • 64. 64 © OCTO 2013 A Complete Solution 64 CLOUDERA UNIVERSITY DEVELOPER TRAINING ADMINISTRATOR TRAINING DATA SCIENCE TRAINING CERTIFICATION PROGRAMS PROFESSIONAL SERVICES USE CASE DISCOVERY NEW HADOOP DEPLOYMENT PROOF-OF-CONCEPT DEPLOYMENT CERTIFICATION PROCESS & TEAM DEVELOPMENT PRODUCTION PILOTS INGEST STORE EXPLO RE PROCE SS ANALY ZE SERVE CDH CLOUDERA MANAGER CLOUDERA SUPPORT CLOUDERA NAVIGATOR
  • 65. 65 © OCTO 201365 Cloudera Enterprise Core Includes Support & Management for all the Core Components of CDHINGEST STORE EXPLORE PROCESS ANALYZE SERVE CERTIFIED CONNECTORS CONNECTORS ARE COLOR CODED TO THEIR CORRESPONDING SUBSCRIPTION OPTION CDH PROJECTS ARE COLOR CODED TO THEIR CORRESPONDING SUBCRIPTION OPTION STORAGE RESOURCE MGMT & COORDINATION USER INTERFACE WORKFLOW MGMT METADA TA CLOUD INTEGRATION YA YARN ZO ZOOKEEPER HDFS HADOOP DFS HB HBASE HU HUE OO OOZIE WH WHIRR SQ SQOOP FL FLUME FILE FUSE-DFS REST WEBHDFS HTTPFS SQL ODBC JDBC MS META STORE AC ACCESS BI ETL RDBMS BATCH COMPUTE BATCH PROCESSING REAL-TIME ACCESS & COMPUTE MR MAPREDUCE MR2 MAPREDUCE2 HI HIVE PI PIG MA MAHOUT DF DATAFU IM IMPALA MANAGEMENT SOFTWARE & TECHNICAL SUPPORT SUBSCIPTION OPTIONS CLOUDERA NAVIGATOR CLOUDERA MANAGER CORE (REQUIRED)
  • 66. 66 © OCTO 201366 Cloudera Enterprise RTD Includes Support & Management for Apache HBase INGEST STORE EXPLORE PROCESS ANALYZE SERVE CERTIFIED CONNECTORS CONNECTORS ARE COLOR CODED TO THEIR CORRESPONDING SUBSCRIPTION OPTION CDH PROJECTS ARE COLOR CODED TO THEIR CORRESPONDING SUBCRIPTION OPTION STORAGE RESOURCE MGMT & COORDINATION USER INTERFACE WORKFLOW MGMT METADA TA CLOUD INTEGRATION YA YARN ZO ZOOKEEPER HDFS HADOOP DFS HB HBASE HU HUE OO OOZIE WH WHIRR SQ SQOOP FL FLUME FILE FUSE-DFS REST WEBHDFS HTTPFS SQL ODBC JDBC MS META STORE AC ACCESS BI ETL RDBMS BATCH COMPUTE BATCH PROCESSING REAL-TIME ACCESS & COMPUTE MR MAPREDUCE MR2 MAPREDUCE2 HI HIVE PI PIG MA MAHOUT DF DATAFU IM IMPALA MANAGEMENT SOFTWARE & TECHNICAL SUPPORT SUBSCIPTION OPTIONS CLOUDERA NAVIGATOR CLOUDERA MANAGER CORE (REQUIRED) RTD
  • 67. 67 © OCTO 201367 Cloudera Enterprise RTQ Includes Support & Management for Cloudera Impala INGEST STORE EXPLORE PROCESS ANALYZE SERVE CERTIFIED CONNECTORS CONNECTORS ARE COLOR CODED TO THEIR CORRESPONDING SUBSCRIPTION OPTION CDH PROJECTS ARE COLOR CODED TO THEIR CORRESPONDING SUBCRIPTION OPTION STORAGE RESOURCE MGMT & COORDINATION USER INTERFACE WORKFLOW MGMT METADA TA CLOUD INTEGRATION YA YARN ZO ZOOKEEPER HDFS HADOOP DFS HB HBASE HU HUE OO OOZIE WH WHIRR SQ SQOOP FL FLUME FILE FUSE-DFS REST WEBHDFS HTTPFS SQL ODBC JDBC MS META STORE AC ACCESS BI ETL RDBMS BATCH COMPUTE BATCH PROCESSING REAL-TIME ACCESS & COMPUTE MR MAPREDUCE MR2 MAPREDUCE2 HI HIVE PI PIG MA MAHOUT DF DATAFU IM IMPALA MANAGEMENT SOFTWARE & TECHNICAL SUPPORT SUBSCIPTION OPTIONS CLOUDERA NAVIGATOR CLOUDERA MANAGER CORE (REQUIRED) RTD RTQ
  • 68. 68 © OCTO 201368 Cloudera Enterprise BDR Backup & Disaster Recovery Module for Cloudera EnterpriseINGEST STORE EXPLORE PROCESS ANALYZE SERVE CERTIFIED CONNECTORS CONNECTORS ARE COLOR CODED TO THEIR CORRESPONDING SUBSCRIPTION OPTION CDH PROJECTS ARE COLOR CODED TO THEIR CORRESPONDING SUBCRIPTION OPTION STORAGE RESOURCE MGMT & COORDINATION USER INTERFACE WORKFLOW MGMT METADA TA CLOUD INTEGRATION YA YARN ZO ZOOKEEPER HDFS HADOOP DFS HU HUE OO OOZIE WH WHIRR SQ SQOOP FL FLUME FILE FUSE-DFS REST WEBHDFS HTTPFS SQL ODBC JDBC MS META STORE AC ACCESS BI ETL RDBMS BATCH COMPUTE BATCH PROCESSING REAL-TIME ACCESS & COMPUTE MR MAPREDUCE MR2 MAPREDUCE2 HI HIVE PI PIG MA MAHOUT DF DATAFU IM IMPALA MANAGEMENT SOFTWARE & TECHNICAL SUPPORT SUBSCIPTION OPTIONS CLOUDERA NAVIGATOR CLOUDERA MANAGER CORE (REQUIRED) RTD RTQ BDR HB HBASE
  • 69. 69 © OCTO 201369 Cloudera Navigator Data Audit & Access Control for Cloudera Enterprise INGEST STORE EXPLORE PROCESS ANALYZE SERVE CERTIFIED CONNECTORS CONNECTORS ARE COLOR CODED TO THEIR CORRESPONDING SUBSCRIPTION OPTION CDH PROJECTS ARE COLOR CODED TO THEIR CORRESPONDING SUBCRIPTION OPTION STORAGE RESOURCE MGMT & COORDINATION USER INTERFACE WORKFLOW MGMT METADA TA CLOUD INTEGRATION YA YARN ZO ZOOKEEPER HDFS HADOOP DFS HB HBASE HU HUE OO OOZIE WH WHIRR SQ SQOOP FL FLUME FILE FUSE-DFS REST WEBHDFS HTTPFS SQL ODBC JDBC MS META STORE AC ACCESS BI ETL RDBMS BATCH COMPUTE BATCH PROCESSING REAL-TIME ACCESS & COMPUTE MR MAPREDUCE MR2 MAPREDUCE2 HI HIVE PI PIG MA MAHOUT DF DATAFU IM IMPALA MANAGEMENT SOFTWARE & TECHNICAL SUPPORT SUBSCIPTION OPTIONS CLOUDERA NAVIGATOR CLOUDERA MANAGER CORE (REQUIRED) RTD RTQ BDR AUDIT (v1.0) LINEAGE ACCESS (v1.0) LIFECYCLE EXPLORE
  • 71. 71 © OCTO 2013 A multinational bank saves millions by optimizing DW for analytics & reducing data storage costs by 99%. Ask Bigger Questions: How can we optimize our data warehouse investment?
  • 72. 72 © OCTO 2013 Cloudera optimizes the EDW, saves millions 72 The Challenge: • Teradata EDW at capacity: ETL processes consume 7 days; takes 5 weeks to make historical data available for analysis • Performance issues in business critical apps; little room for discovery, analytics, ROI from opportunities Multinational bank saves millions by optimizing existing DW for analytics & reducing data storage costs by 99%. The Solution: • Cloudera Enterprise offloads data storage, processing & some analytics from EDW • Teradata can focus on operational functions & analytics
  • 73. 73 © OCTO 2013 The quant risk LOB within a multinational bank saves millions through better risk exposure analysis & fraud prevention. Ask Bigger Questions: How can we prevent fraud?
  • 74. 74 © OCTO 2013 Cloudera delivers savings through fraud prevention 74 The Challenge: • Fraud detection is a cumbersome, multi-step analytic process requiring data sampling • 2B transactions/month necessitate constant revisions to risk profiles • Highly tuned 100TB Teradata DW drives over-budget capital reserves & lower investment returns Quant risk LOB in multinational bank saves millions through better risk exposure analysis & fraud prevention The Solution: • Cloudera Enterprise data factory for fraud prevention, credit & operational risk analysis • Look at every incidence of fraud for 5 years for each person • Reduced costs; expensive CPU no longer consumed by data processing
  • 75. 75 © OCTO 2013 A Semiconductor Manufacturer uses predictive analytics to take preventative action on chips likely to fail. Ask Bigger Questions: Which semiconductor chips will fail?
  • 76. 76 © OCTO 2013 Cloudera enables better predictions 76 The Challenge: • Want to capture greater granular and historical data for more accurate predictive yield modeling • Storing 9 months’ data on Oracle is expensive Semiconductor manufacturer can prevent chip failure with more accurate predictive yield models. The Solution: •Dell | Cloudera solution for Apache Hadoop •53 nodes; plan to store up to 10 years (~10PB) •Capturing & processing data from each phase of manufacturing process CONFIDENTIAL - RESTRICTED
  • 77. 77 © OCTO 2013 BlackBerry eliminates data sampling & simplifies data processing for better, more comprehensive analysis. Ask Bigger Questions: How do we retain customers in a competitive market?
  • 78. 78 © OCTO 2013 Cloudera delivers ROI through storage alone 78 The Challenge: • BlackBerry Services generates .5PB (50-60TB compressed) data per day • RDBMS is expensive – limited to 1% data sampling for analytics BlackBerry can analyze all their data vs. relying on 1% sample for better network capacity trending & management. The Solution: • Cloudera Enterprise manages global data set of ~100PB • Collecting device content, machine-generated log data, audit details • 90% ETL code base reduction
  • 79. 79 © OCTO 2013 A leading manufacturer of mobile devices gleans new insights & delivers instant software bug fixes. Ask Bigger Questions: How do we prevent mobile device returns?
  • 80. 80 © OCTO 2013 Cloudera complements the data warehouse 80 The Challenge: • Fast-growing Oracle DW – difficult & expensive to maintain performance at scale • Need to ingest massive volumes of unstructured data very quickly Mobile technology leader identified a hidden software bug causing sudden spike in returns. The Solution: • Cloudera Enterprise + RTD: data processing, storage & analysis on 25 years data • Integrated with Oracle: closed loop analytical process • Collecting device data every min., loading 1TB/day into ClouderaRead the case study: http://www.cloudera.com/content/cloudera/en/resources/library/casestudy/driving-innovation-in- mobile-devices-with-cloudera-and-oracle.html
  • 81. 81 © OCTO 2013 YellowPages enables new publisher services through faster data processing. Ask Bigger Questions: How can we increase the value we deliver to publishers?
  • 82. 82 © OCTO 2013 The Challenge: • Want to keep 260M billable daily events for 13 mos. + 600M non-billable daily events for 90 days • Performance & scale challenges on SQL Server The Solution: • Cloudera Enterprise – core production traffic processing system • Integrated with HP Vertica – 315 CDH nodes; 30TB on Vertica Cloudera expedites data processing from days to hours 82 CONFIDENTIAL - RESTRICTED YP deploys Cloudera to offload the data warehouse, enabling new business functions.

Notes de l'éditeur

  1. Link to opportunity record in SFDC (valid for SFDC employees only): https://na6.salesforce.com/0068000000eoHgTA multinational bank saves millions by optimizing their EDW for analytics and reducing data storage costs by 99%.Background: A multinational bank has traditionally relied on a Teradata enterprise data warehousefor most of its data storage, processing and analytics. With the movement from in-person to online banking, the number of transactions and the data each transaction generates has ballooned. The Teradata system was supporting over 330,000 applications that run monthly and 6,000 databases.Challenge: The bank wanted to make effective use of all the data being generated, but their Teradata system quickly became maxed out. It could no longer handle current workloads and the bank’s business critical applications were hitting performance issues. It was taking 7 days to complete ETL processing, so the Teradata environment could only be used for analysis during brief periods each month. And they were spending millions every year just to back up all of their data. Regulatory compliance requires them to store 7 years’ data, and it would take 5 weeks just to make historical data available for analysis.The bank was forced to either expand the Teradata system which would be very expensive, restrict user access to the system in order to lessen the workload, or offload raw data to tape backup and rely on small data samples and aggregations for analytics.IBM and EMC had attempted to alleviate this pain but failed. The strategic data warehouse group within the bank initiated a research project with Georgia Tech students to look into data warehousing projects, which led a student to reach out to Cloudera. This ultimately initiated an in-depth POC.During the POC, the bank looked at several different operational systems and the transformations that needed to take place to that data to prepare it for use in the data warehouse. They found they’d scaled past what their traditional ETL tools could deliver, so they were just using those ETL tools to move data into the data warehouse and then doing transformations within the warehouse (ELT). The system was spending 44% of its resources on everyday operations such as running canned BI reports and 42% on ETL processing (or ELT in this case), leaving only 11% for advanced analytics and data discovery that drives ROI from new opportunities. This is a very costly use of the data warehouse platform and not what it was meant for. They were able to quantify how much space and compute power was being used for each ELT process in data warehouse supporting hundreds of applications. This information helped to quantify how much effort (man hours) it would take to implement these processes in Hadoop, and which applications would most benefit in terms of financial and time-related ROI by migrating to Hadoop. They decided to start with SQL-based transformations, and implemented 2 applications from start to finish as part of the POC..Solution: After a very in-depth POC involving 30+ representatives from the bank, they deployed Cloudera to offload data processing, storage and some analytics from the Teradata system, freeing up space on the EDW so it could focus on its real purpose: performing high value operational and data discovery analytics. They didn’t migrate the entire system at once -- they started with the applications that would deliver the most value and save the most Teradata resources. The bank initially deployed a small cluster, demonstrating that they could meet Teradata’s performance at a fraction of cost.Results: Cloudera delivers value to this bank through our low cost per terabyte, low cost of implementation, compute savings, and the flexibility offered by Hadoop. The bank was able to justify the ROI of Cloudera very easily from a cost perspective, with Teradata as the incumbent. They were spending over $180,000 per terabyte on Teradata (which is unusually high -- most Teradata customers probably pay closer to $40,000 per TB). Cloudera offers $1,000 per terabyte.By offloading data processing and storage onto Cloudera, the bank avoided spending millions to expand their Teradata infrastructure, while reclaiming the 7 days every month that Teradata was spending on data transformations. Expensive CPU is no longer consumed by data processing, and storage costs are a mere 1% of what they were before. Meanwhile, data processing is 42% faster and data center power consumption has been reduced by 25%. The bank can now process 10TB of data every day.In addition, Cloudera delivered technical value through its flexible scalability. The bank could deploy and test on a small cluster of 15 nodes to see how performance scales linearly with growth, versus having to buy in large chunks as they do with Teradata.
  2. The quant risk LOB within a multinational bank saves millions through better risk exposure and fraud prevention analysis, while avoiding expanding their data warehouse footprint. Background: With the movement from in-person to online banking, a multinational bank processes increasingly more transactions -- 2 billion per month. Increased transactions translate into growing data volumes, and greater potential to use that data for better, more data driven fraud prevention. Challenge: While opening the door to better fraud prevention, today’s frequent banking transactions also necessitate constant revisions to risk profiles which is data processing intensive. And detecting fraud is a complex, difficult process that requires a continuous cycle of sampling a subset of data, building a data model, finding an outlier that breaks the model, going back and rebuilding the model, and so forth. The bank’s existing Teradata warehouse was optimized for logical analysis and reporting and had reached its capacity. It would be very costly to expand the current environment, but to continue operating within that environment would necessitate more sampling, aggregations, or moving data to offline tape backup. Doing this would mean the bank had to ignore the opportunity to create better risk and fraud detection models presented by its growing, digital data volumes. Solution: The bank deployed Cloudera Enterprise as its data factory for fraud detection and prevention and risk analysis across home loans, insurance and online banking. Results: With the new environment, this bank has avoided expanding their expensive Teradata footprint while eliminating data sampling and improving fraud detection and risk analysis models. Now, they can look at every incidence of fraud for each person over a 5 year history. And they’ve been able to offload data processing to Hadoop in order to conserve the expensive Teradata CPU for analytical tasks.
  3. A large semiconductor manufacturer has improved the accuracy of their yield predictions by running models on a larger data set: 10 years of data instead of 9 months. Background: A large semiconductor manufacturer uses yield models to predict which chips are likely to fail. Those predictions allow the company to take action -- they can adjust designs and thus minimize failures. Those predictive yield models were run on Oracle, based on 9 months of historical data. Challenge: The company wanted to improve the accuracy of their models by using a larger data set containing longer history and more granular information. But they couldn’t afford to store more than 9 months’ data on Oracle. Solution: The semiconductor manufacturer deployed the Dell | Cloudera solution for Apache Hadoop with HBase, which gives them unlimited scale and more flexible data capture and analysis at 10x lower TCO than traditional data warehouse environments. The company runs a 53-node cluster today, and expects to store up to 10 years data on CDH -- this will amount to about 10PB of data. The manufacturer can now collect and process data from every phase of the manufacturing process. Results: Since deploying the Dell | Cloudera solution, the manufacturer met its goal of improving the accuracy of their predictive yield models so they could optimize operations. When problems occur with chips, they can answer questions like: Where and why did the problem occur?Which manufacturing plant did this chip come from?Which components were used?Ultimately, this manufacturer is improving its operational efficiency with the Dell | Cloudera solution for Apache Hadoop.
  4. Link to account record in SFDC (valid for Cloudera employees only): https://na6.salesforce.com/0018000000l7XjiBlackBerry realized ROI on their Cloudera investment through storage savings alone, while reducing ETL code by 90%.Background: BlackBerry transformed the mobile devices market in 1999 with their introduction of the BlackBerry smartphone. Since then, other industry innovators have introduced devices that compete against BlackBerry, and the company must leverage all of the data it can collect in order to understand its customers, what they need and want in mobile devices, and how to remain an industry leader. Challenge: BlackBerry Services generate ½ PB of data every single day -- or 50-60TB compressed. They couldn’t afford to store all of this data on their relational database, so their analytics were limited to a 1% data sample which reduced the accuracy of those analytic insights. And it took a long time to try to access data in the archive. Their incumbent system couldn’t cope with the multiplying growth of data volumes or constant access requests -- BlackBerry had to pipeline their data flows to prevent the data from hitting disk.Solution: BlackBerry deployed Cloudera Enterprise to provide a queryable data storage environment that would allow them to put all of their data to use. Today, BlackBerry has a global dataset of ~100 PB stored on Cloudera. The platform collects device content, machine-generated log data, audit details and more. BlackBerry has also converted ETL processes to run in Cloudera, and Cloudera feeds data into the data warehouse. Hadoop components in use include Flume, Hive, Hue, MapReduce, Pig and Zookeeper. Results: BlackBerry’s investment in Cloudera was justified through data storage cost savings alone. And by moving data processing over to Hadoop, their ETL code base has been reduced by 90%. They no longer have to rely on a 1% data sample for analytics; they can query all of their data -- faster, on a much larger data set, and with greater flexibility before. One ad hoc query that used to take 4 days to run now finishes in 53 minutes on Cloudera. BlackBerry’s new environment allowed them to do things like predict the impact that the London Olympics would have on their network so they could take proactive measures and prevent a negative customer experience.
  5. Link to account record in SFDC (valid for Cloudera employees only): https://na6.salesforce.com/0018000000y2z1Y?srPos=0&amp;srKp=001A leading manufacturer of mobile devices and technology identified a hidden software bug that was causing a spike in mobile phone returns. Background: Leading manufacturer of mobile devices and technology develops products that connect seamlessly so consumers have the best content at their fingertips 24x7. The company’s engineering department is responsible for manufacturing mobile phones and for developing a popular mobile platform. In recent years, consumers’ use of mobile phones has evolved from making calls to checking emails, taking photos and videos, buying things online and more. Mobile devices today actually make up more than 20% of all web traffic in the US.Challenge: The volumes of data that need to be collected, stored, explored and analyzed are exploding. Every device generates a massive stream of unstructured data from texts, photos, videos, web browsing, and so on. And today’s competitive market requires the company to not only find a way to capture more data more data volumes than ever before, but they also need to be able to process that data and act on it rapidly in order to stay innovative. The company’s Oracle RAC enterprise data warehouse couldn’t keep up. Solution: This company today leverages Cloudera Enterprise Core with RTD in conjunction with Oracle RAC; the two platforms work together for a closed loop analytical process. The company offloads data processing and historical storage from Oracle to CDH, and moves data as needed back into Oracle for reporting and analysis. They process 1TB of data every day. Oracle houses a few months of recent data which is available to business analysts for immediate reporting — both ad hoc and canned reports — whereas CDH is used for historical trend analysis (via Hive) of up to 25 years’ history. Oracle contains aggregated data; CDH captures all of the detailed data.Results: Hadoop’s ability to run large-scale, complex analysis is helping this company gain insights that would otherwise be hidden. In one case, a carrier that had been selling a popular phone noticed a sudden spike in returns. The carrier brought this issue to attention, and the manufacturer’s R&amp;D team started investigating. After collecting a lot of data spread across numerous systems and conducting intensive research in CDH, they found a correlation between when they’d starting using a new hardware supplier for one component in the device and when returns of that device started to spike. The new hardware component had the same specs and was actually a better quality product, with a more narrow standard deviation for error. It turns out that the larger deviation in the original component actually allowed the software to work properly; when the quality of the component was stricter, a software bug manifested itself. By using Hadoop to combine carrier data with manufacturing data, this company was able to identify the problem and fix the software bug.
  6. YP (YellowPages.com, previously AT&amp;T Interactive) offloads data processing to Cloudera, which in turn enables new services that are valuable to publishers.Background: With the movement from print (publishing the YellowPages books) to predominant usage of the web (YellowPage.com), YP’s business relies on display ads that are purchased by publishers and vendors. In order to keep publishers buying ads, YP needs to be able to offer near real time analytics so the publishers can monitor how their campaigns are doing and make adjustments on the fly. Challenge: YP’s incumbent SQL Server data warehouse was not a scalable solution, and with increasing data volumes, performance was poor. YP generates 260 million billable web traffic events and 600 million non-billable events every day, and the business was demanding they keep 13 months of billable history and 90 days non-billable history in the data warehouse so that data would be available for analysis.Solution: YP replaced their SQL Server data warehouse with HP Vertica and Cloudera Enterprise. Cloudera serves as the core production traffic processing system that helps the company understand its network quality and traffic, and uses Vertica for reporting and analysis. YP currently has 315 CDH nodes and about 30 TB on Vertica. Results: With their new system, YP’s data processing is completed in hours vs. days in the previous environment. This has ultimately enabled YP to launch several new business functions that increase the value they offer publishers including: Real-time publisher portalsFaster behavioral targetingReal-time traffic analysisNetwork quality analyticsWith the faster data processing enabled by Cloudera, YP is better equipped to identify areas they should invest in as a business which are likely to drive revenues.