HBase es un sistema de almacenamiento de datos NoSQL de código abierto distribuido y basado en columnas inspirado en Bigtable de Google. Usa HDFS para el almacenamiento y se divide en regiones que se distribuyen entre servidores. Grandes empresas como Facebook, Salesforce y Explorys usan HBase para almacenar decenas de petabytes de datos y miles de millones de filas.
3. Qué es HBase?
Clon de Google BigTable:
http://labs.google.com/papers/bigtable.html
Creada originalmente en Powerset en 2007
SubProyecto de Apache Hadoop
3
4. Modelo de almacenamiento
basado en columnas
Es un sistema de almacenamiento orientado a
columnas semiestructurado
Distribuido sobre varios servidores
Tolerante a fallos de servidores
Usa HDFS como sus sistema de almacenamiento
4
5. Tablas y regiones
Las filas son almacenadas en un orden det tipo byte-
lexicográfico
Las tablas son dinámicamente divididas en ¨regiones¨
Cada región contiene los valores desde [startKey,
endKey]
Las regiones son hosteadas en un RegionServer 5
7. Almacenamiento
Piensen en un sistema de etiquetas. Los valores pueden
ser de cualquier dimensión, no hay nombres
predefinidos o tamaños
7
8. Familia de columnas
Las tablas estás compuestas por 1 o más Columns
Families (CF), que no son más que unidades para la
optimización del rendimiento
8
12. Quién usa HBase?
110 TB en HDFS
~ 40 TB en HBase
2300 crash p/min
> 120 servidores
físicos
12
13. Quién usa HBase?
+30 Billones de
eventos
de + 10 Millones
de usuarios
+ 10 años de datos
(clínicos, financieros,
operacionales)
13
14. Quién usa HBase?
OpenTSDB: sistema desarrollado para el
monitoreo de todos los servicios y
servidores en SU
~ 6 TB en HBase para las métricas
>100 TB en otro cluster de HBase para el
sistema de recomendación
Emplean a varios de los HBase commiters
14
16. Desarrollo futuro de HBase
* Apache Hadoop 2.0: HA NameNode, no más SPOF para
HBase
* Failover automático para HA Namenodes (HDFS-3042)
* Pistas para el copiado de bloques de forma específica
(HBASE-4755)
* Hard links para HDFS (HDFS-3370): Permitirá el clonado y
snapshots de tablas eficientemente
16
17. Contactos
Todd Lipcon (Cloudera)
Lars George (Cloudera)
Michael Stack (StumbleUpon)
Jean-Daniel Cryans (StumbleUpon)
Nicolas Spiegelberg (Facebook)
Jonathan Grey (Former VP of Data Engineering Team at
Facebook, Founder at Continuuity)
Andrew Purtell (Trend Micro)
Lars Hofhansl (Salesforce.com)
Doug Meil (CTO at Explorys) 17
19. Recursos
HBase at Explorys: How Big Data saved lives:
http://www.slideshare.net/cloudera/from-big-data-to-lives-saved-hbase-in-heathca
HBase and HDFS: Past, Present and Future por Todd Lipcon:
http://www.slideshare.net/cloudera/1-todd-lipcon-past-present-futurepdf
Powered by HBase's list:
http://wiki.apache.org/hadoop/Hbase/PoweredBy
19