Recolectar y analizar grandes cantidades de datos se ha convertido en algo esencial para muchas organizaciones. El uso de Data Lakes se ha convertido en una popular estrategia para almacenar todo tipo de datos estructurados y no-estructurados, y centralizarlos en una única fuente. Únase a este webinar para descubrir cómo puede crear y administrar facilmente un data lake seguro usando servicios de AWS.
2. ¿Cómo interactuar durante el evento?
¿Tiene un proyecto y
necesita ayuda de
nuestro equipo
comercial?
Acceda al LIVE CHAT
con este QR code o con
el enlace enviado en el
chat del evento.
Preguntas y respuestas en
vivo durante todo el evento
¡Haga sus preguntas
directamente a los expertos
de AWS!
Haga clic en el signo "?"
y envíe sus preguntas.
4. * IDC, Data Age 2025: The Evolution of Data to Life-Critical: Don’t Focus on Big Data, Focus on the Data That’s Big, April 2017.
Datos
cada 5 años
Hoyhaymásdatosque
personas
Losdatossonmásdiversos
15
años
existir por
Las plataforma de datos
necesitan:
1,000x
crecer
>10x
crecen
Los datos ya no caben
6. Democratización
de los datos
Governanza
y control
cumplir con las regulaciones y
requerimientos de governanza?
Cómo democratizar el
acceso a los datos
y a la vez
Mayor presión para regular
7. Un data lake es un repositorio centralizado que
permite el almacenamiento de todos tus datos,
estructurados y no estructurados, a cualquier escala
8. Data Lakes proporciona:
Datos relacionales y no relacionales
Escala de Exabytes
Conjunto diverso de herramientas de Analytics y ML
Capacidad de trabajar sobre tus datos sin moverlos
Bajo costo de storage y analytics
OLTP ERP CRM LOB
Data Warehouse
Business
Intelligence
Data Lake
100110000100101011100101010
111001010100001011111011010
0011110010110010110
0100011000010
Devices Web Sensors Social
Catalog
Machine
Learning
DW Queries
Big data
processing
Interactive Real-time
Por qué utilizar data lakes?
9. Amazon S3
Durabilidad, disponibilidad,
y escalabilidad inigualadas
Define puntos de acceso
para aumentar la seguridad
de datos compartidos
Fácil de usar con
optimización de costos:
Intelligent-tiering
Mejores funcionalidades en
seguridad, compliance,
y auditoría
Variedad de formas
para ingestar data
Portafolio más Amplio
de Analytics en AWS
Funcionalidades para data “fría”
y archivo de datos
Amazon S3 es la elección más popular
para Data Lakes
10. AWS Direct
Connect
AWS Database
Migration
Service
AWS
Snowball
On-premises
Data Movement
AWS IoT
Core
Amazon
Kinesis
Real-time
Data Movement
Almacenamiento
Centralizado
Almacenamiento Seguro y
costo-efectivo, con Amazon
S3
Amazon S3
P
roc
es
am
ientoyA
nalytic
s
Amazon
Athena
Amazon
EMR
AWS
Glue
Amazon
Redshift
Amazon
DynamoDB
Amazon
QuickSight
Amazon
Kinesis
Amazon
Elasticsearch
Service
Amazon
Neptune
Amazon
RDS
M
ac
hineL
earningyA
I
TensorFlow
on AWS
AWS
DeepLens
AWS Deep
Learning
AMIs
Amazon
SageMaker
Amazon
Rekognition
Amazon
Kendra
Amazon Fraud
Detector
Amazon
Forecast
Amazon
Comprehend
Amazon
Lookout for
Metrics
Robusta infraestructura para Data Lake con AWS
11. Más data lakes y analytics en AWS que en cualquier otro lugar
13. Construcción de datasets de entrenamiento
Limpieza y organización de los datos
Recolectar los datasets
Minería de los datos para encontrar patrones
Tunning de los algoritmos
Otros
La preparación de los datos representa ~80% del trabajo
15. Servicio totalmente administrado que permite que
Analistas de
datos
construyan data lakes limpios y seguros en días
Científicos de
datos
Ingenieros de
datos
AWS Lake Formation
16. Amazon S3
Data Lake Storage
Almacenamiento durable, costo-efectivo con capacidad
de replicación global
Proceso de ingesta y limpieza de datos simplificado
para brindar agilidad a ingenieros de datos
Administración centralizada de permisos granulares
para equipo de seguridad
Herramientas integradas de descubrimiento, análisis
y reports disponibles para todos los usuarios
Amazon
Athena
Amazon
QuickSight
Amazon
Redshift
AWS
Glue
Amazon
EMR
Lake Formation
AWS Glue Blueprints
ML
Transforms
Data
Catalog
Access
Control
AWS
SageMaker
AWS Lake Formation Solution Stack
17. Cómo funciona?
Asegura y Controla
Define controles de acceso para
proveer la data correcta a los
usuarios, grupos y roles correctos.
Granularidad a nivel de bases de
datos flexibles, tablas y columnas.
Ingesta y Organiza
Automáticamente ingesta, limpia,
encripta y registra el contenido de
buckets de Amazon S3, incluyendo
logs de CloudTrail, CloudFront y
Amazon ELB.
Colabora y Utiliza
Descubre y busca utilizando el
catálogo de metadata. Todos los
accesos son evaluados según las
políticas, por lo que tus datos están
protegidos incluso si las herramientas
cambian o nuevos datos son
guardados.
Monitorea y Audita
Genera alertas ante solicitudes de
acceso y excepciones de políticas.
Revisa el historial de actividad con
logs detallados sobre cambios y
linaje de la data.
21. Elimina fácilmente duplicados en tu data con
transformaciones de ML
Junta registros
relacionados, luego Lake
Formation separará
muestras de
entrenamiento y testeo
Lake Formation
identifica los registros
duplicados y aplica un
algorithmo fuzzy match
Ajusta o entrega
nuevos ejemplos de
asociaciones hasta que
estés satisfecho con el
performance del
modelo
Agrega la
transformación de ML
entrenada como parte
de tu flujo de
preparación de datos
22. 1. El administrador configura los permisos de
un usuario sobre los recursos en el data
catalog: bases de datos, tablas y columnas
2. El usuario accede a los
datos usando los servicios
integrados
unifica la metadata y
los permisos de
acceso a los datos.
Otorga acceso a los
recursos.
Permisos Centralizados
23. AWS Lake Formation Security – Dive deep
Redshift
Spectrum
Glue
EMR Athena
User
Query T
Request access for T
Short-term creds for T
Amazon S3
Request objs comprising T
Return objs of T
AWS
Lake Formation
1
2
3
4
5
Principals can be
IAM users, roles, and
users via federation
e.g., Active Directory
Integrated services
24. Controla el acceso a los datos con simples
políticas: permitir y denegar
Especifica permisos sobre DBs, tablas, y
columnas del data catalog en vez de buckets u
objetos
Visualiza fácilmente los permisos otorgados a
un usuario en particular
Audita el acceso a tus datos todo desde un
mismo lugar
User 1
User 2
Permisos de acceso en AWS Lake Formation
25. Búsqueda basada en texto en las tablas
que contienen la metadata
Puedes añadir atributos como los Data
owners, stewards y otras propiedades
asociadas al origen de datos
Añade atributos como nivel de
sensibilidad de los datos, definiciones de
columnas y otras propiedades asociadas
a cada columnas
Búsqueda y filtros basados en texto
Consulta datos en
Amazon Athena
Busca y colabora entre múltiples usuarios
26. See detailed alerts in the console
Download audit logs for further
analytics
Data ingest and catalog
notifications also published to
AmazonCloudWatch events
Audita y monitorea en tiempo real
28. ¡Gracias!
Manténgase informado
sobre las próximas
sesiones
¡Accede a la
programación del
webinar con este código
QR y regístrese!
QR CODE
Cuéntenos qué opina
del seminario web
Haga clic en “salir” para
responder a una
encuesta de
satisfacción rápida