O documento apresenta o AWS Lake Formation como uma solução gerenciada para construir data lakes limpos e seguros na nuvem AWS de forma rápida. O Lake Formation permite registrar dados existentes no Amazon S3, importar dados de fontes variadas usando crawlers e blueprints, e fornece ferramentas de governança e segurança para controlar o acesso aos dados.
4. Tradicionalmente, o processo de tomada de decisões
OLTP
ERP CRM
LOB
Enterprise data warehouse
Business intelligence
…dependia de um data warehouse
5. Os dados não cabem mais
* IDC, Data Age 2025: The Evolution of Data to Life-Critical: Don’t Focus on Big Data, Focus on the Data That’s Big, April 2017.
Dados
a cada 5 anos
Hámaisdadosqueaspessoas
pensam
15
anos
existir por
Plataforma de dados:
1,000x
crescimento
>10x
crescem
Osdadossãomaisdiversos
9. Um data lake é um repositório centralizado que
permite o armazenamento qualquer quantidade
dados, estruturados e não estruturados
10. Por que utilizar data lakes?
Data Lakes proporciona:
Dados relacionais e não relacionais
Escala de Exabytes
Conjunto diversos de ferramentas de Analytics e ML
Trabalhar com os dados sem precisar movê-los
Projetado para armazenamento e analytics de baixo
custo
OLTP ERP CRM LOB
Data Warehouse
Business
Intelligence
Data Lake
100110000100101011100
101010111001010100001
011111011010
0011110010110010110
0100011000010
Devices Web Sensor
s
Social
Catalog
Machine
Learning
DW
Queries
Big data
processing
Interactive Real-time
11. Há mais data lakes e analytics na AWS que em qualquer outro lugar
14. A preparação dos dados representa ~80% do trabalho
Desenvolvimento de conjuntos de treinamento
Limpeza e organização dos dados
Coletar conjuntos de dados
Mineração dos dados para obter padrões
Refinamento de algoritmos
Outros
15. Etapas necessárias para construir um data lake
Setup storage
1
Move data
2 Cleanse, prep,
and catalog data
3
Configure and enforce
security and compliance
policies
4
Make data available
for analytics
5
Implementar a arquitetura de um Data Lake requer um amplo conjunto de
ferramentas e tecnologias para atender aplicações e casos de uso cada vez
mais diversos.
16. Exemplos de etapas na AWS Find sources
Create Amazon Simple Storage Service (Amazon S3) locations
Configure access policies
Map tables to Amazon S3 locations
Create metadata access policies
Configure access from Analytics end services
Repetir para outros:
data sets, usuários, e aplicações
And more:
gerenciar e monitorar os jobs de ETL
atualizar catálogo de metadados
atualizar as políticas de acesso de usuário e aplicações
manutenção dos scripts de limpeza dos dados
criação de processos de auditoria para aderência ao compliance
…
Manual | Falha Humana | Consome tempo
ETL Jobs to clean and prepare data
17. Serviço totalmente gerenciado que permite que
Analistas de
dados
construam data lakes limpos e seguros em dias
AWS Lake Formation
Cientistas de
dados
Engenheiros
de dados
18. AWS Lake Formation Solution Stack
Amazon S3
Data Lake Storage Armazenamento durável, com capacidade de
replicação global, e com alto custo-benefício
Processo de ingestão e limpeza dos dados
permite aos engenheiros de dados
desenvolver com mais agilidade
Gerenciamento centralizado de permissões
granulares ampliam a capacidade do time de
segurança
Ferramentas de descoberta,
compartilhamento, e integração disponíveis
para todos os usuários
Amazon
Athena
Amazon
QuickSight
Amazon
Redshift
AWS
Glue
Amazon
EMR
Lake Formation
AWS Glue Blueprints
ML
Transforms
Data
Catalog
Access
Control
AWS
SageMaker
19. Projetado para 11 9s
de durabilidade
Projetado para
99.99% de disponibilidade
Durável Disponível Alto desempenho
Upload por partes
GET por partes
Armazene quanto for necessário
Aumente armazenamento e
processamento independemente
Sem necessidade de uso mínimo
Escalável
Amazon EMR
Amazon Redshift
Amazon DynamoDB
Amazon SageMaker
Muitos mais
Integrado
REST API simples
AWS SDKs
Consistência read-after-create
Notificações de eventos
Políticas de ciclo de vida
Fácil de usar
Por que usar o Amazon S3 para o Data Lake?
21. Registre dados já existentes ou importe conteúdo novo
Amazon S3 forma a camada de
armazenamento do Lake Formation
Registre buckets do S3 existentes contendo
seus dados
Configure o Lake Formation para criar os
buckets do S3 necessários e importar os
dados para dentro deles
Os dados são armazenados na sua conta.
Você tem acesso direto à eles. Não há lock-
in.
Data Lake Storage
Data
Catalog
Access
Control
Data import
Lake Formation
Crawlers ML-based
data prep
22. Carregue dados no seu data lake facilmente
logs
DBs
Blueprints
Data Lake Storage
Data
Catalog
Access
Control
Data import
Lake Formation
Crawlers ML-based
data prep
Uma vez
incremental
23. Com os blueprints
Você
1. Configure a fonte de dados
2. Configure o local para o qual
carregar os dados no data
lake
3. Especifique o quão
frequentemente você deseja
carregar dados
Blueprints
1. Descobre o schema das
tabelas
2. Converte automaticamente
para o formato do destino
3. Particiona os dados
automaticamente conforme o
particionamento do schema
4. Mantém o registro dos dados
já processados
5. Todas as opções acima são
customizáveis
24. Orquestra os triggers,
crawlers & jobs
Cria e monitora fluxos
inteiros
Sistema de alertas
integrado
AWS Glue fornece componentes serverless
escaláveis
Data Catalog Serverless ETL
Compatível com
Apache Hive
Metastore
Integrado com os
serviços de analytics
AWS
Crawlers Flexible Workflows
Infere
automaticamente os
schemas
Popula o data catalog
Desenvolvimento
interativo
Apache Spark / Python
shell jobs
Execução serverless
25.
26. Permissões de segurança no AWS Lake Formation
Controle o acesso aos dados simplesmente
concedendo ou revogando permissões
Especifique permissiões em DBs, tabelas, e colunas
ao invés de objetos ou buckets
Visualize facilmente as permissões concedidas à um
usuário específico
Audite todo o acesso aos dados em um só lugar
User
1
User
2
28. Auditoria e monitoração em tempo real
Veja informações completas dos
eventos no console
Download dos logs para análises
mais detalhadas
Eventos podem ser integrados a
outros serviços, como o
CloudWatch