Construindo um Data Lake na AWS

© 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark.
AWSWebinar Series Brasil
Pedro Rates – prrates
AWS – Arquiteto de Soluções
Construindo um Data Lake na nuvem AWS

© 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Como interagir durante o evento?
Você tem um projeto e
quer conversar com o
time comercial da
AWS?
Acesse o LIVE CHAT
neste QR code ou pelo
link enviado no chat do
evento.
Perguntas & Respostas
ao vivo durante todo o
evento
Tire suas dúvidas com os
especialistas da AWS!
Clique no símbolo “?” e
envie suas perguntas.

Tradicionalmente, o processo de tomada de decisões
OLTP
ERP CRM
LOB
Enterprise data warehouse
Business intelligence
…dependia de um data warehouse

Os dados não cabem mais
* IDC, Data Age 2025: The Evolution of Data to Life-Critical: Don’t Focus on Big Data, Focus on the Data That’s Big, April 2017.
Dados
a cada 5 anos
Hámaisdadosqueaspessoas
pensam
15
anos
existir por
Plataforma de dados:
1,000x
crescimento
>10x
crescem
Osdadossãomaisdiversos

Hámaispessoas
acessandoosdados
Emaiornecessidadede
disponbilidadedosdados
Data Scientists
Analysts
Business Users
Applications
Machine Learning
SQL analytics
Scientific
Real-time,
streaming
Cargas de trabalho cada vez mais diversas

Maior pressão regulatória
Democratização
dos dados
Governança
e controle
cumprir com as
regulamentações e
requisitos de governança?
Como democratizar o
acesso aos dados e

Um data lake é um repositório centralizado que
permite o armazenamento qualquer quantidade
dados, estruturados e não estruturados

Por que utilizar data lakes?
Data Lakes proporciona:
Dados relacionais e não relacionais
Escala de Exabytes
Conjunto diversos de ferramentas de Analytics e ML
Trabalhar com os dados sem precisar movê-los
Projetado para armazenamento e analytics de baixo
custo
OLTP ERP CRM LOB
Data Warehouse
Business
Intelligence
Data Lake
100110000100101011100
101010111001010100001
011111011010
0011110010110010110
0100011000010
Devices Web Sensor
s
Social
Catalog
Machine
Learning
DW
Queries
Big data
processing
Interactive Real-time

Há mais data lakes e analytics na AWS que em qualquer outro lugar

Desafios na construção de um Data Lake

Construir data lakes limpos e seguros
pode levar meses

A preparação dos dados representa ~80% do trabalho
Desenvolvimento de conjuntos de treinamento
Limpeza e organização dos dados
Coletar conjuntos de dados
Mineração dos dados para obter padrões
Refinamento de algoritmos
Outros

Etapas necessárias para construir um data lake
Setup storage
1
Move data
2 Cleanse, prep,
and catalog data
3
Configure and enforce
security and compliance
policies
4
Make data available
for analytics
5
Implementar a arquitetura de um Data Lake requer um amplo conjunto de
ferramentas e tecnologias para atender aplicações e casos de uso cada vez
mais diversos.

Exemplos de etapas na AWS Find sources
Create Amazon Simple Storage Service (Amazon S3) locations
Configure access policies
Map tables to Amazon S3 locations
Create metadata access policies
Configure access from Analytics end services
Repetir para outros:
data sets, usuários, e aplicações
And more:
gerenciar e monitorar os jobs de ETL
atualizar catálogo de metadados
atualizar as políticas de acesso de usuário e aplicações
manutenção dos scripts de limpeza dos dados
criação de processos de auditoria para aderência ao compliance
…
Manual | Falha Humana | Consome tempo
ETL Jobs to clean and prepare data

Serviço totalmente gerenciado que permite que
Analistas de
dados
construam data lakes limpos e seguros em dias
AWS Lake Formation
Cientistas de
dados
Engenheiros
de dados

AWS Lake Formation Solution Stack
Amazon S3
Data Lake Storage Armazenamento durável, com capacidade de
replicação global, e com alto custo-benefício
Processo de ingestão e limpeza dos dados
permite aos engenheiros de dados
desenvolver com mais agilidade
Gerenciamento centralizado de permissões
granulares ampliam a capacidade do time de
segurança
Ferramentas de descoberta,
compartilhamento, e integração disponíveis
para todos os usuários
Amazon
Athena
Amazon
QuickSight
Amazon
Redshift
AWS
Glue
Amazon
EMR
Lake Formation
AWS Glue Blueprints
ML
Transforms
Data
Catalog
Access
Control
AWS
SageMaker

Projetado para 11 9s
de durabilidade
Projetado para
99.99% de disponibilidade
Durável Disponível Alto desempenho
 Upload por partes
 GET por partes
 Armazene quanto for necessário
 Aumente armazenamento e
processamento independemente
 Sem necessidade de uso mínimo
Escalável
 Amazon EMR
 Amazon Redshift
 Amazon DynamoDB
 Amazon SageMaker
 Muitos mais
Integrado
 REST API simples
 AWS SDKs
 Consistência read-after-create
 Notificações de eventos
 Políticas de ciclo de vida
Fácil de usar
Por que usar o Amazon S3 para o Data Lake?

Registre dados já existentes ou importe conteúdo novo
Amazon S3 forma a camada de
armazenamento do Lake Formation
Registre buckets do S3 existentes contendo
seus dados
Configure o Lake Formation para criar os
buckets do S3 necessários e importar os
dados para dentro deles
Os dados são armazenados na sua conta.
Você tem acesso direto à eles. Não há lock-
in.
Data Lake Storage
Data
Catalog
Access
Control
Data import
Lake Formation
Crawlers ML-based
data prep

Carregue dados no seu data lake facilmente
logs
DBs
Blueprints
Data Lake Storage
Data
Catalog
Access
Control
Data import
Lake Formation
Crawlers ML-based
data prep
Uma vez
incremental

Com os blueprints
Você
1. Configure a fonte de dados
2. Configure o local para o qual
carregar os dados no data
lake
3. Especifique o quão
frequentemente você deseja
carregar dados
Blueprints
1. Descobre o schema das
tabelas
2. Converte automaticamente
para o formato do destino
3. Particiona os dados
automaticamente conforme o
particionamento do schema
4. Mantém o registro dos dados
já processados
5. Todas as opções acima são
customizáveis

Orquestra os triggers,
crawlers & jobs
Cria e monitora fluxos
inteiros
Sistema de alertas
integrado
AWS Glue fornece componentes serverless
escaláveis
Data Catalog Serverless ETL
Compatível com
Apache Hive
Metastore
Integrado com os
serviços de analytics
AWS
Crawlers Flexible Workflows
Infere
automaticamente os
schemas
Popula o data catalog
Desenvolvimento
interativo
Apache Spark / Python
shell jobs
Execução serverless

Permissões de segurança no AWS Lake Formation
Controle o acesso aos dados simplesmente
concedendo ou revogando permissões
Especifique permissiões em DBs, tabelas, e colunas
ao invés de objetos ou buckets
Visualize facilmente as permissões concedidas à um
usuário específico
Audite todo o acesso aos dados em um só lugar
User
1
User
2

Modelo de segurança do AWS Lake Formation

Auditoria e monitoração em tempo real
Veja informações completas dos
eventos no console
Download dos logs para análises
mais detalhadas
Eventos podem ser integrados a
outros serviços, como o
CloudWatch

Informações adicionais
AWS Lake Formation: https://aws.amazon.com/pt/lake-formation/
AWSGlue: https://aws.amazon.com/pt/glue/
Lake Formation Getting Started Blogpost: https://aws.amazon.com/pt/blogs/big-
data/getting-started-with-aws-lake-formation/

Perguntas?
Lembre-se de responder a pesquisa de satisfação no final

© 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Obrigado!
Fique por dentro das
próximas sessões
Acesse a agenda de
webinars neste QR code
e inscreva-se!
QR CODE
Conte-nos o que achou
do webinar
Clique em “sair” para
responder uma rápida
pesquisa de satisfação.

Construindo um Data Lake na AWS

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à Construindo um Data Lake na AWS

Similaire à Construindo um Data Lake na AWS (20)

Plus de Amazon Web Services LATAM

Plus de Amazon Web Services LATAM (20)

Construindo um Data Lake na AWS