SlideShare une entreprise Scribd logo
1  sur  33
© 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark.
AWSWebinar Series Brasil
Pedro Rates – prrates
AWS – Arquiteto de Soluções
Construindo um Data Lake na nuvem AWS
© 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Como interagir durante o evento?
Você tem um projeto e
quer conversar com o
time comercial da
AWS?
Acesse o LIVE CHAT
neste QR code ou pelo
link enviado no chat do
evento.
Perguntas & Respostas
ao vivo durante todo o
evento
Tire suas dúvidas com os
especialistas da AWS!
Clique no símbolo “?” e
envie suas perguntas.
A revolução dos dados
Tradicionalmente, o processo de tomada de decisões
OLTP
ERP CRM
LOB
Enterprise data warehouse
Business intelligence
…dependia de um data warehouse
Os dados não cabem mais
* IDC, Data Age 2025: The Evolution of Data to Life-Critical: Don’t Focus on Big Data, Focus on the Data That’s Big, April 2017.
Dados
a cada 5 anos
Hámaisdadosqueaspessoas
pensam
15
anos
existir por
Plataforma de dados:
1,000x
crescimento
>10x
crescem
Osdadossãomaisdiversos
Hámaispessoas
acessandoosdados
Emaiornecessidadede
disponbilidadedosdados
Data Scientists
Analysts
Business Users
Applications
Machine Learning
SQL analytics
Scientific
Real-time,
streaming
Cargas de trabalho cada vez mais diversas
Maior pressão regulatória
Democratização
dos dados
Governança
e controle
cumprir com as
regulamentações e
requisitos de governança?
Como democratizar o
acesso aos dados e
Introdução ao Data Lake
Um data lake é um repositório centralizado que
permite o armazenamento qualquer quantidade
dados, estruturados e não estruturados
Por que utilizar data lakes?
Data Lakes proporciona:
Dados relacionais e não relacionais
Escala de Exabytes
Conjunto diversos de ferramentas de Analytics e ML
Trabalhar com os dados sem precisar movê-los
Projetado para armazenamento e analytics de baixo
custo
OLTP ERP CRM LOB
Data Warehouse
Business
Intelligence
Data Lake
100110000100101011100
101010111001010100001
011111011010
0011110010110010110
0100011000010
Devices Web Sensor
s
Social
Catalog
Machine
Learning
DW
Queries
Big data
processing
Interactive Real-time
Há mais data lakes e analytics na AWS que em qualquer outro lugar
Desafios na construção de um Data Lake
Construir data lakes limpos e seguros
pode levar meses
A preparação dos dados representa ~80% do trabalho
Desenvolvimento de conjuntos de treinamento
Limpeza e organização dos dados
Coletar conjuntos de dados
Mineração dos dados para obter padrões
Refinamento de algoritmos
Outros
Etapas necessárias para construir um data lake
Setup storage
1
Move data
2 Cleanse, prep,
and catalog data
3
Configure and enforce
security and compliance
policies
4
Make data available
for analytics
5
Implementar a arquitetura de um Data Lake requer um amplo conjunto de
ferramentas e tecnologias para atender aplicações e casos de uso cada vez
mais diversos.
Exemplos de etapas na AWS Find sources
Create Amazon Simple Storage Service (Amazon S3) locations
Configure access policies
Map tables to Amazon S3 locations
Create metadata access policies
Configure access from Analytics end services
Repetir para outros:
data sets, usuários, e aplicações
And more:
gerenciar e monitorar os jobs de ETL
atualizar catálogo de metadados
atualizar as políticas de acesso de usuário e aplicações
manutenção dos scripts de limpeza dos dados
criação de processos de auditoria para aderência ao compliance
…
Manual | Falha Humana | Consome tempo
ETL Jobs to clean and prepare data
Serviço totalmente gerenciado que permite que
Analistas de
dados
construam data lakes limpos e seguros em dias
AWS Lake Formation
Cientistas de
dados
Engenheiros
de dados
AWS Lake Formation Solution Stack
Amazon S3
Data Lake Storage Armazenamento durável, com capacidade de
replicação global, e com alto custo-benefício
Processo de ingestão e limpeza dos dados
permite aos engenheiros de dados
desenvolver com mais agilidade
Gerenciamento centralizado de permissões
granulares ampliam a capacidade do time de
segurança
Ferramentas de descoberta,
compartilhamento, e integração disponíveis
para todos os usuários
Amazon
Athena
Amazon
QuickSight
Amazon
Redshift
AWS
Glue
Amazon
EMR
Lake Formation
AWS Glue Blueprints
ML
Transforms
Data
Catalog
Access
Control
AWS
SageMaker
Projetado para 11 9s
de durabilidade
Projetado para
99.99% de disponibilidade
Durável Disponível Alto desempenho
 Upload por partes
 GET por partes
 Armazene quanto for necessário
 Aumente armazenamento e
processamento independemente
 Sem necessidade de uso mínimo
Escalável
 Amazon EMR
 Amazon Redshift
 Amazon DynamoDB
 Amazon SageMaker
 Muitos mais
Integrado
 REST API simples
 AWS SDKs
 Consistência read-after-create
 Notificações de eventos
 Políticas de ciclo de vida
Fácil de usar
Por que usar o Amazon S3 para o Data Lake?
Como funciona
Registre dados já existentes ou importe conteúdo novo
Amazon S3 forma a camada de
armazenamento do Lake Formation
Registre buckets do S3 existentes contendo
seus dados
Configure o Lake Formation para criar os
buckets do S3 necessários e importar os
dados para dentro deles
Os dados são armazenados na sua conta.
Você tem acesso direto à eles. Não há lock-
in.
Data Lake Storage
Data
Catalog
Access
Control
Data import
Lake Formation
Crawlers ML-based
data prep
Carregue dados no seu data lake facilmente
logs
DBs
Blueprints
Data Lake Storage
Data
Catalog
Access
Control
Data import
Lake Formation
Crawlers ML-based
data prep
Uma vez
incremental
Com os blueprints
Você
1. Configure a fonte de dados
2. Configure o local para o qual
carregar os dados no data
lake
3. Especifique o quão
frequentemente você deseja
carregar dados
Blueprints
1. Descobre o schema das
tabelas
2. Converte automaticamente
para o formato do destino
3. Particiona os dados
automaticamente conforme o
particionamento do schema
4. Mantém o registro dos dados
já processados
5. Todas as opções acima são
customizáveis
Orquestra os triggers,
crawlers & jobs
Cria e monitora fluxos
inteiros
Sistema de alertas
integrado
AWS Glue fornece componentes serverless
escaláveis
Data Catalog Serverless ETL
Compatível com
Apache Hive
Metastore
Integrado com os
serviços de analytics
AWS
Crawlers Flexible Workflows
Infere
automaticamente os
schemas
Popula o data catalog
Desenvolvimento
interativo
Apache Spark / Python
shell jobs
Execução serverless
Permissões de segurança no AWS Lake Formation
Controle o acesso aos dados simplesmente
concedendo ou revogando permissões
Especifique permissiões em DBs, tabelas, e colunas
ao invés de objetos ou buckets
Visualize facilmente as permissões concedidas à um
usuário específico
Audite todo o acesso aos dados em um só lugar
User
1
User
2
Modelo de segurança do AWS Lake Formation
Auditoria e monitoração em tempo real
Veja informações completas dos
eventos no console
Download dos logs para análises
mais detalhadas
Eventos podem ser integrados a
outros serviços, como o
CloudWatch
Demo: AWS Lake Formation
Informações adicionais
AWS Lake Formation: https://aws.amazon.com/pt/lake-formation/
AWSGlue: https://aws.amazon.com/pt/glue/
Lake Formation Getting Started Blogpost: https://aws.amazon.com/pt/blogs/big-
data/getting-started-with-aws-lake-formation/
Perguntas?
Lembre-se de responder a pesquisa de satisfação no final
© 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Obrigado!
Fique por dentro das
próximas sessões
Acesse a agenda de
webinars neste QR code
e inscreva-se!
QR CODE
Conte-nos o que achou
do webinar
Clique em “sair” para
responder uma rápida
pesquisa de satisfação.

Contenu connexe

Tendances

12 Ways to Manage Cloud Costs and Optimize Cloud Spend
12 Ways to Manage Cloud Costs and Optimize Cloud Spend12 Ways to Manage Cloud Costs and Optimize Cloud Spend
12 Ways to Manage Cloud Costs and Optimize Cloud SpendRightScale
 
Capgemini Cloud Assessment - A Pathway to Enterprise Cloud Migration
Capgemini Cloud Assessment - A Pathway to Enterprise Cloud MigrationCapgemini Cloud Assessment - A Pathway to Enterprise Cloud Migration
Capgemini Cloud Assessment - A Pathway to Enterprise Cloud MigrationFloyd DCosta
 
Azure governance v4.0
Azure governance v4.0Azure governance v4.0
Azure governance v4.0Marcos Oikawa
 
Idera live 2021: Keynote Presentation The Future of Data is The Data Cloud b...
Idera live 2021:  Keynote Presentation The Future of Data is The Data Cloud b...Idera live 2021:  Keynote Presentation The Future of Data is The Data Cloud b...
Idera live 2021: Keynote Presentation The Future of Data is The Data Cloud b...IDERA Software
 
Building Data Pipelines on AWS
Building Data Pipelines on AWSBuilding Data Pipelines on AWS
Building Data Pipelines on AWSrudolf eremyan
 
AWS reInvent 2022 reCap AI/ML and Data
AWS reInvent 2022 reCap AI/ML and DataAWS reInvent 2022 reCap AI/ML and Data
AWS reInvent 2022 reCap AI/ML and DataChris Fregly
 
Introduction to Azure Databricks
Introduction to Azure DatabricksIntroduction to Azure Databricks
Introduction to Azure DatabricksJames Serra
 
Cloud Native, Cloud First and Hybrid: How Different Organizations are Approac...
Cloud Native, Cloud First and Hybrid: How Different Organizations are Approac...Cloud Native, Cloud First and Hybrid: How Different Organizations are Approac...
Cloud Native, Cloud First and Hybrid: How Different Organizations are Approac...Amazon Web Services
 
Deep Dive - Amazon Elastic MapReduce (EMR)
Deep Dive - Amazon Elastic MapReduce (EMR)Deep Dive - Amazon Elastic MapReduce (EMR)
Deep Dive - Amazon Elastic MapReduce (EMR)Amazon Web Services
 
Google Vertex AI
Google Vertex AIGoogle Vertex AI
Google Vertex AIVikasBisoi
 
AWS S3 Tutorial For Beginners | Edureka
AWS S3 Tutorial For Beginners | EdurekaAWS S3 Tutorial For Beginners | Edureka
AWS S3 Tutorial For Beginners | EdurekaEdureka!
 
New Trends of Geospatial Services on AWS Cloud - Channy Yun :: ICGIS 2015 Seoul
New Trends of Geospatial Services on AWS Cloud - Channy Yun :: ICGIS 2015 SeoulNew Trends of Geospatial Services on AWS Cloud - Channy Yun :: ICGIS 2015 Seoul
New Trends of Geospatial Services on AWS Cloud - Channy Yun :: ICGIS 2015 SeoulAmazon Web Services Korea
 
AWS Data Analytics on AWS
AWS Data Analytics on AWSAWS Data Analytics on AWS
AWS Data Analytics on AWSsampath439572
 
AWS Amazon S3 Mastery Bootcamp
AWS Amazon S3 Mastery BootcampAWS Amazon S3 Mastery Bootcamp
AWS Amazon S3 Mastery BootcampMatt Bohn
 
Neo4j & AWS Bedrock workshop at GraphSummit London 14 Nov 2023.pptx
Neo4j & AWS Bedrock workshop at GraphSummit London 14 Nov 2023.pptxNeo4j & AWS Bedrock workshop at GraphSummit London 14 Nov 2023.pptx
Neo4j & AWS Bedrock workshop at GraphSummit London 14 Nov 2023.pptxNeo4j
 
Azure Security Fundamentals
Azure Security FundamentalsAzure Security Fundamentals
Azure Security FundamentalsLorenzo Barbieri
 

Tendances (20)

12 Ways to Manage Cloud Costs and Optimize Cloud Spend
12 Ways to Manage Cloud Costs and Optimize Cloud Spend12 Ways to Manage Cloud Costs and Optimize Cloud Spend
12 Ways to Manage Cloud Costs and Optimize Cloud Spend
 
Capgemini Cloud Assessment - A Pathway to Enterprise Cloud Migration
Capgemini Cloud Assessment - A Pathway to Enterprise Cloud MigrationCapgemini Cloud Assessment - A Pathway to Enterprise Cloud Migration
Capgemini Cloud Assessment - A Pathway to Enterprise Cloud Migration
 
Building a Data Lake on AWS
Building a Data Lake on AWSBuilding a Data Lake on AWS
Building a Data Lake on AWS
 
AWS Security and SecOps
AWS Security and SecOpsAWS Security and SecOps
AWS Security and SecOps
 
Azure governance v4.0
Azure governance v4.0Azure governance v4.0
Azure governance v4.0
 
Idera live 2021: Keynote Presentation The Future of Data is The Data Cloud b...
Idera live 2021:  Keynote Presentation The Future of Data is The Data Cloud b...Idera live 2021:  Keynote Presentation The Future of Data is The Data Cloud b...
Idera live 2021: Keynote Presentation The Future of Data is The Data Cloud b...
 
Building Data Pipelines on AWS
Building Data Pipelines on AWSBuilding Data Pipelines on AWS
Building Data Pipelines on AWS
 
AWS reInvent 2022 reCap AI/ML and Data
AWS reInvent 2022 reCap AI/ML and DataAWS reInvent 2022 reCap AI/ML and Data
AWS reInvent 2022 reCap AI/ML and Data
 
Introduction to Azure Databricks
Introduction to Azure DatabricksIntroduction to Azure Databricks
Introduction to Azure Databricks
 
Introducing Amazon SageMaker
Introducing Amazon SageMakerIntroducing Amazon SageMaker
Introducing Amazon SageMaker
 
Azure storage
Azure storageAzure storage
Azure storage
 
Cloud Native, Cloud First and Hybrid: How Different Organizations are Approac...
Cloud Native, Cloud First and Hybrid: How Different Organizations are Approac...Cloud Native, Cloud First and Hybrid: How Different Organizations are Approac...
Cloud Native, Cloud First and Hybrid: How Different Organizations are Approac...
 
Deep Dive - Amazon Elastic MapReduce (EMR)
Deep Dive - Amazon Elastic MapReduce (EMR)Deep Dive - Amazon Elastic MapReduce (EMR)
Deep Dive - Amazon Elastic MapReduce (EMR)
 
Google Vertex AI
Google Vertex AIGoogle Vertex AI
Google Vertex AI
 
AWS S3 Tutorial For Beginners | Edureka
AWS S3 Tutorial For Beginners | EdurekaAWS S3 Tutorial For Beginners | Edureka
AWS S3 Tutorial For Beginners | Edureka
 
New Trends of Geospatial Services on AWS Cloud - Channy Yun :: ICGIS 2015 Seoul
New Trends of Geospatial Services on AWS Cloud - Channy Yun :: ICGIS 2015 SeoulNew Trends of Geospatial Services on AWS Cloud - Channy Yun :: ICGIS 2015 Seoul
New Trends of Geospatial Services on AWS Cloud - Channy Yun :: ICGIS 2015 Seoul
 
AWS Data Analytics on AWS
AWS Data Analytics on AWSAWS Data Analytics on AWS
AWS Data Analytics on AWS
 
AWS Amazon S3 Mastery Bootcamp
AWS Amazon S3 Mastery BootcampAWS Amazon S3 Mastery Bootcamp
AWS Amazon S3 Mastery Bootcamp
 
Neo4j & AWS Bedrock workshop at GraphSummit London 14 Nov 2023.pptx
Neo4j & AWS Bedrock workshop at GraphSummit London 14 Nov 2023.pptxNeo4j & AWS Bedrock workshop at GraphSummit London 14 Nov 2023.pptx
Neo4j & AWS Bedrock workshop at GraphSummit London 14 Nov 2023.pptx
 
Azure Security Fundamentals
Azure Security FundamentalsAzure Security Fundamentals
Azure Security Fundamentals
 

Similaire à Construindo um Data Lake na AWS

AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...Amazon Web Services LATAM
 
Os benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSOs benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSAmazon Web Services LATAM
 
AWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWSAWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWSAmazon Web Services LATAM
 
Liberte-se dos bancos de dados comerciais para economizar, crescer e inovar
Liberte-se dos bancos de dados comerciais para economizar, crescer e inovarLiberte-se dos bancos de dados comerciais para economizar, crescer e inovar
Liberte-se dos bancos de dados comerciais para economizar, crescer e inovarAmazon Web Services LATAM
 
Construindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftConstruindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftAmazon Web Services LATAM
 
Ransomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSRansomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSAmazon Web Services LATAM
 
Desenvolvendo para o Windows Azure e SQL Azure
Desenvolvendo para o Windows Azure e SQL AzureDesenvolvendo para o Windows Azure e SQL Azure
Desenvolvendo para o Windows Azure e SQL AzureLuciano Condé
 
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo SummitConstruindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo SummitAmazon Web Services
 
Introduçãoo aws, escalando uma aplicação Web
Introduçãoo aws, escalando uma aplicação WebIntroduçãoo aws, escalando uma aplicação Web
Introduçãoo aws, escalando uma aplicação WebAlessandro Binhara
 
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...Amazon Web Services LATAM
 
Escalando+na+aws+para+os+primeiros+10+milhões+de+usuários+ +final
Escalando+na+aws+para+os+primeiros+10+milhões+de+usuários+ +finalEscalando+na+aws+para+os+primeiros+10+milhões+de+usuários+ +final
Escalando+na+aws+para+os+primeiros+10+milhões+de+usuários+ +finalAmazon Web Services LATAM
 
Visualizando dados de Big Data com Amazon QuickSight
Visualizando dados de Big Data com Amazon QuickSightVisualizando dados de Big Data com Amazon QuickSight
Visualizando dados de Big Data com Amazon QuickSightAmazon Web Services LATAM
 
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...Amazon Web Services LATAM
 
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Amazon Web Services
 
Provedor de nuvem - Cloud Providers
Provedor de nuvem - Cloud Providers Provedor de nuvem - Cloud Providers
Provedor de nuvem - Cloud Providers fcdigital
 
Secure your data lake- A Financial industry perspective - SVC203 - São Paulo ...
Secure your data lake- A Financial industry perspective - SVC203 - São Paulo ...Secure your data lake- A Financial industry perspective - SVC203 - São Paulo ...
Secure your data lake- A Financial industry perspective - SVC203 - São Paulo ...Amazon Web Services
 

Similaire à Construindo um Data Lake na AWS (20)

AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
 
Construindo um Data Lake na AWS
Construindo um Data Lake na AWSConstruindo um Data Lake na AWS
Construindo um Data Lake na AWS
 
Os benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSOs benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWS
 
AWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWSAWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWS
 
Liberte-se dos bancos de dados comerciais para economizar, crescer e inovar
Liberte-se dos bancos de dados comerciais para economizar, crescer e inovarLiberte-se dos bancos de dados comerciais para economizar, crescer e inovar
Liberte-se dos bancos de dados comerciais para economizar, crescer e inovar
 
Construindo Data Lakes e Analytics na AWS
Construindo Data Lakes e Analytics na AWSConstruindo Data Lakes e Analytics na AWS
Construindo Data Lakes e Analytics na AWS
 
Construindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftConstruindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon Redshift
 
Ransomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSRansomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWS
 
Desenvolvendo para o Windows Azure e SQL Azure
Desenvolvendo para o Windows Azure e SQL AzureDesenvolvendo para o Windows Azure e SQL Azure
Desenvolvendo para o Windows Azure e SQL Azure
 
Arquiteturas de Software para o Século XXI
Arquiteturas de Software para o Século XXIArquiteturas de Software para o Século XXI
Arquiteturas de Software para o Século XXI
 
Construindo seu Data Lake na AWS
Construindo seu Data Lake na AWSConstruindo seu Data Lake na AWS
Construindo seu Data Lake na AWS
 
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo SummitConstruindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit
 
Introduçãoo aws, escalando uma aplicação Web
Introduçãoo aws, escalando uma aplicação WebIntroduçãoo aws, escalando uma aplicação Web
Introduçãoo aws, escalando uma aplicação Web
 
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...
 
Escalando+na+aws+para+os+primeiros+10+milhões+de+usuários+ +final
Escalando+na+aws+para+os+primeiros+10+milhões+de+usuários+ +finalEscalando+na+aws+para+os+primeiros+10+milhões+de+usuários+ +final
Escalando+na+aws+para+os+primeiros+10+milhões+de+usuários+ +final
 
Visualizando dados de Big Data com Amazon QuickSight
Visualizando dados de Big Data com Amazon QuickSightVisualizando dados de Big Data com Amazon QuickSight
Visualizando dados de Big Data com Amazon QuickSight
 
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...
Migrando seu banco de dados para a AWS - Deep Dive em Amazon RDS e AWS Databa...
 
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
 
Provedor de nuvem - Cloud Providers
Provedor de nuvem - Cloud Providers Provedor de nuvem - Cloud Providers
Provedor de nuvem - Cloud Providers
 
Secure your data lake- A Financial industry perspective - SVC203 - São Paulo ...
Secure your data lake- A Financial industry perspective - SVC203 - São Paulo ...Secure your data lake- A Financial industry perspective - SVC203 - São Paulo ...
Secure your data lake- A Financial industry perspective - SVC203 - São Paulo ...
 

Plus de Amazon Web Services LATAM

AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.Amazon Web Services LATAM
 
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.Amazon Web Services LATAM
 
Automatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAutomatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAmazon Web Services LATAM
 
Automatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAutomatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAmazon Web Services LATAM
 
Ransomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSRansomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSAmazon Web Services LATAM
 
Aprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAmazon Web Services LATAM
 
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAmazon Web Services LATAM
 
Cómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosCómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosAmazon Web Services LATAM
 
Los beneficios de migrar sus cargas de trabajo de big data a AWS
Los beneficios de migrar sus cargas de trabajo de big data a AWSLos beneficios de migrar sus cargas de trabajo de big data a AWS
Los beneficios de migrar sus cargas de trabajo de big data a AWSAmazon Web Services LATAM
 

Plus de Amazon Web Services LATAM (20)

AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
 
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
 
Automatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAutomatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWS
 
Automatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAutomatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWS
 
Cómo empezar con Amazon EKS
Cómo empezar con Amazon EKSCómo empezar con Amazon EKS
Cómo empezar con Amazon EKS
 
Como começar com Amazon EKS
Como começar com Amazon EKSComo começar com Amazon EKS
Como começar com Amazon EKS
 
Ransomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSRansomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWS
 
Ransomware: Estratégias de Mitigação
Ransomware: Estratégias de MitigaçãoRansomware: Estratégias de Mitigação
Ransomware: Estratégias de Mitigação
 
Ransomware: Estratégias de Mitigación
Ransomware: Estratégias de MitigaciónRansomware: Estratégias de Mitigación
Ransomware: Estratégias de Mitigación
 
Aprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWS
 
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
 
Cómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosCómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administrados
 
Simplifique su BI con AWS
Simplifique su BI con AWSSimplifique su BI con AWS
Simplifique su BI con AWS
 
Simplifique o seu BI com a AWS
Simplifique o seu BI com a AWSSimplifique o seu BI com a AWS
Simplifique o seu BI com a AWS
 
Los beneficios de migrar sus cargas de trabajo de big data a AWS
Los beneficios de migrar sus cargas de trabajo de big data a AWSLos beneficios de migrar sus cargas de trabajo de big data a AWS
Los beneficios de migrar sus cargas de trabajo de big data a AWS
 
Bases de datos NoSQL en AWS
Bases de datos NoSQL en AWSBases de datos NoSQL en AWS
Bases de datos NoSQL en AWS
 

Construindo um Data Lake na AWS

  • 1. © 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark. AWSWebinar Series Brasil Pedro Rates – prrates AWS – Arquiteto de Soluções Construindo um Data Lake na nuvem AWS
  • 2. © 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Como interagir durante o evento? Você tem um projeto e quer conversar com o time comercial da AWS? Acesse o LIVE CHAT neste QR code ou pelo link enviado no chat do evento. Perguntas & Respostas ao vivo durante todo o evento Tire suas dúvidas com os especialistas da AWS! Clique no símbolo “?” e envie suas perguntas.
  • 4. Tradicionalmente, o processo de tomada de decisões OLTP ERP CRM LOB Enterprise data warehouse Business intelligence …dependia de um data warehouse
  • 5. Os dados não cabem mais * IDC, Data Age 2025: The Evolution of Data to Life-Critical: Don’t Focus on Big Data, Focus on the Data That’s Big, April 2017. Dados a cada 5 anos Hámaisdadosqueaspessoas pensam 15 anos existir por Plataforma de dados: 1,000x crescimento >10x crescem Osdadossãomaisdiversos
  • 6. Hámaispessoas acessandoosdados Emaiornecessidadede disponbilidadedosdados Data Scientists Analysts Business Users Applications Machine Learning SQL analytics Scientific Real-time, streaming Cargas de trabalho cada vez mais diversas
  • 7. Maior pressão regulatória Democratização dos dados Governança e controle cumprir com as regulamentações e requisitos de governança? Como democratizar o acesso aos dados e
  • 9. Um data lake é um repositório centralizado que permite o armazenamento qualquer quantidade dados, estruturados e não estruturados
  • 10. Por que utilizar data lakes? Data Lakes proporciona: Dados relacionais e não relacionais Escala de Exabytes Conjunto diversos de ferramentas de Analytics e ML Trabalhar com os dados sem precisar movê-los Projetado para armazenamento e analytics de baixo custo OLTP ERP CRM LOB Data Warehouse Business Intelligence Data Lake 100110000100101011100 101010111001010100001 011111011010 0011110010110010110 0100011000010 Devices Web Sensor s Social Catalog Machine Learning DW Queries Big data processing Interactive Real-time
  • 11. Há mais data lakes e analytics na AWS que em qualquer outro lugar
  • 12. Desafios na construção de um Data Lake
  • 13. Construir data lakes limpos e seguros pode levar meses
  • 14. A preparação dos dados representa ~80% do trabalho Desenvolvimento de conjuntos de treinamento Limpeza e organização dos dados Coletar conjuntos de dados Mineração dos dados para obter padrões Refinamento de algoritmos Outros
  • 15. Etapas necessárias para construir um data lake Setup storage 1 Move data 2 Cleanse, prep, and catalog data 3 Configure and enforce security and compliance policies 4 Make data available for analytics 5 Implementar a arquitetura de um Data Lake requer um amplo conjunto de ferramentas e tecnologias para atender aplicações e casos de uso cada vez mais diversos.
  • 16. Exemplos de etapas na AWS Find sources Create Amazon Simple Storage Service (Amazon S3) locations Configure access policies Map tables to Amazon S3 locations Create metadata access policies Configure access from Analytics end services Repetir para outros: data sets, usuários, e aplicações And more: gerenciar e monitorar os jobs de ETL atualizar catálogo de metadados atualizar as políticas de acesso de usuário e aplicações manutenção dos scripts de limpeza dos dados criação de processos de auditoria para aderência ao compliance … Manual | Falha Humana | Consome tempo ETL Jobs to clean and prepare data
  • 17. Serviço totalmente gerenciado que permite que Analistas de dados construam data lakes limpos e seguros em dias AWS Lake Formation Cientistas de dados Engenheiros de dados
  • 18. AWS Lake Formation Solution Stack Amazon S3 Data Lake Storage Armazenamento durável, com capacidade de replicação global, e com alto custo-benefício Processo de ingestão e limpeza dos dados permite aos engenheiros de dados desenvolver com mais agilidade Gerenciamento centralizado de permissões granulares ampliam a capacidade do time de segurança Ferramentas de descoberta, compartilhamento, e integração disponíveis para todos os usuários Amazon Athena Amazon QuickSight Amazon Redshift AWS Glue Amazon EMR Lake Formation AWS Glue Blueprints ML Transforms Data Catalog Access Control AWS SageMaker
  • 19. Projetado para 11 9s de durabilidade Projetado para 99.99% de disponibilidade Durável Disponível Alto desempenho  Upload por partes  GET por partes  Armazene quanto for necessário  Aumente armazenamento e processamento independemente  Sem necessidade de uso mínimo Escalável  Amazon EMR  Amazon Redshift  Amazon DynamoDB  Amazon SageMaker  Muitos mais Integrado  REST API simples  AWS SDKs  Consistência read-after-create  Notificações de eventos  Políticas de ciclo de vida Fácil de usar Por que usar o Amazon S3 para o Data Lake?
  • 21. Registre dados já existentes ou importe conteúdo novo Amazon S3 forma a camada de armazenamento do Lake Formation Registre buckets do S3 existentes contendo seus dados Configure o Lake Formation para criar os buckets do S3 necessários e importar os dados para dentro deles Os dados são armazenados na sua conta. Você tem acesso direto à eles. Não há lock- in. Data Lake Storage Data Catalog Access Control Data import Lake Formation Crawlers ML-based data prep
  • 22. Carregue dados no seu data lake facilmente logs DBs Blueprints Data Lake Storage Data Catalog Access Control Data import Lake Formation Crawlers ML-based data prep Uma vez incremental
  • 23. Com os blueprints Você 1. Configure a fonte de dados 2. Configure o local para o qual carregar os dados no data lake 3. Especifique o quão frequentemente você deseja carregar dados Blueprints 1. Descobre o schema das tabelas 2. Converte automaticamente para o formato do destino 3. Particiona os dados automaticamente conforme o particionamento do schema 4. Mantém o registro dos dados já processados 5. Todas as opções acima são customizáveis
  • 24. Orquestra os triggers, crawlers & jobs Cria e monitora fluxos inteiros Sistema de alertas integrado AWS Glue fornece componentes serverless escaláveis Data Catalog Serverless ETL Compatível com Apache Hive Metastore Integrado com os serviços de analytics AWS Crawlers Flexible Workflows Infere automaticamente os schemas Popula o data catalog Desenvolvimento interativo Apache Spark / Python shell jobs Execução serverless
  • 25.
  • 26. Permissões de segurança no AWS Lake Formation Controle o acesso aos dados simplesmente concedendo ou revogando permissões Especifique permissiões em DBs, tabelas, e colunas ao invés de objetos ou buckets Visualize facilmente as permissões concedidas à um usuário específico Audite todo o acesso aos dados em um só lugar User 1 User 2
  • 27. Modelo de segurança do AWS Lake Formation
  • 28. Auditoria e monitoração em tempo real Veja informações completas dos eventos no console Download dos logs para análises mais detalhadas Eventos podem ser integrados a outros serviços, como o CloudWatch
  • 29. Demo: AWS Lake Formation
  • 30.
  • 31. Informações adicionais AWS Lake Formation: https://aws.amazon.com/pt/lake-formation/ AWSGlue: https://aws.amazon.com/pt/glue/ Lake Formation Getting Started Blogpost: https://aws.amazon.com/pt/blogs/big- data/getting-started-with-aws-lake-formation/
  • 32. Perguntas? Lembre-se de responder a pesquisa de satisfação no final
  • 33. © 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Obrigado! Fique por dentro das próximas sessões Acesse a agenda de webinars neste QR code e inscreva-se! QR CODE Conte-nos o que achou do webinar Clique em “sair” para responder uma rápida pesquisa de satisfação.