SlideShare une entreprise Scribd logo
1  sur  51
BIG DATA E A GLOBO.COM
ENGENHEIRO DE
DADOS NA
GLOBO.COM
@renan_oliveira
Como aprendemos
os interesses dos
usuários dado a sua
navegação.
EVENTOS
3 Bilhões de eventos diários
2 milhões de conexões simultâneas
50 milhões de usuários únicos por mês
100 mil novos conteúdos por mês
O QUE FAZEMOS?
➤ Recomendação
➤ Personalização
➤ Machine Learning
➤ Publicidade segmentada
➤ Análise de consumo
➤ Análise de comportamento
➤ Experimentos
➤ Testes A/B
➤ Data Driven Organization
SOPA DE LETRINHAS
para manter um dos maiores cases do Brasil
event tracker by globo.com
ARQUITETURA - LAMBDA
REAL TIME
➤ Consumimos do Kafka
➤ Usamos Spark Streaming
➤ Usamos Scala ou Java
➤ Salvamos os dados brutos em
formato Parquet - "usuário fez
algo em algum lugar”
➤ Algoritmos de decisão em
tempo real
➤ Atualização dos modelos
➤ Sumarização usando o
conceito de janela
BATCH
➤ Consumimos de muitos
bancos de dados
➤ Usamos Spark + MLib
➤ Usamos Scala, Python ou R
➤ Usamos o Airflow para
disparar o Job
➤ Bom pra ler os Parquets,
muitos dados demoram para
serem processados
➤ A maioria dos algoritmos
usam essa estratégia
PLATAFORMA DE EXPERIMENTOS
testes a/b
THERE IS NO
INNOVATION
WITHOUT
EXPERIMENTATION
TESTES A/B
➤ Método de avaliação de
desempenho entre grupos
➤ Sempre temos um cenário que
conhecemos, chamamos ele de
controle
➤ Ajuda a dizer se um "botão" é
melhor que outro ou se um
algoritmo vence na maioria
das vezes
➤ Método científico
➤ + de 100 testes rodando
HOJE
80% da audiência 20% da audiência
vs
80% da audiência 20% da audiência
vs
80% da audiência 20% da audiência
vs
+X%
conversão
JUPYTER
➤ Interface web para programar
em Julia, Python, R (e outras
linguagens)
➤ Usamos para validar futuros
algoritmos por sua
simplicidade
➤ É usado para os estudos sobre
o comportamento dos usuários
➤ Ótimo para compartilhar
➤ O GitHub fez um renderizador
➤ Tem suporte a Spark
(framework de processamento
de grandes dados)
SUPERSET
➤ Criado pelo Airbnb em 2015
➤ Democrático, não precisa
saber programar para usar
➤ Explorador de dados
➤ Gerador de dashboard
➤ Gráficos para
acompanhamento dos
acontecimentos
➤ Facilidade de integração com
muitos bancos de dados
RECOMENDAÇÃO
+ growth
NÚMEROS
➤ 100 mil recomendações por
minuto
➤ 15 ms de tempo de resposta
(p50)
➤ +500 testes A/B
➤ +20 algoritmos diferentes
➤ Presente em todos os
produtos da globo.com (G1,
GloboEsportes, GShow,
TechTudo, GloboPlay)
➤ Time de Growth focados na
melhoria em cada produto
COLLABORATIVE
FILTERING
CONTENT
BASED
TOP
COLLABORATIVE FILTERING CONTENT BASED TOP
COLLABORATIVE FILTERING CONTENT BASED TOP
COLLABORATIVE FILTERING CONTENT BASED TOP
surf
medina
peniche
prancha
mundial de
surf john john
mineirinho
pipeline
futebol
guerrero
flamengo
STJD
copa do brasil
fluminense henrique
brasileirão
COLLABORATIVE
FILTERING
CONTENT
BASED
TOP
RESULTADOS - GLOBO PLAY
+X%
RESULTADOS - GLOBOESPORTE
+X%
RESULTADOS - G1
+25%+X%
RESULTADOS - GSHOW
+25%+X%
GROWTH É A
FUSÃO DO
CONHECIMENTO
DO PRODUTO COM
OS DADOS DE BIG
DATA
desde 2017
DATA SCIENTIST
DATA ENGINEER
DESENVOLVEDOR
POUX
CULTURA DE DADOS
não existe uma fórmula pra isso
O maior desafio é
mudar a cultura
O caminho é encontrar
valor nos dados
Use ferramentas que
facilitem a integração
Crie sua 

data university!
IF YOU WANT TO CONVINCE ME
of somethings…
SHOW ME NUMBERS
OBRIGADO!
@renan_oliveira
www.renanoliveira.net

Contenu connexe

Similaire à Como a Globo.com usa big data para personalização e crescimento

Python e Django na Globo.com
Python e Django na Globo.comPython e Django na Globo.com
Python e Django na Globo.comricobl
 
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Affinitas GmbH
 
Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Denodo
 
AI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDCAI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDCRenan Moreira de Oliveira
 
ASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis PaulinoASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis PaulinoComunidade NetPonto
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearch
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearchProcessamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearch
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearchCicero Joasyo Mateus de Moura
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataAmbiente Livre
 
TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data
TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data
TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data tdc-globalcode
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015Bruno Rocha
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosAmbiente Livre
 
Collaborative Filtering por Fatores Latentes - Recomendação para o GlobosatPlay
Collaborative Filtering por Fatores Latentes - Recomendação para o GlobosatPlayCollaborative Filtering por Fatores Latentes - Recomendação para o GlobosatPlay
Collaborative Filtering por Fatores Latentes - Recomendação para o GlobosatPlayCiro Cavani
 
Relatórios e estatísticas utilizando logs em tempo real
Relatórios e estatísticas utilizando logs em tempo realRelatórios e estatísticas utilizando logs em tempo real
Relatórios e estatísticas utilizando logs em tempo realFrancisco Freire
 

Similaire à Como a Globo.com usa big data para personalização e crescimento (20)

Python e Django na Globo.com
Python e Django na Globo.comPython e Django na Globo.com
Python e Django na Globo.com
 
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
Python Brasil 2020 - Desmitificando pipeline de dados com Python: o que apren...
 
Big Data
Big DataBig Data
Big Data
 
Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?
 
AI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDCAI & Big Data - Personalização da Jornada - PicPay - TDC
AI & Big Data - Personalização da Jornada - PicPay - TDC
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
ASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis PaulinoASP.Net Performance – A pragmatic approach - Luis Paulino
ASP.Net Performance – A pragmatic approach - Luis Paulino
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearch
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearchProcessamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearch
Processamento e Análise de Dados em Tempo Real com Python, Kafka e ElasticSearch
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big Data
 
TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data
TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data
TDC2018SP | Trilha BigData - Apache Flink a Quarta Geracao do Big Data
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativos
 
Collaborative Filtering por Fatores Latentes - Recomendação para o GlobosatPlay
Collaborative Filtering por Fatores Latentes - Recomendação para o GlobosatPlayCollaborative Filtering por Fatores Latentes - Recomendação para o GlobosatPlay
Collaborative Filtering por Fatores Latentes - Recomendação para o GlobosatPlay
 
Recomendacao globo.com
Recomendacao globo.comRecomendacao globo.com
Recomendacao globo.com
 
Data Driven AI Company
Data Driven AI CompanyData Driven AI Company
Data Driven AI Company
 
Relatórios e estatísticas utilizando logs em tempo real
Relatórios e estatísticas utilizando logs em tempo realRelatórios e estatísticas utilizando logs em tempo real
Relatórios e estatísticas utilizando logs em tempo real
 

Plus de Renan Moreira de Oliveira

PicPay - GenAI Finance Assistant - ChatGPT for Customer Service
PicPay - GenAI Finance Assistant - ChatGPT for Customer ServicePicPay - GenAI Finance Assistant - ChatGPT for Customer Service
PicPay - GenAI Finance Assistant - ChatGPT for Customer ServiceRenan Moreira de Oliveira
 
Excelsior - Perfil usando Big Data e Web Semântica
Excelsior - Perfil usando Big Data e Web SemânticaExcelsior - Perfil usando Big Data e Web Semântica
Excelsior - Perfil usando Big Data e Web SemânticaRenan Moreira de Oliveira
 
Transição do desenvolvimento web para apps - o caminho suave
Transição do desenvolvimento web para apps - o caminho suaveTransição do desenvolvimento web para apps - o caminho suave
Transição do desenvolvimento web para apps - o caminho suaveRenan Moreira de Oliveira
 
Ontologias e sua utilização em aplicações semânticas - UFF - CASI - 2014
Ontologias e sua utilização em aplicações semânticas - UFF - CASI - 2014Ontologias e sua utilização em aplicações semânticas - UFF - CASI - 2014
Ontologias e sua utilização em aplicações semânticas - UFF - CASI - 2014Renan Moreira de Oliveira
 
Introdução a web semântica e o case da globo.com
Introdução a web semântica e o case da globo.comIntrodução a web semântica e o case da globo.com
Introdução a web semântica e o case da globo.comRenan Moreira de Oliveira
 

Plus de Renan Moreira de Oliveira (16)

PicPay - GenAI Finance Assistant - ChatGPT for Customer Service
PicPay - GenAI Finance Assistant - ChatGPT for Customer ServicePicPay - GenAI Finance Assistant - ChatGPT for Customer Service
PicPay - GenAI Finance Assistant - ChatGPT for Customer Service
 
AI na jornada do usuário de ecommerce
AI na jornada do usuário de ecommerceAI na jornada do usuário de ecommerce
AI na jornada do usuário de ecommerce
 
RecSys 2020 - iFood recommendation
RecSys 2020 - iFood recommendationRecSys 2020 - iFood recommendation
RecSys 2020 - iFood recommendation
 
iFood Recommendations
iFood RecommendationsiFood Recommendations
iFood Recommendations
 
Sistemas de Recomendação
Sistemas de RecomendaçãoSistemas de Recomendação
Sistemas de Recomendação
 
Big data e Machine Learning na globo.com
Big data e Machine Learning na globo.comBig data e Machine Learning na globo.com
Big data e Machine Learning na globo.com
 
What is AB, MVT and MAB?
What is AB, MVT and MAB?What is AB, MVT and MAB?
What is AB, MVT and MAB?
 
Dados importam, seja data-driven!
Dados importam, seja data-driven!Dados importam, seja data-driven!
Dados importam, seja data-driven!
 
Big Data to Machine Learning
Big Data to Machine LearningBig Data to Machine Learning
Big Data to Machine Learning
 
Big Data e seu fiel companheiro Spark
Big Data e seu fiel companheiro SparkBig Data e seu fiel companheiro Spark
Big Data e seu fiel companheiro Spark
 
Big Data na Globo.com - Dev Version - 2016
Big Data na Globo.com - Dev Version - 2016Big Data na Globo.com - Dev Version - 2016
Big Data na Globo.com - Dev Version - 2016
 
Big Data na globo.com
Big Data na globo.comBig Data na globo.com
Big Data na globo.com
 
Excelsior - Perfil usando Big Data e Web Semântica
Excelsior - Perfil usando Big Data e Web SemânticaExcelsior - Perfil usando Big Data e Web Semântica
Excelsior - Perfil usando Big Data e Web Semântica
 
Transição do desenvolvimento web para apps - o caminho suave
Transição do desenvolvimento web para apps - o caminho suaveTransição do desenvolvimento web para apps - o caminho suave
Transição do desenvolvimento web para apps - o caminho suave
 
Ontologias e sua utilização em aplicações semânticas - UFF - CASI - 2014
Ontologias e sua utilização em aplicações semânticas - UFF - CASI - 2014Ontologias e sua utilização em aplicações semânticas - UFF - CASI - 2014
Ontologias e sua utilização em aplicações semânticas - UFF - CASI - 2014
 
Introdução a web semântica e o case da globo.com
Introdução a web semântica e o case da globo.comIntrodução a web semântica e o case da globo.com
Introdução a web semântica e o case da globo.com
 

Como a Globo.com usa big data para personalização e crescimento