O documento discute vários tópicos relacionados a ciência de dados, incluindo: 1) Técnicas como data mining, machine learning e big data; 2) Como um funcionário do Walmart notou uma correlação entre vendas de fraldas e cerveja; 3) O que é business intelligence e suas limitações; 4) A importância de coletar diversos dados e sinais em um supermercado.
5. brunorocha.org
Um funcionário do WalMart notou que a venda de fraldas
descartáveis estava associada à de cerveja.
Ele notou que os compradores homens, que saíam à noite para
comprar fraldas, aproveitavam para levar algumas latinhas para
casa.
Ele sugeriu que os produtos fossem postos lado a lado.
Resultado: a venda de cervejas disparou durante as noites.
7. brunorocha.org
Business Inteligence
Processo de coleta, organização, análise,
compartilhamento e monitoramento de
informações que oferecem suporte a gestão de
negócios.
É o conjunto de teorias, metodologias,
processos, estruturas e tecnologias que
transformam uma grande quantidade de dados
brutos em informação útil.
8. brunorocha.org
Business Inteligence
Processo de coleta, organização, análise,
compartilhamento e monitoramento de
informações que oferecem suporte a gestão de
negócios.
É o conjunto de teorias, metodologias,
processos, estruturas e tecnologias que
transformam uma grande quantidade de dados
brutos em informação útil.
- Passivo
- Manual (Dependente do Analista)
9. brunorocha.org
Business Inteligence
Processo de coleta, organização, análise,
compartilhamento e monitoramento de
informações que oferecem suporte a gestão de
negócios.
É o conjunto de teorias, metodologias,
processos, estruturas e tecnologias que
transformam uma grande quantidade de dados
brutos em informação útil.
- Passivo
- Manual (Dependente do Analista)
10. brunorocha.org
Business Inteligence
Processo de coleta, organização, análise,
compartilhamento e monitoramento de
informações que oferecem suporte a gestão de
negócios.
É o conjunto de teorias, metodologias,
processos, estruturas e tecnologias que
transformam uma grande quantidade de dados
brutos em informação útil.
- Passivo
- Manual (Dependente do Analista)
- Muito útil e relevante mas não
resolve todos os problemas
- Crawling
- Mining
- Parsing
- APIs
- Notebooks
- Algoritmos
- ML
- Linguagens
- BigData
15. brunorocha.org
Supermercado
Entrada A
Grande quantidade de sinais
a serem analisados.
- Local do produto
- Local da entrada
- Tamanho do carrinho
- Local das prateleiras
- Iluminação
- Embalagens
- Preços
- Ordem de compra
- Horário da compra
- Sexo do comprador
- Idade do comprador
- Duração da compra
- ...
Entrada B
16. brunorocha.org
Supermercado
Entrada A
Features e sinais:
- Local do produto
- Local da entrada
- Tamanho do carrinho
- Local das prateleiras
- Iluminação
- Embalagens
- Preços
- Ordem de compra
- Horário da compra
- Sexo do comprador
- Idade do comprador
- Duração da compra
- ...
Entrada B
17. brunorocha.org
Data Science é sobre encontrar, classificar e
correlacionar padrões em um conjunto de dados
e utilizar essas análises de dados para:
- Business Inteligence
- Monitoramento
- Análises preditivas
- Recomendações
- Detecção de novas combinações e novos padrões
- Dominar o mundo
- Acabar com a fome mundial
- Curar doenças
- ...
18. brunorocha.org
Data Science is not always evil
Bio Medical Data Science Initiative http://med.stanford.edu/bdsi.html
- Triagem médica
- Correlação entre exames
- Recomendação de tratamentos
- Detecção e predição de epidêmias
- Otimização da fabricação de medicamentos e equipamentos
- Diminuição/Abolição de testes em animais
- Gerenciamento de desastres
- Diagnóstico inteligente
- Monitoramento e preservação ambiental
- Recomendar filmes legais no NetFlix
- Recomendar a próxima empresa em que você pode trabalhar!
19. brunorocha.org
Aprendizado de Máquina e Inteligência Artificial e Big Data
O problema do Big Data
(quando os dados são grandes demais em volume, ou complexos demais em correlações que seria inviavél analisar
em tempo hábil sem o uso de IA e computação distribuida)
Em um único conjunto de dados existem muitos padrões a serem identificados e conforme os dados
se alteram novos padrões são criados, sendo assim inviável seres humanos fazerem todo o
trabalho de classificação.
Para isso algoritmos são "treinados" através de exemplos e aprendem a tomar decisões
autonomamente, esses "organismos" dotados de inteligência artificial precisam de um cientista de
dados para treinar, monitorar e avaliar o desempenho e confiabilidade.
The Machine is Learning
20. brunorocha.org
"Dadólogo"
Ciência dos dados
Aprendizado de Máquina e Inteligência Artificial e Big Data
O problema do Big Data
(quando os dados são grandes demais em volume, ou complexos demais em correlações que seria inviavél analisar
em tempo hábil sem o uso de IA e computação distribuida)
Em um único conjunto de dados existem muitos padrões a serem identificados e conforme os dados
se alteram novos padrões são criados, sendo assim inviável seres humanos fazerem todo o
trabalho de classificação.
Para isso algoritmos são "treinados" através de exemplos e aprendem a tomar decisões
autonomamente, esses "organismos" dotados de inteligência artificial precisam de um cientista de
dados para treinar, monitorar e avaliar o desempenho e confiabilidade.
The Machine is Learning
Biólogo
Ciência da Vida
=
22. brunorocha.org
O Data Scientist
In god we trust: All others bring data!
● Profissional cientista das áreas de estatística, matemática, fisica, computação.
● Conhecimentos teóricos avançados e boa desenvoltura prática em computação.
● Mestre das estruturas de dados.
● A profissão mais sexy do século! https://hbr.org/2012/10/data-scientist-the-
sexiest-job-of-the-21st-century/
● Salários na média entre 10k e 20k no Brasil (2015) - $120k a $200k/year U.S.A
(2015).
● Requisitado em todas as industrias de Startups a MultiNacionais.
● Sobram vagas e faltam profissionais qualificados e interessados.
29. brunorocha.org
O Dilema do
Full Stack Developer
O desenvolvedor superman
que "em teoria" resolve todos
os problemas end-to-end mas
ninguém sabe quando ele vai
sair voando ou se vai morrer
no final.
30. brunorocha.org
O Dilema do
Ben 10 Developer
OU
Que se transforma em mais
de 10 monstros para tentar
resolver problemas mas
acaba tendo crises de
identidade durante o projeto.
32. brunorocha.org
- Devops (infra, provisionamento, monitoramento, escalabilidade, cloud)
- Engenharia e Arquitetura
- Web, APIs e integrações
- Project Leadership
- Data Mining
- Database Administration
- P & D
- Data Science Algorithms
- Fazer café
- Atender telefone
- Vender
- …
- candidatos??
33. brunorocha.org
O Homer Simpsom Developer
Doh… achei que seria mais fácil e que
eu ia dar conta de entregar tudo em X
dias….
O que eu faço agora? qual banco de
dados eu uso? qual linguagem é
melhor? VI ou Emacs???
34. brunorocha.org
Multitask nunca funciona para o desenvolvedor de
software ou para o Cientista de Dados!
Melhor manter o foco e priorizar
a qualidade de vida!
35. brunorocha.org
Dia de trabalho para o cientista de dados = 8hrs (ou menos)
Estudo Pesquisa ExperimentosData Mining
Qualidade de vida importa!!!
36. brunorocha.org
Dia de trabalho para o cientista de dados = 8hrs (ou menos)
Estudo Pesquisa ExperimentosData Mining
Qualidade de vida importa!!!
Engenharia DevOps
Project
Leadership
Web APIs Testes Automação …..
38. brunorocha.org
Especialização é bom para todos!!!
- Foco = Qualidade
- Tempo livre = qualidade de vida
- Melhora o mercado de trabalho
- Evita retenção de know how
39. brunorocha.org
Formação do time de Data Science
Atenção: Contém slides gentilmente roubados do http://pt.
slideshare.net/rodsenra