Ciencia de Datos Reproducible

Ciencia de Datos Reproducible
Edgardo Hames
Gabriel Miretti

https://www.wallpaperup.com/193472/landscapes_Egypt_digital_art_pyramids_night_sky.html
Ciencia Experimental: Observaciones

Ciencia Computacional: Simulaciones

eCiencia: Teoría + Experimentos +

50 PB
Volumen estimado por el CERN para 2018
(tras limpiar el 99% de los datos colectados)

Reproducibilidad: capacidad de recomputar
mismos resultados con los datos originales
(dentro del lab).
Replicabilidad: posibilidad de que otros
experimentadores obtengan resultados
consistentes (entre labs).
Crisis de
Reproducibilidad

1. Disponibilidad de los datos crudos de los experimentos
2. Código y documentación para repetir los análisis (*)
3. Capacidad de analizar correctamente los datos
Solución a la Crisis de Reproducibilidad

Ciencia de Datos
Métodos científicos, procesos, algoritmos y sistemas para extraer conocimiento o
información de datos en diversas formas (estructurados o no).
Objetivo: un producto de software capaz de automatizar tareas de análisis complejas,
ampliando la utilidad de un modelo, algoritmo o inferencia basada en datos (producto de
datos)

ML
Extracción de
Atributos
Infraestructura
Herramientas de
Análisis
Verificación
Monitoreo
Configuración
Gestión de
Proceso
Recursos
Computacionales
Recolección de
Datos
https://youtu.be/vdG7uKQ2eKk?t=107
Producto de Software

Pipeline de datos
Limpieza
Análisis
Entrena
miento
Modelado
Modelo
Datos
Crudos
Verifica
ción
Estructuración, manejo de duplicados, errores, etc
Visualización, cálculos estadísticos, correlaciones, etc
Descripción matemática de los datos y sus relaciones

● Compilación o instalación fallidas por falta de
dependencias o documentación incorrecta
● Evolución/Erosión del software
● Barreras para la adopción y el reuso
Desafíos para reproducir análisis
COMUNES AL DESARROLLO DE SOFTWARE

¿Cómo resolverlo?
Notebook en Docker
Modelo como servicio REST

Limpieza
Análisis
Entrena
miento
Modelado
Modelo
Limpieza Modelo
Datos
Crudos
Verifica
ción
Construcción
Prueba
Data Science & Software Pipelines

Limpieza
Análisis
Entrena
miento
Modelado
Modelo
Limpieza Modelo
Datos
Crudos
Verifica
ción
Construcción
Prueba
Múltiples Modelos en Producción
Modelado
Modelo
Modelado
Modelo

CI para flujo de
datos
Se puede programar el flujo en el motor de
integración continua con pipeline as code.

Pachyderm.io
Pachyderm lets you deploy and manage
multi-stage, language-agnostic data pipelines
while maintaining complete reproducibility and
provenance.

Debemos alinear la
Ciencia de Datos
con las prácticas
de Ingeniería de
Software.

Edgardo Hames
ehames@bitlogic.io
Gabriel Miretti
about.me/gmiretti
Gracias!

Ciencia de Datos Reproducible

Recommandé

Recommandé

Contenu connexe

Dernier

Dernier (20)

Ciencia de Datos Reproducible