Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Upcoming SlideShare
What to Upload to SlideShare
Next
Download to read offline and view in fullscreen.

4

Share

Download to read offline

Ciencia de Datos Reproducible

Download to read offline

La reproducibilidad es la capacidad de obtener los mismos resultados o inferencias en base a los datos crudos y programas provistos por los investigadores. En sistemas de recolección de datos es fundamental poder reproducir los procesos de manipulación y gestión de datos con el fin de poder verificar resultados previos o extraer nueva información. Muchas veces estos procesos son manuales y difíciles de repetir. En esta charla presentamos Docker como una solución a dicho problema y lo hacemos extensivo a otras ramas de la ciencia que enfrentan dificultades similares.

Ciencia de Datos Reproducible

  1. 1. Ciencia de Datos Reproducible Edgardo Hames Gabriel Miretti
  2. 2. Paradigmas de la Ciencia
  3. 3. https://www.wallpaperup.com/193472/landscapes_Egypt_digital_art_pyramids_night_sky.html Ciencia Experimental: Observaciones
  4. 4. Ciencia Teórica: Modelos
  5. 5. Ciencia Computacional: Simulaciones
  6. 6. eCiencia: Teoría + Experimentos +
  7. 7. 50 PB Volumen estimado por el CERN para 2018 (tras limpiar el 99% de los datos colectados)
  8. 8. Reproducibilidad: capacidad de recomputar mismos resultados con los datos originales (dentro del lab). Replicabilidad: posibilidad de que otros experimentadores obtengan resultados consistentes (entre labs). Crisis de Reproducibilidad
  9. 9. 1. Disponibilidad de los datos crudos de los experimentos 2. Código y documentación para repetir los análisis (*) 3. Capacidad de analizar correctamente los datos Solución a la Crisis de Reproducibilidad
  10. 10. Ciencia de Datos
  11. 11. Ciencia de Datos Métodos científicos, procesos, algoritmos y sistemas para extraer conocimiento o información de datos en diversas formas (estructurados o no). Objetivo: un producto de software capaz de automatizar tareas de análisis complejas, ampliando la utilidad de un modelo, algoritmo o inferencia basada en datos (producto de datos)
  12. 12. ML Extracción de Atributos Infraestructura Herramientas de Análisis Verificación Monitoreo Configuración Gestión de Proceso Recursos Computacionales Recolección de Datos https://youtu.be/vdG7uKQ2eKk?t=107 Producto de Software
  13. 13. Pipeline de datos Limpieza Análisis Entrena miento Modelado Modelo Datos Crudos Verifica ción Estructuración, manejo de duplicados, errores, etc Visualización, cálculos estadísticos, correlaciones, etc Descripción matemática de los datos y sus relaciones
  14. 14. ● Compilación o instalación fallidas por falta de dependencias o documentación incorrecta ● Evolución/Erosión del software ● Barreras para la adopción y el reuso Desafíos para reproducir análisis COMUNES AL DESARROLLO DE SOFTWARE
  15. 15. Aproximación Sistemática
  16. 16. ¿Cómo resolverlo? Notebook en Docker Modelo como servicio REST
  17. 17. Limpieza Análisis Entrena miento Modelado Modelo Limpieza Modelo Datos Crudos Verifica ción Construcción Prueba Data Science & Software Pipelines
  18. 18. DEMO
  19. 19. Otras Consideraciones
  20. 20. Limpieza Análisis Entrena miento Modelado Modelo Limpieza Modelo Datos Crudos Verifica ción Construcción Prueba Múltiples Modelos en Producción Modelado Modelo Modelado Modelo
  21. 21. CI para flujo de datos Se puede programar el flujo en el motor de integración continua con pipeline as code.
  22. 22. Pachyderm.io Pachyderm lets you deploy and manage multi-stage, language-agnostic data pipelines while maintaining complete reproducibility and provenance.
  23. 23. Debemos alinear la Ciencia de Datos con las prácticas de Ingeniería de Software.
  24. 24. Edgardo Hames ehames@bitlogic.io Gabriel Miretti about.me/gmiretti Gracias!
  • PatricioMaller

    Apr. 18, 2018
  • mainsaurralde

    Apr. 18, 2018
  • MikelEganaAranguren

    Apr. 17, 2018
  • FranciscoPitriqueo

    Apr. 13, 2018

La reproducibilidad es la capacidad de obtener los mismos resultados o inferencias en base a los datos crudos y programas provistos por los investigadores. En sistemas de recolección de datos es fundamental poder reproducir los procesos de manipulación y gestión de datos con el fin de poder verificar resultados previos o extraer nueva información. Muchas veces estos procesos son manuales y difíciles de repetir. En esta charla presentamos Docker como una solución a dicho problema y lo hacemos extensivo a otras ramas de la ciencia que enfrentan dificultades similares.

Views

Total views

795

On Slideshare

0

From embeds

0

Number of embeds

23

Actions

Downloads

6

Shares

0

Comments

0

Likes

4

×