SlideShare une entreprise Scribd logo
1  sur  16
Télécharger pour lire hors ligne
¿Ciencia de Datos en
Periodismo? A 33k pies!
Liliana Millán
liliana.millan@gmail.com @silil3 Marzo 2017
Agenda
+ Minería de texto - IR
+ Grafos como herramienta de organización de información
+ NER - Name Entity Recognition
+ Wrap it all
Minería de Texto - IR
Un sistema de recuperación de información IR está compuesto por 3 elementos:
+ Una colección de documentos
+ Una consulta (con uno más términos)
+ Ordenar la colección de acuerdo a una medida de relevancia con respecto a la
consulta realizada
Ejemplo de un IR
Query de
consulta
Colección de documentos
ordenadas por relevancia
(PageRank) al query de
consulta
IR - ¿qué necesito?
+ Requieres de un conjunto de documentos sobre los que quieres realizar una
búsqueda de relevancia
+ Seleccionar el algoritmo/método para calcular la relevancia:
+ TF/IDF: Frecuencia de una palabra en el documento y en toda la colección
+ BM25: Frecuencia y tamaños
+ LSI: Contexto, polisemia y sinonimia
+ LDA: Obtención de tópicos de manera ‘automática’, diferentes proporciones de pertenencia → Los
mails de Sarah Palin, los de Hillary Clinton!!!
+ Para clasificar texto: Requieres de tener una taxonomía —generalmente
proporcionada por el periodista/editor—
Taxonomía
¿Para qué?
+ Para que puedas clasificar automáticamente un contenido a un tema(s)
+ Organización de contenido
+ ¿Cuánto contenido hay generado de? Pocos de medio ambiente, muchos de
política
+ Recomendación de contenidos —otras investigaciones que se parecen a la tuya—
Grafos
+ Representación de información
+ Nodos: Personas, empresas, notas, ...
+ Relaciones: Hijo de, proveedor, ..
+ Atributos: Fechas, montos, ...
+ Permiten analizar los datos de una manera diferente aplicando ‘Teoría de Grafos’
+ 6 grados de separación
+ Diámetro de la red
+ Comunidades
+ Número de triángulos
+ ...
Ejemplo
+ Game of Thrones
+ 107 personajes
+ 3er libro ‘A Storm of
Swords’
+ https://anthonybonato.co
m/2016/04/13/the-mathe
matics-of-game-of-throne
s/
Casos de uso
+ Identificación de relaciones anómalas: fraudes, corrupción
+ Falta de relación entre nodos que deberían tener relación: recomendaciones
+ Identificación de comunidades (y propiedades): Nodos que son hubs
—prestanombres—, nodos de separación entre empresas/personas
+ Identificación de caminos más cortos: Cómo llego de esta persona a esta otra… a
quién tengo que contactar.
+ Comportamiento en el tiempo: Asignaciones atípicas —licitaciones que siempre
son ganadas por la misma empresa—
→ Compranet es un muy buen ejemplo! ╭(◔ ◡ ◔)/
CompraNet
+ Bajar datos de https://compranet.funcionpublica.gob.mx/web/login.html
(2010-2017, 2002-2011)
+ Generar archivo csv con los datos de vendedor, comprador, precio (origen,
destino, atributo)
+ Cargar datos a bases de datos de grafos: Neo4j, Gephi
+ Analizar los datos ‘consultando’ la base de datos de grafos: identificación de
relaciones ‘raras’ (Neo4j)
+ Analizar los datos con teoría de grafos (Gephi) cuántas comunidades existen, se
comportan como mundo pequeño?, diámetro del grafo,
CompraNet
+ Año: 2004
+ Nodos: 1,427
+ Enlaces: 53,323
+ Tamaño: Monto
+ Color: Comunidad
+ Grafo: bipartita - proveedores,
licitadores
Herramienta: Gephi
¿Cómo automatizar la creación del grafo?
+ Named Entity Recognition (NER)
+ Personas
+ Empresas
+ Lugares
+ Fechas
+ Relaciones
+ ¿Cómo?
+ Gramática específica:
+ Estadística
+ Machine learning :) (no supervisado, supervisado)
Siempre de la mano de un editor|periodista|lingüista|experto en el problema
Stanford NER: http://nlp.stanford.edu/software/CRF-NER.shtml
Wrap it all - Panama papers
+ Obtener los documentos (¿en Español?)
+ Identificación automática de temas con LDA
+ Generar un NER —¿ocupar uno ya hecho?—
identificar:
+ Personas
+ Empresas
+ Relaciones
+ Fechas
+ Montos
+ Generar un archivo con los nodos y las aristas
+ Cargar el archivo a Neo4j
+ Cargar el archivo a Gephi - cuántas comunidades?
Grados de separación entre empresas/personas
PERO!
+ Todos estos análisis son específicos al idioma!!!
+ No ocupes herramientas que estén hechas para el idioma inglés! Requieres de uno
en español —hay varios :)—
+ Nunca dejes de lado al experto en cada punto, la sinergia de un equipo
multidisciplinario te traerá muchos beneficios:
+ Periodista|Editor
+ Experto en el tema
+ Científico de datos
Gracias :)
Preguntas ????
liliana.millan@gmail.com

Contenu connexe

En vedette

Mesura de Govern: Urbanisme amb perspectiva de gènere
Mesura de Govern: Urbanisme amb perspectiva de gènereMesura de Govern: Urbanisme amb perspectiva de gènere
Mesura de Govern: Urbanisme amb perspectiva de gènereAjuntament de Barcelona
 
Deploying and Managing a Global Blockchain Network
Deploying and Managing a Global Blockchain NetworkDeploying and Managing a Global Blockchain Network
Deploying and Managing a Global Blockchain NetworkDuncan Johnston-Watt
 
Rutinas de pensamiento
Rutinas de pensamientoRutinas de pensamiento
Rutinas de pensamientoCarmen Lamata
 
Wielding the Hard and Soft Science of Service Design
Wielding the Hard and Soft Science of Service DesignWielding the Hard and Soft Science of Service Design
Wielding the Hard and Soft Science of Service Designbrandonschauer
 
Smart Weighing Solutions for Lean Production: Why It is Important To Select t...
Smart Weighing Solutions for Lean Production: Why It is Important To Select t...Smart Weighing Solutions for Lean Production: Why It is Important To Select t...
Smart Weighing Solutions for Lean Production: Why It is Important To Select t...Mettler-Toledo International, Inc
 
Revenu universel 2h pour tout comprendre
Revenu universel 2h pour tout comprendreRevenu universel 2h pour tout comprendre
Revenu universel 2h pour tout comprendreLes écoloHumanistes
 
ハイブリッドクラウドの現実とAzureの使いどころ
ハイブリッドクラウドの現実とAzureの使いどころハイブリッドクラウドの現実とAzureの使いどころ
ハイブリッドクラウドの現実とAzureの使いどころToru Makabe
 
7 Growth Lessons from Silicon Valley - and why they don't call it "Growth Hac...
7 Growth Lessons from Silicon Valley - and why they don't call it "Growth Hac...7 Growth Lessons from Silicon Valley - and why they don't call it "Growth Hac...
7 Growth Lessons from Silicon Valley - and why they don't call it "Growth Hac...Andy Young
 
Portrait of a lady
Portrait of a ladyPortrait of a lady
Portrait of a ladyMakala (D)
 
a successful man of the world
a successful man of the worlda successful man of the world
a successful man of the worldAgha A
 
Next Generation Digital Enterprise (Workplace) Technology | Enterprise Digita...
Next Generation Digital Enterprise (Workplace) Technology | Enterprise Digita...Next Generation Digital Enterprise (Workplace) Technology | Enterprise Digita...
Next Generation Digital Enterprise (Workplace) Technology | Enterprise Digita...Dion Hinchcliffe
 
HPC Top 5 Stories: March 22, 2017
HPC Top 5 Stories: March 22, 2017HPC Top 5 Stories: March 22, 2017
HPC Top 5 Stories: March 22, 2017NVIDIA
 
Etiquetado de contenido editorial con bm25
Etiquetado de contenido editorial con bm25Etiquetado de contenido editorial con bm25
Etiquetado de contenido editorial con bm25Liliana Millán Núñez
 
Squeezing Deep Learning Into Mobile Phones
Squeezing Deep Learning Into Mobile PhonesSqueezing Deep Learning Into Mobile Phones
Squeezing Deep Learning Into Mobile PhonesAnirudh Koul
 
What is Deep Learning?
What is Deep Learning?What is Deep Learning?
What is Deep Learning?NVIDIA
 
Payments Trends 2017
Payments Trends 2017Payments Trends 2017
Payments Trends 2017Capgemini
 
10 Things You Didn’t Know About Mobile Email from Litmus & HubSpot
 10 Things You Didn’t Know About Mobile Email from Litmus & HubSpot 10 Things You Didn’t Know About Mobile Email from Litmus & HubSpot
10 Things You Didn’t Know About Mobile Email from Litmus & HubSpotHubSpot
 
How to Earn the Attention of Today's Buyer
How to Earn the Attention of Today's BuyerHow to Earn the Attention of Today's Buyer
How to Earn the Attention of Today's BuyerHubSpot
 

En vedette (19)

Mesura de Govern: Urbanisme amb perspectiva de gènere
Mesura de Govern: Urbanisme amb perspectiva de gènereMesura de Govern: Urbanisme amb perspectiva de gènere
Mesura de Govern: Urbanisme amb perspectiva de gènere
 
Deploying and Managing a Global Blockchain Network
Deploying and Managing a Global Blockchain NetworkDeploying and Managing a Global Blockchain Network
Deploying and Managing a Global Blockchain Network
 
Sistema educativo indígena propio seip La Guajira
Sistema educativo indígena propio seip La GuajiraSistema educativo indígena propio seip La Guajira
Sistema educativo indígena propio seip La Guajira
 
Rutinas de pensamiento
Rutinas de pensamientoRutinas de pensamiento
Rutinas de pensamiento
 
Wielding the Hard and Soft Science of Service Design
Wielding the Hard and Soft Science of Service DesignWielding the Hard and Soft Science of Service Design
Wielding the Hard and Soft Science of Service Design
 
Smart Weighing Solutions for Lean Production: Why It is Important To Select t...
Smart Weighing Solutions for Lean Production: Why It is Important To Select t...Smart Weighing Solutions for Lean Production: Why It is Important To Select t...
Smart Weighing Solutions for Lean Production: Why It is Important To Select t...
 
Revenu universel 2h pour tout comprendre
Revenu universel 2h pour tout comprendreRevenu universel 2h pour tout comprendre
Revenu universel 2h pour tout comprendre
 
ハイブリッドクラウドの現実とAzureの使いどころ
ハイブリッドクラウドの現実とAzureの使いどころハイブリッドクラウドの現実とAzureの使いどころ
ハイブリッドクラウドの現実とAzureの使いどころ
 
7 Growth Lessons from Silicon Valley - and why they don't call it "Growth Hac...
7 Growth Lessons from Silicon Valley - and why they don't call it "Growth Hac...7 Growth Lessons from Silicon Valley - and why they don't call it "Growth Hac...
7 Growth Lessons from Silicon Valley - and why they don't call it "Growth Hac...
 
Portrait of a lady
Portrait of a ladyPortrait of a lady
Portrait of a lady
 
a successful man of the world
a successful man of the worlda successful man of the world
a successful man of the world
 
Next Generation Digital Enterprise (Workplace) Technology | Enterprise Digita...
Next Generation Digital Enterprise (Workplace) Technology | Enterprise Digita...Next Generation Digital Enterprise (Workplace) Technology | Enterprise Digita...
Next Generation Digital Enterprise (Workplace) Technology | Enterprise Digita...
 
HPC Top 5 Stories: March 22, 2017
HPC Top 5 Stories: March 22, 2017HPC Top 5 Stories: March 22, 2017
HPC Top 5 Stories: March 22, 2017
 
Etiquetado de contenido editorial con bm25
Etiquetado de contenido editorial con bm25Etiquetado de contenido editorial con bm25
Etiquetado de contenido editorial con bm25
 
Squeezing Deep Learning Into Mobile Phones
Squeezing Deep Learning Into Mobile PhonesSqueezing Deep Learning Into Mobile Phones
Squeezing Deep Learning Into Mobile Phones
 
What is Deep Learning?
What is Deep Learning?What is Deep Learning?
What is Deep Learning?
 
Payments Trends 2017
Payments Trends 2017Payments Trends 2017
Payments Trends 2017
 
10 Things You Didn’t Know About Mobile Email from Litmus & HubSpot
 10 Things You Didn’t Know About Mobile Email from Litmus & HubSpot 10 Things You Didn’t Know About Mobile Email from Litmus & HubSpot
10 Things You Didn’t Know About Mobile Email from Litmus & HubSpot
 
How to Earn the Attention of Today's Buyer
How to Earn the Attention of Today's BuyerHow to Earn the Attention of Today's Buyer
How to Earn the Attention of Today's Buyer
 

Similaire à Data science aplicado a periodismo

diseno-Bases-de-Datos_2014.pptx
diseno-Bases-de-Datos_2014.pptxdiseno-Bases-de-Datos_2014.pptx
diseno-Bases-de-Datos_2014.pptxHumbertoVergara11
 
Información Investigación Digital
Información Investigación DigitalInformación Investigación Digital
Información Investigación DigitalEspacio Público
 
Curso modelamiento base de datos
Curso modelamiento base de datosCurso modelamiento base de datos
Curso modelamiento base de datosAmigo Fiel
 
Nova Spivack Semantic Web Talk, Entendiendo la web semántica
Nova Spivack Semantic Web Talk, Entendiendo la web semánticaNova Spivack Semantic Web Talk, Entendiendo la web semántica
Nova Spivack Semantic Web Talk, Entendiendo la web semánticaDolors Reig (el caparazón)
 
La potencia de la analítica y la visualización de datos
La potencia de la analítica y la visualización de datosLa potencia de la analítica y la visualización de datos
La potencia de la analítica y la visualización de datosNeo4j
 
Estrategias de búsquedadhtic (2)
Estrategias de búsquedadhtic (2)Estrategias de búsquedadhtic (2)
Estrategias de búsquedadhtic (2)kathymonxo
 
Taller de investigación en el entorno digital
Taller de investigación en el entorno digitalTaller de investigación en el entorno digital
Taller de investigación en el entorno digitalEspacio Público
 
Estrategias de búsqueda
Estrategias de búsquedaEstrategias de búsqueda
Estrategias de búsquedakathymonxo
 
Tareas en la clase de informática
Tareas en la clase de informáticaTareas en la clase de informática
Tareas en la clase de informáticaJulio Pérez
 
El análisis colaborativo de la información -- Antonio Soto
El análisis colaborativo de la información -- Antonio SotoEl análisis colaborativo de la información -- Antonio Soto
El análisis colaborativo de la información -- Antonio Sotoorganizacion_20
 
Charla II Congreso de Bibliotecas Universitarias y Especializadas
Charla II Congreso de Bibliotecas Universitarias y EspecializadasCharla II Congreso de Bibliotecas Universitarias y Especializadas
Charla II Congreso de Bibliotecas Universitarias y EspecializadasChristian Sifaqui
 

Similaire à Data science aplicado a periodismo (20)

diseno-Bases-de-Datos_2014.pptx
diseno-Bases-de-Datos_2014.pptxdiseno-Bases-de-Datos_2014.pptx
diseno-Bases-de-Datos_2014.pptx
 
Información Investigación Digital
Información Investigación DigitalInformación Investigación Digital
Información Investigación Digital
 
Modelo de datos
Modelo de datosModelo de datos
Modelo de datos
 
Curso modelamiento base de datos
Curso modelamiento base de datosCurso modelamiento base de datos
Curso modelamiento base de datos
 
Nova Spivack Semantic Web Talk, Entendiendo la web semántica
Nova Spivack Semantic Web Talk, Entendiendo la web semánticaNova Spivack Semantic Web Talk, Entendiendo la web semántica
Nova Spivack Semantic Web Talk, Entendiendo la web semántica
 
Web semantica
Web semantica Web semantica
Web semantica
 
Curso integración Web Semántica
Curso integración Web Semántica Curso integración Web Semántica
Curso integración Web Semántica
 
La potencia de la analítica y la visualización de datos
La potencia de la analítica y la visualización de datosLa potencia de la analítica y la visualización de datos
La potencia de la analítica y la visualización de datos
 
Estrategias de búsquedadhtic (2)
Estrategias de búsquedadhtic (2)Estrategias de búsquedadhtic (2)
Estrategias de búsquedadhtic (2)
 
Base de datos
Base de datosBase de datos
Base de datos
 
CDI - U3.1
CDI - U3.1CDI - U3.1
CDI - U3.1
 
Taller de investigación en el entorno digital
Taller de investigación en el entorno digitalTaller de investigación en el entorno digital
Taller de investigación en el entorno digital
 
Estrategias de búsqueda
Estrategias de búsquedaEstrategias de búsqueda
Estrategias de búsqueda
 
Tareas en la clase de informática
Tareas en la clase de informáticaTareas en la clase de informática
Tareas en la clase de informática
 
El análisis colaborativo de la información -- Antonio Soto
El análisis colaborativo de la información -- Antonio SotoEl análisis colaborativo de la información -- Antonio Soto
El análisis colaborativo de la información -- Antonio Soto
 
Bases de datos NoSQL en AWS
Bases de datos NoSQL en AWSBases de datos NoSQL en AWS
Bases de datos NoSQL en AWS
 
Charla II Congreso de Bibliotecas Universitarias y Especializadas
Charla II Congreso de Bibliotecas Universitarias y EspecializadasCharla II Congreso de Bibliotecas Universitarias y Especializadas
Charla II Congreso de Bibliotecas Universitarias y Especializadas
 
Datos abiertos enlazados: situación actual y perspectivas
Datos abiertos enlazados: situación actual y perspectivasDatos abiertos enlazados: situación actual y perspectivas
Datos abiertos enlazados: situación actual y perspectivas
 
1.2.1. Comunicación Digital I - U3-1
1.2.1. Comunicación Digital I - U3-11.2.1. Comunicación Digital I - U3-1
1.2.1. Comunicación Digital I - U3-1
 
Taller bases de datos #1 information ushers
Taller bases de datos #1 information ushersTaller bases de datos #1 information ushers
Taller bases de datos #1 information ushers
 

Dernier

Módulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotesMódulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotessald071205mmcnrna9
 
Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería yocelynsanchezerasmo
 
ANÁLISIS DE LA ÉTICA UTILIRALISTA DE JEREMY BENTHAM.pdf
ANÁLISIS DE LA ÉTICA UTILIRALISTA DE JEREMY BENTHAM.pdfANÁLISIS DE LA ÉTICA UTILIRALISTA DE JEREMY BENTHAM.pdf
ANÁLISIS DE LA ÉTICA UTILIRALISTA DE JEREMY BENTHAM.pdfDaniloAstoVeliz
 
CONTROLES Y EXPERIMENTACION presentacion
CONTROLES Y EXPERIMENTACION presentacionCONTROLES Y EXPERIMENTACION presentacion
CONTROLES Y EXPERIMENTACION presentacionJosueVallejo10
 
Países por velocidad de sus misiles hipersónicos (2024).pdf
Países por velocidad de sus misiles hipersónicos  (2024).pdfPaíses por velocidad de sus misiles hipersónicos  (2024).pdf
Países por velocidad de sus misiles hipersónicos (2024).pdfJC Díaz Herrera
 
SESIONES ABRIL para sexto grado de nivel primario.doc
SESIONES ABRIL para sexto grado de nivel primario.docSESIONES ABRIL para sexto grado de nivel primario.doc
SESIONES ABRIL para sexto grado de nivel primario.docrobinsonsjuan
 
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024eluniversocom
 
LÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdf
LÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdfLÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdf
LÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdfFranyeskaMagallanes
 
El guion museográfico. definición. componentes. parte 1.pptx
El guion museográfico. definición. componentes. parte 1.pptxEl guion museográfico. definición. componentes. parte 1.pptx
El guion museográfico. definición. componentes. parte 1.pptxAngelaMarquez27
 
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoAREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoSantiagoRodriguezLoz
 
Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023Ivie
 
Civilizacióne Precolonbinas Resumen pdf.
Civilizacióne Precolonbinas Resumen pdf.Civilizacióne Precolonbinas Resumen pdf.
Civilizacióne Precolonbinas Resumen pdf.gpoiquicuellar
 
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdfTABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdfMartinRodriguezchave1
 
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILPREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
la-antigua-Grecia, datos y curiosidades mas relevantes
la-antigua-Grecia, datos y curiosidades mas relevantesla-antigua-Grecia, datos y curiosidades mas relevantes
la-antigua-Grecia, datos y curiosidades mas relevantesalvarojosephyucracol
 
Secuencia Uso del calendario. Segundo ciclo.docx
Secuencia Uso del calendario. Segundo ciclo.docxSecuencia Uso del calendario. Segundo ciclo.docx
Secuencia Uso del calendario. Segundo ciclo.docxcandevillarruel
 
Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405rodrimarxim
 
4958documentodeaptitud_PUENTE PIEDRA.pdf
4958documentodeaptitud_PUENTE PIEDRA.pdf4958documentodeaptitud_PUENTE PIEDRA.pdf
4958documentodeaptitud_PUENTE PIEDRA.pdfcristianojedac11
 
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO    ..pdfMAPA DE RIESGOS DE UN ZOOLOGICO    ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdfCamilaArzate2
 

Dernier (20)

Módulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotesMódulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotes
 
Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería
 
ANÁLISIS DE LA ÉTICA UTILIRALISTA DE JEREMY BENTHAM.pdf
ANÁLISIS DE LA ÉTICA UTILIRALISTA DE JEREMY BENTHAM.pdfANÁLISIS DE LA ÉTICA UTILIRALISTA DE JEREMY BENTHAM.pdf
ANÁLISIS DE LA ÉTICA UTILIRALISTA DE JEREMY BENTHAM.pdf
 
CONTROLES Y EXPERIMENTACION presentacion
CONTROLES Y EXPERIMENTACION presentacionCONTROLES Y EXPERIMENTACION presentacion
CONTROLES Y EXPERIMENTACION presentacion
 
Países por velocidad de sus misiles hipersónicos (2024).pdf
Países por velocidad de sus misiles hipersónicos  (2024).pdfPaíses por velocidad de sus misiles hipersónicos  (2024).pdf
Países por velocidad de sus misiles hipersónicos (2024).pdf
 
SESIONES ABRIL para sexto grado de nivel primario.doc
SESIONES ABRIL para sexto grado de nivel primario.docSESIONES ABRIL para sexto grado de nivel primario.doc
SESIONES ABRIL para sexto grado de nivel primario.doc
 
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
 
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
PREGUNTAS Y ANEXOS CONSULTA POPULAR 2024
 
LÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdf
LÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdfLÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdf
LÍNEA DE TIEMPO- ANTROPOLOGIA jsjudhdv.pdf
 
El guion museográfico. definición. componentes. parte 1.pptx
El guion museográfico. definición. componentes. parte 1.pptxEl guion museográfico. definición. componentes. parte 1.pptx
El guion museográfico. definición. componentes. parte 1.pptx
 
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoAREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
 
Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023
 
Civilizacióne Precolonbinas Resumen pdf.
Civilizacióne Precolonbinas Resumen pdf.Civilizacióne Precolonbinas Resumen pdf.
Civilizacióne Precolonbinas Resumen pdf.
 
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdfTABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
 
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILPREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
 
la-antigua-Grecia, datos y curiosidades mas relevantes
la-antigua-Grecia, datos y curiosidades mas relevantesla-antigua-Grecia, datos y curiosidades mas relevantes
la-antigua-Grecia, datos y curiosidades mas relevantes
 
Secuencia Uso del calendario. Segundo ciclo.docx
Secuencia Uso del calendario. Segundo ciclo.docxSecuencia Uso del calendario. Segundo ciclo.docx
Secuencia Uso del calendario. Segundo ciclo.docx
 
Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405
 
4958documentodeaptitud_PUENTE PIEDRA.pdf
4958documentodeaptitud_PUENTE PIEDRA.pdf4958documentodeaptitud_PUENTE PIEDRA.pdf
4958documentodeaptitud_PUENTE PIEDRA.pdf
 
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO    ..pdfMAPA DE RIESGOS DE UN ZOOLOGICO    ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
 

Data science aplicado a periodismo

  • 1. ¿Ciencia de Datos en Periodismo? A 33k pies! Liliana Millán liliana.millan@gmail.com @silil3 Marzo 2017
  • 2. Agenda + Minería de texto - IR + Grafos como herramienta de organización de información + NER - Name Entity Recognition + Wrap it all
  • 3. Minería de Texto - IR Un sistema de recuperación de información IR está compuesto por 3 elementos: + Una colección de documentos + Una consulta (con uno más términos) + Ordenar la colección de acuerdo a una medida de relevancia con respecto a la consulta realizada
  • 4. Ejemplo de un IR Query de consulta Colección de documentos ordenadas por relevancia (PageRank) al query de consulta
  • 5. IR - ¿qué necesito? + Requieres de un conjunto de documentos sobre los que quieres realizar una búsqueda de relevancia + Seleccionar el algoritmo/método para calcular la relevancia: + TF/IDF: Frecuencia de una palabra en el documento y en toda la colección + BM25: Frecuencia y tamaños + LSI: Contexto, polisemia y sinonimia + LDA: Obtención de tópicos de manera ‘automática’, diferentes proporciones de pertenencia → Los mails de Sarah Palin, los de Hillary Clinton!!! + Para clasificar texto: Requieres de tener una taxonomía —generalmente proporcionada por el periodista/editor—
  • 7. ¿Para qué? + Para que puedas clasificar automáticamente un contenido a un tema(s) + Organización de contenido + ¿Cuánto contenido hay generado de? Pocos de medio ambiente, muchos de política + Recomendación de contenidos —otras investigaciones que se parecen a la tuya—
  • 8. Grafos + Representación de información + Nodos: Personas, empresas, notas, ... + Relaciones: Hijo de, proveedor, .. + Atributos: Fechas, montos, ... + Permiten analizar los datos de una manera diferente aplicando ‘Teoría de Grafos’ + 6 grados de separación + Diámetro de la red + Comunidades + Número de triángulos + ...
  • 9. Ejemplo + Game of Thrones + 107 personajes + 3er libro ‘A Storm of Swords’ + https://anthonybonato.co m/2016/04/13/the-mathe matics-of-game-of-throne s/
  • 10. Casos de uso + Identificación de relaciones anómalas: fraudes, corrupción + Falta de relación entre nodos que deberían tener relación: recomendaciones + Identificación de comunidades (y propiedades): Nodos que son hubs —prestanombres—, nodos de separación entre empresas/personas + Identificación de caminos más cortos: Cómo llego de esta persona a esta otra… a quién tengo que contactar. + Comportamiento en el tiempo: Asignaciones atípicas —licitaciones que siempre son ganadas por la misma empresa— → Compranet es un muy buen ejemplo! ╭(◔ ◡ ◔)/
  • 11. CompraNet + Bajar datos de https://compranet.funcionpublica.gob.mx/web/login.html (2010-2017, 2002-2011) + Generar archivo csv con los datos de vendedor, comprador, precio (origen, destino, atributo) + Cargar datos a bases de datos de grafos: Neo4j, Gephi + Analizar los datos ‘consultando’ la base de datos de grafos: identificación de relaciones ‘raras’ (Neo4j) + Analizar los datos con teoría de grafos (Gephi) cuántas comunidades existen, se comportan como mundo pequeño?, diámetro del grafo,
  • 12. CompraNet + Año: 2004 + Nodos: 1,427 + Enlaces: 53,323 + Tamaño: Monto + Color: Comunidad + Grafo: bipartita - proveedores, licitadores Herramienta: Gephi
  • 13. ¿Cómo automatizar la creación del grafo? + Named Entity Recognition (NER) + Personas + Empresas + Lugares + Fechas + Relaciones + ¿Cómo? + Gramática específica: + Estadística + Machine learning :) (no supervisado, supervisado) Siempre de la mano de un editor|periodista|lingüista|experto en el problema Stanford NER: http://nlp.stanford.edu/software/CRF-NER.shtml
  • 14. Wrap it all - Panama papers + Obtener los documentos (¿en Español?) + Identificación automática de temas con LDA + Generar un NER —¿ocupar uno ya hecho?— identificar: + Personas + Empresas + Relaciones + Fechas + Montos + Generar un archivo con los nodos y las aristas + Cargar el archivo a Neo4j + Cargar el archivo a Gephi - cuántas comunidades? Grados de separación entre empresas/personas
  • 15. PERO! + Todos estos análisis son específicos al idioma!!! + No ocupes herramientas que estén hechas para el idioma inglés! Requieres de uno en español —hay varios :)— + Nunca dejes de lado al experto en cada punto, la sinergia de un equipo multidisciplinario te traerá muchos beneficios: + Periodista|Editor + Experto en el tema + Científico de datos