Este documento presenta varias herramientas de ciencia de datos que pueden ser útiles para el periodismo, incluyendo minería de texto, grafos, y reconocimiento de entidades nombradas. Explica brevemente cómo funciona la recuperación de información y clasificación de texto, y proporciona ejemplos de cómo los grafos pueden organizar y analizar datos. Finalmente, propone una manera de aplicar estas herramientas a los Panama Papers utilizando procesamiento de lenguaje natural en español.
1. ¿Ciencia de Datos en
Periodismo? A 33k pies!
Liliana Millán
liliana.millan@gmail.com @silil3 Marzo 2017
2. Agenda
+ Minería de texto - IR
+ Grafos como herramienta de organización de información
+ NER - Name Entity Recognition
+ Wrap it all
3. Minería de Texto - IR
Un sistema de recuperación de información IR está compuesto por 3 elementos:
+ Una colección de documentos
+ Una consulta (con uno más términos)
+ Ordenar la colección de acuerdo a una medida de relevancia con respecto a la
consulta realizada
4. Ejemplo de un IR
Query de
consulta
Colección de documentos
ordenadas por relevancia
(PageRank) al query de
consulta
5. IR - ¿qué necesito?
+ Requieres de un conjunto de documentos sobre los que quieres realizar una
búsqueda de relevancia
+ Seleccionar el algoritmo/método para calcular la relevancia:
+ TF/IDF: Frecuencia de una palabra en el documento y en toda la colección
+ BM25: Frecuencia y tamaños
+ LSI: Contexto, polisemia y sinonimia
+ LDA: Obtención de tópicos de manera ‘automática’, diferentes proporciones de pertenencia → Los
mails de Sarah Palin, los de Hillary Clinton!!!
+ Para clasificar texto: Requieres de tener una taxonomía —generalmente
proporcionada por el periodista/editor—
7. ¿Para qué?
+ Para que puedas clasificar automáticamente un contenido a un tema(s)
+ Organización de contenido
+ ¿Cuánto contenido hay generado de? Pocos de medio ambiente, muchos de
política
+ Recomendación de contenidos —otras investigaciones que se parecen a la tuya—
8. Grafos
+ Representación de información
+ Nodos: Personas, empresas, notas, ...
+ Relaciones: Hijo de, proveedor, ..
+ Atributos: Fechas, montos, ...
+ Permiten analizar los datos de una manera diferente aplicando ‘Teoría de Grafos’
+ 6 grados de separación
+ Diámetro de la red
+ Comunidades
+ Número de triángulos
+ ...
9. Ejemplo
+ Game of Thrones
+ 107 personajes
+ 3er libro ‘A Storm of
Swords’
+ https://anthonybonato.co
m/2016/04/13/the-mathe
matics-of-game-of-throne
s/
10. Casos de uso
+ Identificación de relaciones anómalas: fraudes, corrupción
+ Falta de relación entre nodos que deberían tener relación: recomendaciones
+ Identificación de comunidades (y propiedades): Nodos que son hubs
—prestanombres—, nodos de separación entre empresas/personas
+ Identificación de caminos más cortos: Cómo llego de esta persona a esta otra… a
quién tengo que contactar.
+ Comportamiento en el tiempo: Asignaciones atípicas —licitaciones que siempre
son ganadas por la misma empresa—
→ Compranet es un muy buen ejemplo! ╭(◔ ◡ ◔)/
11. CompraNet
+ Bajar datos de https://compranet.funcionpublica.gob.mx/web/login.html
(2010-2017, 2002-2011)
+ Generar archivo csv con los datos de vendedor, comprador, precio (origen,
destino, atributo)
+ Cargar datos a bases de datos de grafos: Neo4j, Gephi
+ Analizar los datos ‘consultando’ la base de datos de grafos: identificación de
relaciones ‘raras’ (Neo4j)
+ Analizar los datos con teoría de grafos (Gephi) cuántas comunidades existen, se
comportan como mundo pequeño?, diámetro del grafo,
13. ¿Cómo automatizar la creación del grafo?
+ Named Entity Recognition (NER)
+ Personas
+ Empresas
+ Lugares
+ Fechas
+ Relaciones
+ ¿Cómo?
+ Gramática específica:
+ Estadística
+ Machine learning :) (no supervisado, supervisado)
Siempre de la mano de un editor|periodista|lingüista|experto en el problema
Stanford NER: http://nlp.stanford.edu/software/CRF-NER.shtml
14. Wrap it all - Panama papers
+ Obtener los documentos (¿en Español?)
+ Identificación automática de temas con LDA
+ Generar un NER —¿ocupar uno ya hecho?—
identificar:
+ Personas
+ Empresas
+ Relaciones
+ Fechas
+ Montos
+ Generar un archivo con los nodos y las aristas
+ Cargar el archivo a Neo4j
+ Cargar el archivo a Gephi - cuántas comunidades?
Grados de separación entre empresas/personas
15. PERO!
+ Todos estos análisis son específicos al idioma!!!
+ No ocupes herramientas que estén hechas para el idioma inglés! Requieres de uno
en español —hay varios :)—
+ Nunca dejes de lado al experto en cada punto, la sinergia de un equipo
multidisciplinario te traerá muchos beneficios:
+ Periodista|Editor
+ Experto en el tema
+ Científico de datos