Presentazione "Running Big Data" di Francesco De Chirico.
26/11/2015
Osservatorio Big Data Analytics & Business Intelligence - Ricerca 2015: "Big Data: da Data Insight a Data Driven Strategy".
Datarace, il sistema di analisi delle performance sportive nato in collaborazione con TDS -Timing Data Service, come esempio di progetto di Big Data Solution.
Come dei semplici dati, dopo una elaborazione mirata, possono facilmente trasformarsi in ritorno economico.
2. Francesco De Chirico
• 13 anni nell’area formazione di Telecom Italia
• 7 anni come libero professionista
• Dal 2007 Mentor in SolidQ
• Modellazione e sviluppo di soluzioni di BI con piattaforma Microsoft dal 2001
• Profonda conoscenza di SSAS e linguaggi MDX e DAX
• Microsoft MCT dal 2008
• SSAS Maestro dal 2012
• Mail: fdechirico@solidq.com
5. Timing Data Service
• Timing company leader a livello nazionale per numero di atleti cronometrati
• oltre 350.000 atleti
• più di un 1.000.000 di tempi di gara
• Non solo atletica:
• ciclismo, MTB, sci di fondo ed altre per un totale di oltre 30 discipline coperte
• Offre servizi organizzativi, come
• grafica TV
• gestione delle iscrizioni
• la produzione di materiali (pettorali, volantini, buste, ecc.)
6. SolidQ
• Società Globale di consulenza sulla Piattaforma Dati Microsoft
• Nata nel 2002 in Spagna & North America
• Divisione Italiana aperta nel 2007
• Oltre 200 professionisti in tutto il mondo
• Maggior concentrazione di Microsoft Valuable Professional su SQL Server
• Offre servizi di Consulenza, Advisory, Mentoring e Formazione su
• Data Warehousing, Business Intelligence, Big Data & Analytics
• Performance Tuning, Performance Monitoring, Alta Disponibilità e Disaster Recovery
• Offre soluzioni di Remote DBA, Security Assessment, Check-Up, Cloud BI
7. Obiettivi e metodologia
• Definire architettura e "Big Data Journey" di riferimento
• Applicazione pratica in progetti già in produzione
• Fare "percepire" i big data agli utenti
• Big Dirty Data: nel backoffice
• Small Nice Useful Data: per l’utente finale
• Dimostrare il "valore" dei dati anche in aziende in cui essi non rappresentano il
core business
• Problema: nel 2014 Azure era molto diverso da ora
• Sfida: progettare un’architettura modulare migliorabile nel tempo
• Soluzione: SolidQ Adaptive BI Framework (www.adaptivebi.it)
8. Architettura Fisica
• Data Sources
• RDBMS
• JSON RESTful service
• Wikipedia
• Fast Ingest
• Ad-Hoc .NET Service su Virtual Machine
• vNext: Azure Event Hub + Azure Data Factory
• Stock
• Azure Blob Store per JSON
• SQL Server / SQL Azure per dati strutturati
Collect / Stock
Fast Ingest
Data Sources
9. Architettura Fisica
• Batch Process su Raw Stock
• HDInsight + Python Scripts + Hive Queries
• Batch load con SSIS + HDInsight ODBC
• Data Processing (VM + SQL Azure)
• SQL Server In-Memory Engine / ColumnStore
• T-SQL + SSIS
• Ad-Hoc .NET Scripts (dentro SSIS)
• vNext: Azure Stream Analytics
• Identity Mapping (VM)
• Multi-level Fuzzy Matching algorithm in SSIS
• vNext: HDInsight + Tez/Spark
Batch Process
Data Process
Data Process
10. Architettura Fisica
• Distilled Data
• SQL Azure
• Analytics (Clustering, Forecasting)
• Azure ML
• Cache Engine
• Azure Redis
Distilled Data
Analytics
Analytics
11. Architettura Fisica
• Web Application (Azure Web Apps)
• REST Service per il Query Manager
• HTML5 + Async JQuery Front End
• Data Exploration
• Excel per i Data Scientist
• PowerBI per gli utilizzatori finali “evoluti”
• Dove il sito web non basta
Analytics
Exploration
12. Funzionalità
• Oggi
• Dati ufficiali (pubblici) relativi a corse e corse in montagna
• Analisi statistiche sui dati ufficiali
• Da domani (27-11-2015)
• Login per accesso ai propri dati (privati) previa registrazione sito TDS
• Analisi statistiche sui propri dati
• Next upgrades
• Dati personali di allenamento
• Wearables Devices Data (IoT)
• Predictive Analytics
• …