SlideShare une entreprise Scribd logo
1  sur  35
SEMINAIRE
Jean Roger
MABLY
DATAMINING ET
APPLICATIONS
K
Zx
(
b
8
5
$
a
>
[K
S Let’s come
& see
9
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
 Customer Lifetime Management Analyst à
MTN-CI depuis Juillet 2011
 Professeur vacataire de Marketing et Etudes
de marchés à l’ENSEA (ITS Option Entreprise)
depuis 2013.
 Concpeteur et administrateur de la page
facebook Intelligence Marketing:
www.facebook/pages/Intelligence-Marketing
 CEO du Bureau d’Etude Spécialisé dans le
traitement de l’INFOrmation (BEST-INFO):
Cabinet spécialisé dans l’E-commerce et
Data-Analytics.
PRESENTATION DE L’INTERVENANT
Jean Roger MABLY
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
PLAN DE PRESENTATION
1. Origine et Définition du Datamining
2. Apport du Datamining
3. Comparaison Datamining vs Statistiques et Datamining
vs Big Data
4. Le Datamining d’hier, d’aujourd’hui et de demain
PARTIE I: INTRODUCTION AU DATAMINING
PARTIE II: PANORAMA DES TECHNIQUES DATAMINING
1. Les grands groupes de modèles
2. Analyse factorielle
3. Classification/Prédiction
4. Segmentation
5. Associations
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
PLAN DE PRESENTATION (2)
PARTIE III: DOMAINES D’APPLICATIONS
1. Utilité du Datamining dans le CRM
2. Utilité dans la banque
3. Datamining dans l’assurance de risque
4. Datamining dans la téléphonie
5. Le datamining dans le commerce
6. Autres exemples
PARTIE IV: CONSTRUIRE UN PROJET DATAMINING
1. SEMMA (SAS)
2. CRISP-DM (CLEMENTINE)
PARTIE V: UTILISATION D’OUTILS
1. CLEMENTINE
2. TANAGRA
INTRODUCTION AU
DATAMINING
 Qu’est ce que le Datamining ?
 A quoi sert le datamining ?
 Ou va le Datamining ?
[
I
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
La fouille des données
Le DATAMINING est l’ensemble des:
techniques et méthodes
… destinées à l’exploration et l’analyse
… de (souvent) grandes bases de données informatiques
… en vue de détecter dans ces données des règles, des associations,
des tendances inconnues (non fixées a priori), dans des structures
particulières restituant de façon concise l’essentiel de l’information utile.
… pour l’aide à la décision.
On parle alors d’extraction de l’information dans la donnée
Selon le MIT, c’est l’une des 10 technologies émergentes qui
« changerons le monde » au XXIème siècle
L’ONU à déclaré le 20 Octobre comme Journée mondiale de la
Statistique
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Intérêt du data mining
 On ne veut pas simplement confirmer des intuitions a priori par des requêtes
dans les bases de données mais détecter sans a priori les
combinaisons de critères les plus discriminantes
 Par exemple, dans le domaine commercial, on ne veut plus seulement savoir:
 « Combien de clients ont acheté tel produit pendant telle période ? »
 Mais:
 « Quel est leur profil ? »
 « Quels autres produits les intéresseront ? »
 « Quand seront-ils intéressés ? »
 Les profils de clientèle à découvrir sont en général des profils complexes : pas
seulement des oppositions « jeunes/seniors », « citadins/ruraux »… que l’on
pourrait deviner en tâtonnant par des statistiques descriptives
 Le data mining fait passer:
 d’analyses confirmatoires
 à des analyses exploratoires
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
À quoi sert le data mining?
Sondage effectué en 2009 sur:
www,kdnudgets.com
 Mieux connaitre le client
 Mettre en évidence des facteurs
de risques
 Test de médicaments et de
comestiques
 Détection automatique de fraude
 Contôle de qualité des produits
 Prévision d’audience TV
 Astrophysique pour le
classement des étoiles ou
galaxie
 Détection automatique de spam
 Algorithm des moteur de
recherche…
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Préhistoire du data mining
 1875 : régression linéaire de Francis Galton
 1896 : formule du coefficient de corrélation de Karl Pearson
 1900 : distribution du ² de Karl Pearson
 1936 : analyse discriminante de Fisher et Mahalanobis
 1941 : analyse factorielle des correspondances de Guttman
 1943 : réseaux de neurones de Mc Culloch et Pitts
 1944 : régression logistique de Joseph Berkson
 1958 : perceptron de Rosenblatt
 1962 : analyse des correspondances de J.-P. Benzécri
 1964 : arbre de décision AID de J.P. Sonquist et J.-A. Morgan
 1965 : méthode des centres mobiles de E. W. Forgy
 1967 : méthode des k-means de Mac Queen
 1972 : modèle linéaire généralisé de Nelder et Wedderburn
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Histoire du data mining
 1975 : algorithmes génétiques de Holland
 1975 : méthode de classement DISQUAL de Gilbert Saporta
 1980 : arbre de décision CHAID de KASS
 1983 : régression PLS de Herman et Svante Wold
 1984 : arbre CART de Breiman, Friedman, Olshen, Stone
 1986 : perceptron multicouches de Rumelhart et McClelland
 1989 : réseaux de T. Kohonen (cartes auto-adaptatives)
 vers 1990 : apparition du concept de data mining
 1991 : méthode MARS de Jerome H. Friedman
 1993 : arbre C4.5 de J. Ross Quinlan
 1996 : bagging (Breiman) et boosting (Freund-Shapire)
 1998 : support vector machines de Vladimir Vapnik
 2001 : forêts aléatoires de L. Breiman
 2005 : méthode elastic net de Zhou et Hastie
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Le data mining aujourd’hui
 Ces techniques ne sont pas toutes récentes
 Ce qui est nouveau, ce sont aussi :
 les capacités de stockage et de calcul offertes par l’informatique
moderne
 la constitution de giga-bases de données pour les besoins de
gestion des entreprises
 la recherche en théorie de l’apprentissage
 les logiciels universels, puissants et conviviaux (Clementine, EG &
Miner de SAS
 l’intégration du data mining dans les processus de production
Ces évolutions permettent de traiter de grands volumes de
données et font sortir le data mining des laboratoires de
recherche pour entrer dans les entreprises
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Le data mining aujourd’hui (2)
 Agrégation de modèles
 rééchantillonnage bootstrap, bagging, boosting…
 Web mining:
 optimisation des sites
 meilleure connaissance des internautes
 croisement avec les bases de données de l’entreprise
 Text mining
 statistique lexicale pour l’analyse des courriers, courriels, dépêches,
compte-rendu, brevets (langue naturelle): 3 onglets de Gmail et
Yahoo Spam, Moteurs de recherches Google, Bing…
 Image mining
 reconnaissance automatique d’une forme ou d’un visage (Google
Glass, reconnaissance des sosie de la CIA…)
 détection d’une échographie anormale, d’une tumeur
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Le data mining de demain
Autant de
développement
possible que
votre
imagination ne
peut vous le
permettre
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
data mining vs statistique
DATAMINING
STATISTIQUE
Le datamining:
1. Traite plus de données
2. S’applique à une
population entière
3. Travaille sur des données
existante
4. Orienté pratique
5. Compréhensibilité des
modèles plutôt que
précision
6. Modèles localisés
La statistique:
1. Traite moins de
données
2. S’applique à un
échantillon représentatif
3. Recueille des données
avant le travail
4. Orienté théorie
5. Précision des modèles
plutôt que
Compréhensibilité
6. Modèles généralisés
Le datamining utilise des techniques statistiques
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
data mining vs big data
Le data mining est l’ensemble des techniques analytiques qui
permettent d‘extraire de l’information d’une masse de données
La Big Data est l’ensemble des techniques informatiques
qui permettent de recueillir le plus grand nombre de
données de toutes formes
BIG DATA =
VELOCITY +
VERACITY +
VOLUME
DATA MINING =
STATISTIQUE +
APPRENTISSAGE +
INTELLIGENCE
ARTIFICIELLE
PANORAMA DES
TECHNIQUES
DATAMINING
 Quelles sont les techniques de
Datamining ?
 Qu’est ce que le scoring
 Ou va le Datamining
(
II
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Les 2 types de techniques Le data mining
 Les techniques descriptives (recherche de « patterns »):
 visent à mettre en évidence des informations présentes mais
cachées par le volume des données (c’est le cas des segmentations de
clientèle et des recherches d’associations de produits sur les tickets de
caisse)
 réduisent, résument, synthétisent les données
 il n’y a pas de variable à expliquer
 Les techniques prédictives (modélisation) :
 visent à extrapoler de nouvelles informations à partir des informations présentes
(c’est le cas du scoring) la constitution de giga-bases de données pour les
besoins de gestion des entreprises
 expliquent les données
 il y a une variable à expliquer
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Qu’est ce que la segmentation et factorisation ?
(classificationenanglais)
Regrouper des objets en groupes, ou classes, ou familles,
ou segments, ou clusters, de sorte que :
 2 objets d’un même groupe se ressemblent le + possible
 2 objets de groupes distincts diffèrent le + possible
 le nombre des groupes est parfois fixé
 les groupes ne sont pas prédéfinis mais déterminés au cours de l’opération
Méthode descriptive :
 pas de variable cible privilégiée
 décrire de façon simple une réalité complexe en la résumant
Utilisation en marketing, médecine, sciences humaines…
 segmentation de clientèle marketing
Les objets à classer sont :
 des individus
 des variables
 les deux à la fois (biclustering)
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Qu’est ce que la classification ou prédiction?
(segmentationenanglais)
Ce sont des méthodes prédictives
Classement : la variable à expliquer (ou « cible », « réponse »,
« dépendante ») est qualitative
 on parle aussi de segmentation (en anglais) ou de discrimination
Prédiction : la variable à expliquer est quantitative
 on parle aussi de régression
 ou d’apprentissage supervisé (réseaux de neurones, arbres de décision…)
Scoring : classement appliqué à une problématique d’entreprise
(variable à expliquer souvent binaire) – chaque individu est affecté à une
classe (« sain » ou « malade », par exemple) en fonction de ses
caractéristiques
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Quelque types de score
Score d’appétence
 prédire l’achat d’un produit ou service
Score de (comportement) risque
 prédire les impayés ou la fraude
Score de préacceptation
 croisement des deux précédents
Score d’octroi
 prédire en temps réel les impayés
Score d’attrition
 prédire le départ du client vers un concurrent
Et aussi :
 En médecine : diagnostic (bonne santé : oui / non) en fonction du dossier du patient et
des analyses médicales
 Courriels : spam (oui / non) en fonction des caractéristiques du message (fréquence
des mots…)
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Qu’est ce qu’une regle d’associations
Ce sont des méthodes prédictives pour détecter des
liaisons entre des « individus » d’un groupe ou d’en
ensemble
E.g. Panier de la ménagère : qu’elles sont les éléments qui viennent ensemble ? si vous
avez acheté des fleurs et du thé, vous allez probablement acheter du pain aussi
Pour découvrir modèles prédictifs cachés:
Parfois les modèles prédictifs intéressant sont cachées
La découverte d’association permet de trouver plusieurs petits lots de règles et peut de
découvrir les modèles “masqués”
Exploration Générale :
 “Ne sais pas exactement qu’est ce que je cherche, mais juste dis moi qui va avec quoi”
DOMAINES
D’APPLICATIONS
 Quelles sont les applications du
datamining ?
 Comment son application
change notre quotidiens ?
b
III
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Utilité du datamining dans le CRM (gestion de la
relation client)
Mieux connaître le client
pour mieux le servir
pour augmenter sa satisfaction
pour augmenter sa fidélité (+ coûteux
d’acquérir un client que le conserver)
La connaissance du client
est encore plus utile dans
le secteur tertiaire :
les produits se ressemblent entre
établissements
le prix n’est pas toujours déterminant
ce sont surtout le service et la relation
avec le client qui font la différence
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Exemple de Credit scoring
Objectifs de la banque :
vendre plus
en maîtrisant les risques
en utilisant les bons canaux au
bon moment
Le crédit à la
consommation:
un produit standard
concurrence des sociétés
spécialisées sur le lieu de vente
quand la banque a connaissance
du projet du client, il est déjà trop
tard
Conclusion :
il faut être pro-actif détecter les
besoins des clients et leur
tendance à emprunter
Faire des propositions
commerciales aux bons clients,
avant qu’ils n’en fassent la
demande
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Le Data mining dans la Banque
 Naissance du score de risque en 1941 (David Durand)
 Multiples techniques appliquées à la banque de détail et la
banque d’entreprise
 Surtout la banque de particuliers :
montants unitaires modérés
grand nombre de dossiers
dossiers relativement standards
 Essor dû à :
développement des nouvelles technologies
nouvelles attentes de qualité de service des clients
concurrence des nouveaux entrants (assureurs, grande distribution) et des sociétés de
crédit
pression mondiale pour une plus grande rentabilité
surtout : ratio de solvabilité Bâle 2
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Le Data mining dans l’assurance de risque
 Des produits obligatoires (automobile, habitation) :
soit prendre un client à un concurrent
soit faire monter en gamme un client que l’on détient déjà
 D’où les sujets dominants :
Attrition
ventes croisées (cross-selling)
montées en gamme (up-selling)
 Besoin de décisionnel dû à :
concurrence des nouveaux entrants (bancassurance)
bases clients des assureurs traditionnels mal organisées :
 compartimentées par agent général
 ou structurées par contrat et non par client
vendre plus
en maîtrisant les risques
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Le Data mining dans la telephonie
 Deux événements :
ouverture des monopoles nationaux à d’autres opérateurs télécom
arrivée à saturation du marché de la téléphonie mobile
 D’où les sujets dominants dans la téléphonie :
score d’attrition (churn = changement d’opérateur)
optimisation des campagnes marketing
 text mining (pour analyser les lettres de réclamation)
 Problème du churn :
coût d’acquisition moyen en téléphonie mobile : 50,000 frs env
plus d’un million d’utilisateurs changent chaque d’année d’opérateur
En France, la loi Chatel (juin 2008) facilite le changement d’opérateur en
diminuant le coût pour ceux qui ont dépassé 12 mois chez l’opérateur
la portabilité du numéro facilite le churn
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Le Data mining dans le commerce
 Vente Par Correspondance
utilise depuis longtemps des scores d’appétence
pour optimiser ses ciblages et en réduire les coûts
des centaines de millions de documents envoyés par an
 e-commerce
personnalisation des pages du site web de l’entreprise, en fonction du
profil de chaque internaute
optimisation de la navigation sur un site web
 Grande distribution
analyse du ticket de caisse
détermination des meilleures implantations (géomarketing)
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Autres exemples d’utilisation du data mining
 De l’infiniment petit (génomique) à l’infiniment grand
(astrophysique pour le classement en étoile ou galaxie)
 Du plus quotidien (reconnaissance de l’écriture
manuscrite sur les enveloppes) au moins quotidien (aide
au pilotage aéronautique)
 Du plus ouvert (e-commerce) au plus sécuritaire
(détection de la fraude dans la téléphonie mobile ou les
cartes bancaires)
 Du plus industriel (contrôle qualité pour la recherche des
facteurs expliquant les défauts de la production) au plus
théorique (sciences humaines, biologie…)
 Du plus alimentaire (agronomie et agroalimentaire) au
plus divertissant (prévisions d’audience TV)
CONSTRUIRE UN
PROJET DATAMINING
 Quelles sont les etapes pour
aboutir au bon modele
 Quelles sont les diiferents
méthodes existantes ?
 Quelle difference entre SAS et
SPSS?
b IV
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Démarche methodologique du data mining
 Comprendre l’application ou le problème
Connaissances a priori, objectifs, etc.
 Sélectionner un échantillon des données
Choisir une méthode d’échantillonnage
 Nettoyage et transformation des données
Supprimer les « bruits »: données superflues, marginales, données manquantes,
etc.
 Appliquer les techniques de fouille des données
Choisir le bon algorithme
 Visualiser, évaluer et interpréter les modèles découverts
Analyse de la connaissance (intérêt)
Vérifier sa validité ( sur le reste de la base de données)
Réitérer le processus si nécessaire.
 Gérer la connaissance découverte
La mettre à la disposition des décideurs
L’échange avec d’autres applications (système d’expert,…)
Etc.
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
Les étapes du processus du data mining
1.Compréhension du domaine d’application
2.Création du fichier cible (target data set)
3.Traitement des données brutes (data cleaning &
prepocessing)
4.Réduction des données (data reduction and projection)
5.Définition des taches de fouille des données
6.Choix des algorithmes appropriés de fouilles de données
7.Fouille de données (data mining)
8.Interprétation des formes extraites (mined patterns)
9.Validation des connaissances extraites
10.Déploiement des algorithmes.
www.domain.com
Phone: +1(123) 456 78 90 | e-mail: mail@domain.com
YOUR LOGO
SEMMA (SAS) vs CRISP-DM (CLEMENTINE)
 Sampling = Echantillonner
Tirer un échantillon significatif
pour extraire des modèles
 Exploration = Explorer
Devenir famillier avec les données
(patterns)
 Manipulation = Manipuler
Ajouter des informations, coder,
grouper des attributs
 Appmodelling = Modeliser
Contruire des modèles
 Assement = Valider
Comprendre , Valider, expliquer et
repondres aux questions
 Sampling = Echantillonner
Tirer un échantillon significatif
pour extraire des modèles
 Exploration = Explorer
Devenir famillier avec les données
(patterns)
 Manipulation = Manipuler
Ajouter des informations, coder,
grouper des attributs
 Appmodelling = Modeliser
Contruire des modèles
 Assement = Valider
Comprendre , Valider, expliquer et
repondres aux questions
APPLICATIONS
 Apprendre à manipuler
Clémentine (Software)
 Apprendre à manipuler
Tanagra (Freeware)
b IV
A bientôt!
MERCI
Pour votre
participation

Contenu connexe

Tendances

Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesLilia Sfaxi
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction généraleMohamed Heny SELMI
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Mohamed Heny SELMI
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learningQuentin Ambard
 
DataWarehouse
DataWarehouseDataWarehouse
DataWarehousenzuguem
 
Etat de l’art approche et outils BI
Etat de l’art approche et outils BIEtat de l’art approche et outils BI
Etat de l’art approche et outils BISaid Sadik
 
exercices business intelligence
exercices business intelligence exercices business intelligence
exercices business intelligence Yassine Badri
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigFelipe Sanchez Garzon
 
Datamining appliqué au churn client dans les télécommunications
Datamining appliqué au churn client dans les télécommunicationsDatamining appliqué au churn client dans les télécommunications
Datamining appliqué au churn client dans les télécommunicationsabdelmoumène taleb
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesJean-Michel Franco
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningHakim Nasaoui
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataLilia Sfaxi
 
Cours data warehouse
Cours data warehouseCours data warehouse
Cours data warehousekhlifi z
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleLilia Sfaxi
 

Tendances (20)

Cours datamining
Cours dataminingCours datamining
Cours datamining
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de Données
 
Data mining - Introduction générale
Data mining - Introduction généraleData mining - Introduction générale
Data mining - Introduction générale
 
Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)Data mining - Segmentation(k-means, cah)
Data mining - Segmentation(k-means, cah)
 
Introduction to Machine learning
Introduction to Machine learningIntroduction to Machine learning
Introduction to Machine learning
 
DataWarehouse
DataWarehouseDataWarehouse
DataWarehouse
 
Règles d’association
Règles d’associationRègles d’association
Règles d’association
 
Arbre de décision
Arbre de décisionArbre de décision
Arbre de décision
 
Etat de l’art approche et outils BI
Etat de l’art approche et outils BIEtat de l’art approche et outils BI
Etat de l’art approche et outils BI
 
exercices business intelligence
exercices business intelligence exercices business intelligence
exercices business intelligence
 
Data warehouse
Data warehouseData warehouse
Data warehouse
 
Data mining - Associativité
Data mining - AssociativitéData mining - Associativité
Data mining - Associativité
 
AI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine LearnigAI Apprentissage Automatique, Machine Learnig
AI Apprentissage Automatique, Machine Learnig
 
Datamining appliqué au churn client dans les télécommunications
Datamining appliqué au churn client dans les télécommunicationsDatamining appliqué au churn client dans les télécommunications
Datamining appliqué au churn client dans les télécommunications
 
Big Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendancesBig Data : concepts, cas d'usage et tendances
Big Data : concepts, cas d'usage et tendances
 
Les 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learningLes 10 plus populaires algorithmes du machine learning
Les 10 plus populaires algorithmes du machine learning
 
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big DataBigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
 
Cours data warehouse
Cours data warehouseCours data warehouse
Cours data warehouse
 
Le processus ETL (Extraction, Transformation, Chargement)
Le processus ETL (Extraction, Transformation, Chargement)Le processus ETL (Extraction, Transformation, Chargement)
Le processus ETL (Extraction, Transformation, Chargement)
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
 

En vedette

Présentation DataMining
Présentation DataMiningPrésentation DataMining
Présentation DataMiningsylvain256
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionMohamed Heny SELMI
 
Cours systême d'intelligence marketing
Cours systême d'intelligence marketingCours systême d'intelligence marketing
Cours systême d'intelligence marketingJean Roger Mably
 
Ma présentation PFE : Application Android & Site Web
Ma présentation PFE : Application Android & Site WebMa présentation PFE : Application Android & Site Web
Ma présentation PFE : Application Android & Site WebHarrathi Mohamed
 
Du datamining à la datascience
Du datamining à la datascienceDu datamining à la datascience
Du datamining à la datascienceSoft Computing
 
Du Data Mining à la Data Science
Du Data Mining à la Data ScienceDu Data Mining à la Data Science
Du Data Mining à la Data ScienceSoft Computing
 
Syllabs - Seo campus : text mining & data mining
Syllabs - Seo campus : text mining & data miningSyllabs - Seo campus : text mining & data mining
Syllabs - Seo campus : text mining & data miningChristophe Tricot
 
COMMUNICATION STRATEGIQUE POUR LA REDUCTION DES ACCIDENTS DES MOTOS-TAXIS SUR...
COMMUNICATION STRATEGIQUE POUR LA REDUCTION DES ACCIDENTS DES MOTOS-TAXIS SUR...COMMUNICATION STRATEGIQUE POUR LA REDUCTION DES ACCIDENTS DES MOTOS-TAXIS SUR...
COMMUNICATION STRATEGIQUE POUR LA REDUCTION DES ACCIDENTS DES MOTOS-TAXIS SUR...Michel GOUGOU
 
Petit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTES
Petit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTESPetit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTES
Petit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTESPhilippe YONNET
 
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesOCTO Technology Suisse
 
Mobile certified
Mobile certifiedMobile certified
Mobile certifiedTECOS
 
Summer internship
Summer internshipSummer internship
Summer internshipTECOS
 
Télémétrie d’openstack
Télémétrie d’openstackTélémétrie d’openstack
Télémétrie d’openstackTECOS
 

En vedette (20)

Datamining damien-jubeau
Datamining damien-jubeauDatamining damien-jubeau
Datamining damien-jubeau
 
Final
FinalFinal
Final
 
Présentation DataMining
Présentation DataMiningPrésentation DataMining
Présentation DataMining
 
Data mining - Classification - arbres de décision
Data mining - Classification - arbres de décisionData mining - Classification - arbres de décision
Data mining - Classification - arbres de décision
 
Cours systême d'intelligence marketing
Cours systême d'intelligence marketingCours systême d'intelligence marketing
Cours systême d'intelligence marketing
 
Data mining
Data miningData mining
Data mining
 
Image Mining
Image MiningImage Mining
Image Mining
 
Ma présentation PFE : Application Android & Site Web
Ma présentation PFE : Application Android & Site WebMa présentation PFE : Application Android & Site Web
Ma présentation PFE : Application Android & Site Web
 
Du datamining à la datascience
Du datamining à la datascienceDu datamining à la datascience
Du datamining à la datascience
 
Du Data Mining à la Data Science
Du Data Mining à la Data ScienceDu Data Mining à la Data Science
Du Data Mining à la Data Science
 
Syllabs - Seo campus : text mining & data mining
Syllabs - Seo campus : text mining & data miningSyllabs - Seo campus : text mining & data mining
Syllabs - Seo campus : text mining & data mining
 
COMMUNICATION STRATEGIQUE POUR LA REDUCTION DES ACCIDENTS DES MOTOS-TAXIS SUR...
COMMUNICATION STRATEGIQUE POUR LA REDUCTION DES ACCIDENTS DES MOTOS-TAXIS SUR...COMMUNICATION STRATEGIQUE POUR LA REDUCTION DES ACCIDENTS DES MOTOS-TAXIS SUR...
COMMUNICATION STRATEGIQUE POUR LA REDUCTION DES ACCIDENTS DES MOTOS-TAXIS SUR...
 
Petit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTES
Petit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTESPetit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTES
Petit déjeuner Search Foresight WEB MINING, FOUILLE DE TEXTES
 
Mining vocabulary
Mining vocabularyMining vocabulary
Mining vocabulary
 
Image mining
Image miningImage mining
Image mining
 
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et TechnologiesSoftshake 2015 - Des small data aux big data - Méthodes et Technologies
Softshake 2015 - Des small data aux big data - Méthodes et Technologies
 
Mobile certified
Mobile certifiedMobile certified
Mobile certified
 
Summer internship
Summer internshipSummer internship
Summer internship
 
Télémétrie d’openstack
Télémétrie d’openstackTélémétrie d’openstack
Télémétrie d’openstack
 
Mta
MtaMta
Mta
 

Similaire à Seminaire datamining Ecole de Statistique et d'Economie Appliquée

Six sigma & Big data
Six sigma & Big dataSix sigma & Big data
Six sigma & Big dataXL Groupe
 
La data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurLa data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurMicrosoft Ideas
 
Vers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataVers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataData2B
 
Introduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdfIntroduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdfSidiAbdallah1
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessVincent de Stoecklin
 
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfuyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfNajlaAllouche
 
Algorithmes et marketing : rendre des comptes
Algorithmes et marketing : rendre des comptesAlgorithmes et marketing : rendre des comptes
Algorithmes et marketing : rendre des comptesChristophe Benavent
 
Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017Micropole Group
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 OCTO Technology
 
Big data et marketing digital
Big data et marketing digital Big data et marketing digital
Big data et marketing digital Hamza Sossey
 
L'émergence d'une nouvelle filière de formation : data science
L'émergence d'une nouvelle filière de formation : data scienceL'émergence d'une nouvelle filière de formation : data science
L'émergence d'une nouvelle filière de formation : data scienceKezhan SHI
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel businessMouhsine LAKHDISSI
 
Introduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfIntroduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfamarasidibeavm
 
La protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATALa protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATAISACA Chapitre de Québec
 
Le Big Data et les analytics : quels enjeux pour le marketing BtoB
Le Big Data et les analytics : quels enjeux pour le marketing BtoBLe Big Data et les analytics : quels enjeux pour le marketing BtoB
Le Big Data et les analytics : quels enjeux pour le marketing BtoBSparklane
 

Similaire à Seminaire datamining Ecole de Statistique et d'Economie Appliquée (20)

Six sigma & Big data
Six sigma & Big dataSix sigma & Big data
Six sigma & Big data
 
La data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeurLa data n’a pas besoin d’être « big » pour générer de la valeur
La data n’a pas besoin d’être « big » pour générer de la valeur
 
Vers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big dataVers une meilleure connaissance client grâce au big data
Vers une meilleure connaissance client grâce au big data
 
Introduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdfIntroduction_au_Data_Mining.pdf
Introduction_au_Data_Mining.pdf
 
Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdfuyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
uyéyefygjhqjhgjhgequtCours-Data-Mining.pdf
 
Algorithmes et marketing : rendre des comptes
Algorithmes et marketing : rendre des comptesAlgorithmes et marketing : rendre des comptes
Algorithmes et marketing : rendre des comptes
 
Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017Matinée Découverte Big Data & Data Science - 24012017
Matinée Découverte Big Data & Data Science - 24012017
 
La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4 La Banque de demain : Chapitre 4
La Banque de demain : Chapitre 4
 
Big data et marketing digital
Big data et marketing digital Big data et marketing digital
Big data et marketing digital
 
Introduction
IntroductionIntroduction
Introduction
 
L'émergence d'une nouvelle filière de formation : data science
L'émergence d'une nouvelle filière de formation : data scienceL'émergence d'une nouvelle filière de formation : data science
L'émergence d'une nouvelle filière de formation : data science
 
Conférence big data
Conférence big dataConférence big data
Conférence big data
 
Big Data Des méandres des outils au potentiel business
Big Data   Des méandres des outils au potentiel businessBig Data   Des méandres des outils au potentiel business
Big Data Des méandres des outils au potentiel business
 
Final
FinalFinal
Final
 
Introduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdfIntroduction au datamining partiel 1.pdf
Introduction au datamining partiel 1.pdf
 
La protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATALa protection de la vie privée à l'heure du BIG DATA
La protection de la vie privée à l'heure du BIG DATA
 
Big data & scm
Big data & scmBig data & scm
Big data & scm
 
Etude sur le Big Data
Etude sur le Big DataEtude sur le Big Data
Etude sur le Big Data
 
Le Big Data et les analytics : quels enjeux pour le marketing BtoB
Le Big Data et les analytics : quels enjeux pour le marketing BtoBLe Big Data et les analytics : quels enjeux pour le marketing BtoB
Le Big Data et les analytics : quels enjeux pour le marketing BtoB
 

Seminaire datamining Ecole de Statistique et d'Economie Appliquée

  • 2. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO  Customer Lifetime Management Analyst à MTN-CI depuis Juillet 2011  Professeur vacataire de Marketing et Etudes de marchés à l’ENSEA (ITS Option Entreprise) depuis 2013.  Concpeteur et administrateur de la page facebook Intelligence Marketing: www.facebook/pages/Intelligence-Marketing  CEO du Bureau d’Etude Spécialisé dans le traitement de l’INFOrmation (BEST-INFO): Cabinet spécialisé dans l’E-commerce et Data-Analytics. PRESENTATION DE L’INTERVENANT Jean Roger MABLY
  • 3. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO PLAN DE PRESENTATION 1. Origine et Définition du Datamining 2. Apport du Datamining 3. Comparaison Datamining vs Statistiques et Datamining vs Big Data 4. Le Datamining d’hier, d’aujourd’hui et de demain PARTIE I: INTRODUCTION AU DATAMINING PARTIE II: PANORAMA DES TECHNIQUES DATAMINING 1. Les grands groupes de modèles 2. Analyse factorielle 3. Classification/Prédiction 4. Segmentation 5. Associations
  • 4. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO PLAN DE PRESENTATION (2) PARTIE III: DOMAINES D’APPLICATIONS 1. Utilité du Datamining dans le CRM 2. Utilité dans la banque 3. Datamining dans l’assurance de risque 4. Datamining dans la téléphonie 5. Le datamining dans le commerce 6. Autres exemples PARTIE IV: CONSTRUIRE UN PROJET DATAMINING 1. SEMMA (SAS) 2. CRISP-DM (CLEMENTINE) PARTIE V: UTILISATION D’OUTILS 1. CLEMENTINE 2. TANAGRA
  • 5. INTRODUCTION AU DATAMINING  Qu’est ce que le Datamining ?  A quoi sert le datamining ?  Ou va le Datamining ? [ I
  • 6. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO La fouille des données Le DATAMINING est l’ensemble des: techniques et méthodes … destinées à l’exploration et l’analyse … de (souvent) grandes bases de données informatiques … en vue de détecter dans ces données des règles, des associations, des tendances inconnues (non fixées a priori), dans des structures particulières restituant de façon concise l’essentiel de l’information utile. … pour l’aide à la décision. On parle alors d’extraction de l’information dans la donnée Selon le MIT, c’est l’une des 10 technologies émergentes qui « changerons le monde » au XXIème siècle L’ONU à déclaré le 20 Octobre comme Journée mondiale de la Statistique
  • 7. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Intérêt du data mining  On ne veut pas simplement confirmer des intuitions a priori par des requêtes dans les bases de données mais détecter sans a priori les combinaisons de critères les plus discriminantes  Par exemple, dans le domaine commercial, on ne veut plus seulement savoir:  « Combien de clients ont acheté tel produit pendant telle période ? »  Mais:  « Quel est leur profil ? »  « Quels autres produits les intéresseront ? »  « Quand seront-ils intéressés ? »  Les profils de clientèle à découvrir sont en général des profils complexes : pas seulement des oppositions « jeunes/seniors », « citadins/ruraux »… que l’on pourrait deviner en tâtonnant par des statistiques descriptives  Le data mining fait passer:  d’analyses confirmatoires  à des analyses exploratoires
  • 8. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO À quoi sert le data mining? Sondage effectué en 2009 sur: www,kdnudgets.com  Mieux connaitre le client  Mettre en évidence des facteurs de risques  Test de médicaments et de comestiques  Détection automatique de fraude  Contôle de qualité des produits  Prévision d’audience TV  Astrophysique pour le classement des étoiles ou galaxie  Détection automatique de spam  Algorithm des moteur de recherche…
  • 9. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Préhistoire du data mining  1875 : régression linéaire de Francis Galton  1896 : formule du coefficient de corrélation de Karl Pearson  1900 : distribution du ² de Karl Pearson  1936 : analyse discriminante de Fisher et Mahalanobis  1941 : analyse factorielle des correspondances de Guttman  1943 : réseaux de neurones de Mc Culloch et Pitts  1944 : régression logistique de Joseph Berkson  1958 : perceptron de Rosenblatt  1962 : analyse des correspondances de J.-P. Benzécri  1964 : arbre de décision AID de J.P. Sonquist et J.-A. Morgan  1965 : méthode des centres mobiles de E. W. Forgy  1967 : méthode des k-means de Mac Queen  1972 : modèle linéaire généralisé de Nelder et Wedderburn
  • 10. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Histoire du data mining  1975 : algorithmes génétiques de Holland  1975 : méthode de classement DISQUAL de Gilbert Saporta  1980 : arbre de décision CHAID de KASS  1983 : régression PLS de Herman et Svante Wold  1984 : arbre CART de Breiman, Friedman, Olshen, Stone  1986 : perceptron multicouches de Rumelhart et McClelland  1989 : réseaux de T. Kohonen (cartes auto-adaptatives)  vers 1990 : apparition du concept de data mining  1991 : méthode MARS de Jerome H. Friedman  1993 : arbre C4.5 de J. Ross Quinlan  1996 : bagging (Breiman) et boosting (Freund-Shapire)  1998 : support vector machines de Vladimir Vapnik  2001 : forêts aléatoires de L. Breiman  2005 : méthode elastic net de Zhou et Hastie
  • 11. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Le data mining aujourd’hui  Ces techniques ne sont pas toutes récentes  Ce qui est nouveau, ce sont aussi :  les capacités de stockage et de calcul offertes par l’informatique moderne  la constitution de giga-bases de données pour les besoins de gestion des entreprises  la recherche en théorie de l’apprentissage  les logiciels universels, puissants et conviviaux (Clementine, EG & Miner de SAS  l’intégration du data mining dans les processus de production Ces évolutions permettent de traiter de grands volumes de données et font sortir le data mining des laboratoires de recherche pour entrer dans les entreprises
  • 12. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Le data mining aujourd’hui (2)  Agrégation de modèles  rééchantillonnage bootstrap, bagging, boosting…  Web mining:  optimisation des sites  meilleure connaissance des internautes  croisement avec les bases de données de l’entreprise  Text mining  statistique lexicale pour l’analyse des courriers, courriels, dépêches, compte-rendu, brevets (langue naturelle): 3 onglets de Gmail et Yahoo Spam, Moteurs de recherches Google, Bing…  Image mining  reconnaissance automatique d’une forme ou d’un visage (Google Glass, reconnaissance des sosie de la CIA…)  détection d’une échographie anormale, d’une tumeur
  • 13. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Le data mining de demain Autant de développement possible que votre imagination ne peut vous le permettre
  • 14. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO data mining vs statistique DATAMINING STATISTIQUE Le datamining: 1. Traite plus de données 2. S’applique à une population entière 3. Travaille sur des données existante 4. Orienté pratique 5. Compréhensibilité des modèles plutôt que précision 6. Modèles localisés La statistique: 1. Traite moins de données 2. S’applique à un échantillon représentatif 3. Recueille des données avant le travail 4. Orienté théorie 5. Précision des modèles plutôt que Compréhensibilité 6. Modèles généralisés Le datamining utilise des techniques statistiques
  • 15. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO data mining vs big data Le data mining est l’ensemble des techniques analytiques qui permettent d‘extraire de l’information d’une masse de données La Big Data est l’ensemble des techniques informatiques qui permettent de recueillir le plus grand nombre de données de toutes formes BIG DATA = VELOCITY + VERACITY + VOLUME DATA MINING = STATISTIQUE + APPRENTISSAGE + INTELLIGENCE ARTIFICIELLE
  • 16. PANORAMA DES TECHNIQUES DATAMINING  Quelles sont les techniques de Datamining ?  Qu’est ce que le scoring  Ou va le Datamining ( II
  • 17. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Les 2 types de techniques Le data mining  Les techniques descriptives (recherche de « patterns »):  visent à mettre en évidence des informations présentes mais cachées par le volume des données (c’est le cas des segmentations de clientèle et des recherches d’associations de produits sur les tickets de caisse)  réduisent, résument, synthétisent les données  il n’y a pas de variable à expliquer  Les techniques prédictives (modélisation) :  visent à extrapoler de nouvelles informations à partir des informations présentes (c’est le cas du scoring) la constitution de giga-bases de données pour les besoins de gestion des entreprises  expliquent les données  il y a une variable à expliquer
  • 18. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Qu’est ce que la segmentation et factorisation ? (classificationenanglais) Regrouper des objets en groupes, ou classes, ou familles, ou segments, ou clusters, de sorte que :  2 objets d’un même groupe se ressemblent le + possible  2 objets de groupes distincts diffèrent le + possible  le nombre des groupes est parfois fixé  les groupes ne sont pas prédéfinis mais déterminés au cours de l’opération Méthode descriptive :  pas de variable cible privilégiée  décrire de façon simple une réalité complexe en la résumant Utilisation en marketing, médecine, sciences humaines…  segmentation de clientèle marketing Les objets à classer sont :  des individus  des variables  les deux à la fois (biclustering)
  • 19. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Qu’est ce que la classification ou prédiction? (segmentationenanglais) Ce sont des méthodes prédictives Classement : la variable à expliquer (ou « cible », « réponse », « dépendante ») est qualitative  on parle aussi de segmentation (en anglais) ou de discrimination Prédiction : la variable à expliquer est quantitative  on parle aussi de régression  ou d’apprentissage supervisé (réseaux de neurones, arbres de décision…) Scoring : classement appliqué à une problématique d’entreprise (variable à expliquer souvent binaire) – chaque individu est affecté à une classe (« sain » ou « malade », par exemple) en fonction de ses caractéristiques
  • 20. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Quelque types de score Score d’appétence  prédire l’achat d’un produit ou service Score de (comportement) risque  prédire les impayés ou la fraude Score de préacceptation  croisement des deux précédents Score d’octroi  prédire en temps réel les impayés Score d’attrition  prédire le départ du client vers un concurrent Et aussi :  En médecine : diagnostic (bonne santé : oui / non) en fonction du dossier du patient et des analyses médicales  Courriels : spam (oui / non) en fonction des caractéristiques du message (fréquence des mots…)
  • 21. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Qu’est ce qu’une regle d’associations Ce sont des méthodes prédictives pour détecter des liaisons entre des « individus » d’un groupe ou d’en ensemble E.g. Panier de la ménagère : qu’elles sont les éléments qui viennent ensemble ? si vous avez acheté des fleurs et du thé, vous allez probablement acheter du pain aussi Pour découvrir modèles prédictifs cachés: Parfois les modèles prédictifs intéressant sont cachées La découverte d’association permet de trouver plusieurs petits lots de règles et peut de découvrir les modèles “masqués” Exploration Générale :  “Ne sais pas exactement qu’est ce que je cherche, mais juste dis moi qui va avec quoi”
  • 22. DOMAINES D’APPLICATIONS  Quelles sont les applications du datamining ?  Comment son application change notre quotidiens ? b III
  • 23. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Utilité du datamining dans le CRM (gestion de la relation client) Mieux connaître le client pour mieux le servir pour augmenter sa satisfaction pour augmenter sa fidélité (+ coûteux d’acquérir un client que le conserver) La connaissance du client est encore plus utile dans le secteur tertiaire : les produits se ressemblent entre établissements le prix n’est pas toujours déterminant ce sont surtout le service et la relation avec le client qui font la différence
  • 24. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Exemple de Credit scoring Objectifs de la banque : vendre plus en maîtrisant les risques en utilisant les bons canaux au bon moment Le crédit à la consommation: un produit standard concurrence des sociétés spécialisées sur le lieu de vente quand la banque a connaissance du projet du client, il est déjà trop tard Conclusion : il faut être pro-actif détecter les besoins des clients et leur tendance à emprunter Faire des propositions commerciales aux bons clients, avant qu’ils n’en fassent la demande
  • 25. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Le Data mining dans la Banque  Naissance du score de risque en 1941 (David Durand)  Multiples techniques appliquées à la banque de détail et la banque d’entreprise  Surtout la banque de particuliers : montants unitaires modérés grand nombre de dossiers dossiers relativement standards  Essor dû à : développement des nouvelles technologies nouvelles attentes de qualité de service des clients concurrence des nouveaux entrants (assureurs, grande distribution) et des sociétés de crédit pression mondiale pour une plus grande rentabilité surtout : ratio de solvabilité Bâle 2
  • 26. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Le Data mining dans l’assurance de risque  Des produits obligatoires (automobile, habitation) : soit prendre un client à un concurrent soit faire monter en gamme un client que l’on détient déjà  D’où les sujets dominants : Attrition ventes croisées (cross-selling) montées en gamme (up-selling)  Besoin de décisionnel dû à : concurrence des nouveaux entrants (bancassurance) bases clients des assureurs traditionnels mal organisées :  compartimentées par agent général  ou structurées par contrat et non par client vendre plus en maîtrisant les risques
  • 27. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Le Data mining dans la telephonie  Deux événements : ouverture des monopoles nationaux à d’autres opérateurs télécom arrivée à saturation du marché de la téléphonie mobile  D’où les sujets dominants dans la téléphonie : score d’attrition (churn = changement d’opérateur) optimisation des campagnes marketing  text mining (pour analyser les lettres de réclamation)  Problème du churn : coût d’acquisition moyen en téléphonie mobile : 50,000 frs env plus d’un million d’utilisateurs changent chaque d’année d’opérateur En France, la loi Chatel (juin 2008) facilite le changement d’opérateur en diminuant le coût pour ceux qui ont dépassé 12 mois chez l’opérateur la portabilité du numéro facilite le churn
  • 28. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Le Data mining dans le commerce  Vente Par Correspondance utilise depuis longtemps des scores d’appétence pour optimiser ses ciblages et en réduire les coûts des centaines de millions de documents envoyés par an  e-commerce personnalisation des pages du site web de l’entreprise, en fonction du profil de chaque internaute optimisation de la navigation sur un site web  Grande distribution analyse du ticket de caisse détermination des meilleures implantations (géomarketing)
  • 29. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Autres exemples d’utilisation du data mining  De l’infiniment petit (génomique) à l’infiniment grand (astrophysique pour le classement en étoile ou galaxie)  Du plus quotidien (reconnaissance de l’écriture manuscrite sur les enveloppes) au moins quotidien (aide au pilotage aéronautique)  Du plus ouvert (e-commerce) au plus sécuritaire (détection de la fraude dans la téléphonie mobile ou les cartes bancaires)  Du plus industriel (contrôle qualité pour la recherche des facteurs expliquant les défauts de la production) au plus théorique (sciences humaines, biologie…)  Du plus alimentaire (agronomie et agroalimentaire) au plus divertissant (prévisions d’audience TV)
  • 30. CONSTRUIRE UN PROJET DATAMINING  Quelles sont les etapes pour aboutir au bon modele  Quelles sont les diiferents méthodes existantes ?  Quelle difference entre SAS et SPSS? b IV
  • 31. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Démarche methodologique du data mining  Comprendre l’application ou le problème Connaissances a priori, objectifs, etc.  Sélectionner un échantillon des données Choisir une méthode d’échantillonnage  Nettoyage et transformation des données Supprimer les « bruits »: données superflues, marginales, données manquantes, etc.  Appliquer les techniques de fouille des données Choisir le bon algorithme  Visualiser, évaluer et interpréter les modèles découverts Analyse de la connaissance (intérêt) Vérifier sa validité ( sur le reste de la base de données) Réitérer le processus si nécessaire.  Gérer la connaissance découverte La mettre à la disposition des décideurs L’échange avec d’autres applications (système d’expert,…) Etc.
  • 32. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO Les étapes du processus du data mining 1.Compréhension du domaine d’application 2.Création du fichier cible (target data set) 3.Traitement des données brutes (data cleaning & prepocessing) 4.Réduction des données (data reduction and projection) 5.Définition des taches de fouille des données 6.Choix des algorithmes appropriés de fouilles de données 7.Fouille de données (data mining) 8.Interprétation des formes extraites (mined patterns) 9.Validation des connaissances extraites 10.Déploiement des algorithmes.
  • 33. www.domain.com Phone: +1(123) 456 78 90 | e-mail: mail@domain.com YOUR LOGO SEMMA (SAS) vs CRISP-DM (CLEMENTINE)  Sampling = Echantillonner Tirer un échantillon significatif pour extraire des modèles  Exploration = Explorer Devenir famillier avec les données (patterns)  Manipulation = Manipuler Ajouter des informations, coder, grouper des attributs  Appmodelling = Modeliser Contruire des modèles  Assement = Valider Comprendre , Valider, expliquer et repondres aux questions  Sampling = Echantillonner Tirer un échantillon significatif pour extraire des modèles  Exploration = Explorer Devenir famillier avec les données (patterns)  Manipulation = Manipuler Ajouter des informations, coder, grouper des attributs  Appmodelling = Modeliser Contruire des modèles  Assement = Valider Comprendre , Valider, expliquer et repondres aux questions
  • 34. APPLICATIONS  Apprendre à manipuler Clémentine (Software)  Apprendre à manipuler Tanagra (Freeware) b IV

Notes de l'éditeur

  1. Attention! Before you open this template be sure what you have the following fonts installed: Novecento Sans wide font family (6 free weight) http://typography.synthview.com Abattis Cantarell http://www.fontsquirrel.com/fonts/cantarell Icon Sets Fonts: raphaelicons-webfont.ttf from this page: http://icons.marekventur.de iconic_stroke.ttf from this page: http://somerandomdude.com/work/open-iconic modernpics.otf from this page: http://www.fontsquirrel.com/fonts/modern-pictograms general_foundicons.ttf, social_foundicons.ttf, accessibility_foundicons.ttf from this page: http://www.zurb.com/playground/foundation-icons fontawesome-webfont.ttf from this page: http://fortawesome.github.io/Font-Awesome Entypo.otf from this page: http://www.fontsquirrel.com/fonts/entypo sosa-regular-webfont.ttf from this page: http://tenbytwenty.com/?xxxx_posts=sosa All fonts are permitted free use in commercial projects. If you have difficulties to install those fonts or have no time to find all of them, please follow the FAQs: http://graphicriver.net/item/six-template/3626243/support