Analyse des Sentiments -cas twitter- "Opinion Detection with Machine Lerning "
1.
2. REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
Faculté des Sciences et de Technologie
Département des Mathématiques et Informatique
Spécialité : Systèmes Intelligents pour l'Extraction de Connaissances (SIEC)
ANALYSE DES SENTIMENTS
- CAS TWITTER -
Présente par :
Soumia Elyakoute HERMA
Khadidja SAIFIA
Suivi par :
M. Djelloul ZIADI
M. Slimane BELLAOUAR
M. Slimane OULAD NAOUI
M. Abderrahmane ADJILA
3. Twitter peut prédire le succès des produits livrés,
des filmes ou des services
Motivation
5. Selon la presse de la chaine sportive Bein SPORT les gents
qui suivent l’évènement d’EURO 2016 alerte que la violence
de #Marseille commencer sur Twitter avant le 11 juin 2016 .
Motivation
7. web Explosion des sources des
données
Nécessité d’analyse des
sentiments
Introduction
Avec l'avènement du web et
l'explosion des sources des
données tels que les sites d'avis,
les blogs et les micro-blogs est
apparu la nécessite d'analyser
des millions des postes, des
tweets ou d'avis afin de savoir ce
que pensent les internautes.
8. • L'origine : sciences de la psychologie, la sociologie et
l'anthropologie.
• l'extraction automatique de texte évaluative, qui aide à
produire des résultats prédictifs.
Analyse des sentiments
10. Twitter est un réseau social.
Il permet aux utilisateurs de publier des messages en
temps réel (tweets).
Statistiques :
• Plus de 645 millions utilisateurs inscrits.
• 58 millions tweets envoyés chaque jour.
Twitter
11. URL : se présente sous forme d’un lien, permet à
l’utilisateur de rejoindre les liens dans un tweet
Mention @ : cible un utilisateur de Twitter dans un tweet posté.
RT (ReTweet) : permet de partager un tweet d'un utilisateur.
VIA : s'utilise pour mentionner un source d'information dans
un tweet .
Hashtag # : identifie un mot-clé en question comme
important et peut en faire un sujet populaire.
Caractéristiques des tweets
12. Go et al
Développement d’une application twitter sentiment.
Utilisation trois types d’algorithme NB, ME et SVM.
Classification des sentiments.
Lampos et Cristianini
Développement d’un outil de surveillance.
Modèles ILI (Inuenza-like Illness) .
Prédiction de résultat du grippe H1N1.
Travaux sur les tweets
13. Weng et Lee
Modèle EDCoW (Event Detection with Clustering of Wavelet-
based Signals) .
Détection des évènements.
Travaux sur les tweets
14. • Ambiguïté de certains mots positifs ou négatifs selon les contextes.
Difficultés de l'Analyse des Sentiments
• structures syntaxiques et sémantiques d'une phrase et l'expression de
l'opinion qu'elle véhicule.
• contexte.
• l'analyse d’une phrase par paquets de mots.
15.
16. Python.
Spyder est un IDE orienté vers un usage
scientifique de Python.
Les packages utilisés : CSV, re, numpy, Nltk, SKlearn
Environnement de travail
18. • Tweets étiqueté par Niek Sanders
Classe
Sujet
Positive Neutre Négative hors
de sujet
Apple 191 581 377 164
Google 218 604 61 498
Microsoft 93 671 138 513
Twitter 68 647 78 611
Chaque entrée de ensemble de
données est structuré comme suit :
• Tweet id : identfiant du tweet.
• Tweet texte : texte du tweet.
• TweetDate : date du tweet.
• Topic : le sujet du tweet
• Sentiment : étiquette du tweet.
1. Source des données
• Phase d’apprentissage
19. Construire des dictionnaires des émoticons, abréviations, et mots
contractés
2. Prétraitement
• Phase d’apprentissage
20. Remplacer les émoticons ‘’: ‘happy’, les abréviations ‘bff: best
friend forever’, les mots contractés ‘i’m : i am’.
Supprimer les identifiants @Obama, les liens, les chiffres, les
ponctuations et les commandes (VIA, RT).
Supprimer les mots vides (stop words) (nltk) .
2. Prétraitement
Supprimer les mots non Anglais (SentiWordNet).
• Phase d’apprentissage
21. La représentation d'un document avec
le modèle booléen se présente comme
suit: d = (1, 0, 0, 0, 1, 1, 0, 0, …).
3. Extraction des descripteurs et présentation
Tandis que le modele de poderation
TF-IDF présente le document sous
forme d = (w1, w2, w3, …, wn),
Après l’étape de prétraitement il reste les mots importants qui
sont les descripteurs sous forme de sac de mots
• Phase d’apprentissage
22. =
• Naïve Bayes est une algorithme
probabiliste.
• Donne la probabilité maximale donnée de
la classe sachant le document.
4. l’algorithme d’apprentissage
• Phase d’apprentissage
23. l'hypothèse d'indépendance conditionnelle dit que les probabilités P(fi/c) sont
indépendants étant donne la classe c et donc peuvent être "naïvement"
multipliées comme suit :
Les calculs sont faites de logarithme afin d‘éviter les problèmes de calcul des
petites valeurs
• Phase d’apprentissage
4. l’algorithme d’apprentissage
24. • 80% d’ensemble des données (4090 tweets)
• l'implémentation de Naïve Bayes d'après le package sklearn :
X_vec_train est les tweets d'ensemble d'apprentissage
y_train est les sentiments (labels) d'ensemble d'apprentissage
5. Apprentissage de l’algorithme NB
• Phase d’apprentissage
25. 20% de l’ensemble des données (1023 tweets) est utilisé pour la
phase de test
• les mesures de performance utilisées sont la précision, le
rappel et le F-mesure:
Precision = VP/(VP + FP)
Rappele = VP/(VP + FN)
F1-mesure = 2 * Precision * Rappele/(Precision + Rappele)
• Phase de test
26. • le modèle de pondération TF-IDF : F1- mesure de 0.74
• le modèle booléen : F1- mesure de 0.68.
Modèle Précision Rappel F1-mesure Support
Booléen 0.68 0.69 0.68 1023
TF-IDF 0.74 0.75 0.74 1023
3. résultats et interprétation
TF-IDF > Booléen
27. Notre modèle pourra être utilisée en invoquant la
méthode prédite de la classe NBClassifier
NBClassifier.predict(test_tweet)
Utilisation du classifieur
test-tweet : contient le tweet à tester
28. L’Analyse des sentiments évolue bien depuis 2002.
C’est une technique très utile pour prédire des évènements
et la prise de décision.
Les deux modèle de représentation booléen et TF-IDF.
La comparaison entre les deux modèles de représentation révèle
que le modèle TF-IDF est plus important que celui le booléen.
L’Analyse des sentiments est une technique automatique de
détection d’opinion .
corpus des tweets Niek Sanders.
l’algorithme probabiliste Naïve Bayes.
29. Investigue d'autres méthodes de l'analyse des
sentiments telles que la méthode SVM et ME.
Des aspects linguistiques de négation, type de mots
(sujet, verbe, adjectifs. . . ) peuvent améliorer le
processus d'analyse des sentiments.
Notes de l'éditeur
Les avis générés par les utilisateurs sur les produits et les services sont largement disponibles sur les microblogs et des postes Twitter. La classification des sentiments utilisent les opinions de ces examinateurs collectées à partir des sites Web tels que :
www.gsmarena.com (revues de téléphone portable),
www.amazon.com (revues des produits), ,,, etc.
Pour savoir les avis les client sur un tel produit,
- Quand il est choisi encore comme président des EU
- Dans la chaleur de la race américaine présidentielle en année 2012, Twitter a publié un billet de blog annonçant un nouvel indice de confiance destiné à suivre et tracer les conversations de Twitter sur Mitt Romney et Barack Obama.
OConnor et al. (2010)
- Un travail aussi en 2010 par Oconnor et autres indiquent que Twitter possède un potentiel de prédiction d’élections politique aux Etats-Unis.
- De grandes émeutes menées par les masses de l'Angleterre dans la ville française de Marseille
- La police de Marseille dis que : nous a alerté sur un message envoyé vendredi soir par un inconnu à un de ses amis qui affirme que «demain ce sera plus violent», et plusieurs utilisateurs de Twitter disent l’avoir reçu également.
tout au long de notre présentation nous allons étre guidés par le plan suivant
Twitter est un reseau social et un microblog qui permet aux utilisateurs de publier des messages en temps reel, appeles tweets. Les tweets sont des messages courts, limites a 140 caracteres.
- En raison de la nature de ce service (c-à-d les messages rapides et courts), les gens utilisent des abrévitions, commissent des erreurs d'orthographe, utilisent des emoticones et d'autres caracteristiques afin d’exprimer leurs opinions d’une façon ou d’une autre
Les Caractéristiques des tweets sont :
Le
Le VIA comme youtube, LinkedIn , ,,,
Le # comme #Algerie pour créer un sujer autour d’algerie
,,,
Ceci étant dit, nous entamons, maintenait notre contribution
Dans notes expérimentation, nous avons utilisé la language de programmation python qui est ,,,
et l’environnement de developement intégrale Spyder qui est :
integrated development environment (IDE) بيئة التطوير المتكاملة (IDE)
Dans le modèle booléen , le document D est représenté par un vecteur indexé par les descripteurs, la valeur 1 témoigne la présence du descripteur dans le doc , 0 sinon
Dans que le modele de poderation TF-IDF, un doc est représente par un vecteur de poids ,
Dons notre cas nous avons considere la pondération TF-IDF
Les résultants obtenus sont récapitulés dans tab suivant
Sur ce point nous arrivons a terme de notre présentation en donnant une synthèse de notre travail