Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
INRIA
IA et Traitement Automatique des Langues (TAL)
Quel panorama ?
Éric de la Clergerie
<Eric.De_La_Clergerie@inria.fr>
...
INRIA
Analyse Linguistique Profonde À Grande Échelle
Outils + Ressources linguistiques vers Données + Apprentissage
<?xml ...
INRIA
Quelles applications ?
Extraction d’information & Annotations
http://alpage.inria.fr/sapiens
Acquisition de connaiss...
INRIA
Beaucoup d’applications potentielles . . .
recherche d’information, veille, extraction, questions-réponses
accès à l...
INRIA
Et déjà de bons résultats en bricolant . . .
Robot journaliste (inquiétudes !)
http://goo.gl/0cpFvC
Générer du non-s...
INRIA
Mais de réelles difficultés !
Forte ambiguïté du langage (tous niveaux)
⇒ besoin connaissances sur le monde, le conte...
INRIA
Néanmoins des succès récents et des annonces
2010: Google translate
2011: IBM Watson
gagne à Jeopardy 2011: Assistan...
INRIA
IA ? On y est presque :-)
Réseaux de Neurones: le
retour !
Buzz sur Deep Learning
et word embeddings
2013: Word embe...
INRIA
Une conjonction de bons facteurs
Masses de données
textuelles (et autres)
Des algo d’apprentissage
de + en + sophist...
INRIA
Une chronologie simplifiée
Symbolique
Apprentissage
Neuronal
performances
1950 ∼ 1980 ∼ 2000 ∼ 2010
INRIA Éric de la ...
INRIA
Outline
1 Approches symboliques
2 Apprentissage supervisé
3 Approches neuronales
4 Vers d’autres approches
INRIA Éri...
INRIA
Aproches symboliques
S’appuyant sur des ressources linguistiques,
(semi-) manuellement construites
grammaire
FRMG
le...
INRIA
Vers des ressources sémantiques : ontologies
Rapprochement TAL et Web Sémantique
INRIA Éric de la Clergerie IA & NLP...
INRIA
Évènements et rôles : FrameNet Baker & Fillmore
Pour l’extraction d’information : qui fait QUOI, quand, comment, . ....
INRIA
Aproches symboliques (pro & cons)
Ecosystèmes (complexes) de ressources linguistiques
grammaire
FRMG
lexique
LEFFF
E...
INRIA
Outline
1 Approches symboliques
2 Apprentissage supervisé
3 Approches neuronales
4 Vers d’autres approches
INRIA Éri...
INRIA
Succès et limites des approches supervisées
Courant majoritaire : données annotées et apprentissage supervisé
FTB
12...
INRIA
Importance des jeux de traits
Méthodes (discriminantes) : apprentissage configuration vers décision
Les configurations...
INRIA
Outline
1 Approches symboliques
2 Apprentissage supervisé
3 Approches neuronales
4 Vers d’autres approches
INRIA Éri...
INRIA
IA ? On y est presque :-)
Réseaux de Neurones: le
retour !
Buzz sur Deep Learning
et word embeddings
2013: Word embe...
INRIA
Base
Modélisation des neurones biologiques :
les neurones portent des vecteurs (de réels) x = [−, · · · , −]
de dime...
INRIA
Fonctions d’activation
Utilisation de fonctions proches d’une bascule oui/non mais dérivables
tanh(x) =
ex
− e−x
ex ...
INRIA
Sorties multiples
On peut avoir plusieurs neurones de sortie
y1 y2
x1 x2 x3 x4
INRIA Éric de la Clergerie IA & NLP 0...
INRIA
Couches cachées
On peut intercaler des couches cachées intermédiaires
⇒ abstraction progressive des informations des...
INRIA
Apprentissage : backpropagation
y1 y2
x1 x2 x3 x4
Backward
Similaire au perceptron
redescente des erreurs des neuron...
INRIA
Réseaux récurrents
Pour le TAL, on veut des réseaux adaptés au traitement de séquences
(charactères, mots, phrases, ...
INRIA
LSTM
Encore mieux : des réseaux récurrents avec mémoire à long terme (et oubli)
Long-Short Term Memory – LSTM
INRIA ...
INRIA
Agencer des briques
État de l’art actuellement en TAL :
bi-LSTM (lecture gauche-droite + lecture droite-gauche)
sur ...
INRIA
Pro & Cons
État de l’art en TAL sur de nombreuse tâches,
mais proche d’autres méthodes d’apprentissage
ouverture ver...
INRIA
Outline
1 Approches symboliques
2 Apprentissage supervisé
3 Approches neuronales
4 Vers d’autres approches
INRIA Éri...
INRIA
Hybridation
Mariage symbolique et apprentissage (tenté avec FRMG)
expertise forte requise
formel x linguistique
prob...
INRIA
Approches non supervisées
Courant futuriste : emploi encore limité !
Partir de données brutes :
ok pour modèles de l...
INRIA
Vers des approches faiblement supervisées
Courant prometteur : l’imagination au pouvoir
Exploitation de vues multipl...
INRIA
Conclusion
Une époque faste (données, puissance, algo, ressources)
mais quels acteurs ?
Une grande palette de techni...
Upcoming SlideShare
Loading in …5
×
Upcoming SlideShare
2020 In Sight - Innovation Pulls the Bits Together - Ed Maguire
Next
Download to read offline and view in fullscreen.

4

Share

Download to read offline

IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

Download to read offline

Transparents présentés au Séminaire DIXIT organisé par le GFII

Related Audiobooks

Free with a 30 day trial from Scribd

See all

IA et Traitement Automatique des Langues (TAL) -- quel panorama ?

  1. 1. INRIA IA et Traitement Automatique des Langues (TAL) Quel panorama ? Éric de la Clergerie <Eric.De_La_Clergerie@inria.fr> Almanach http://alpage.inria.fr Séminaire DIXIT Paris, 24 Février 2017 INRIA Éric de la Clergerie IA & NLP 07/12/15 1 / 34
  2. 2. INRIA Analyse Linguistique Profonde À Grande Échelle Outils + Ressources linguistiques vers Données + Apprentissage <?xml version=" 1.0 " encoding="ISO−8859−1"?> <dependencies id="E1" mode=" f u l l "> < c l u s t e r id=" E1c_1_2 " l e f t ="1" r i g h t ="2" token=" soyons " lex=" E1F2 | soyons " / > < c l u s t e r id=" E1c_2_3 " l e f t ="2" r i g h t ="3" token=" i m a g i n a t i f s " lex="E1F3 | i m a g i n a t i f s " / > < c l u s t e r id=" E1c_5_6 " l e f t ="5" r i g h t ="6" token=" déclare " lex= "E1F6 | déclare " / > <node deriv="E1d10" xcat="comp" id="E1n13" cat=" adj " tree=" 72 " lemma=" i m a g i n a t i f " c l u s t e r =" E1c_2_3 " form=" i m a g i n a t i f s " / > <node deriv="E1d104" xcat="S" id="E1n22" cat=" v " tree=" 186 " lemma=" déclarer " c l u s t e r =" E1c_5_6 " form=" déclare " / > <node deriv="E1d13" xcat="S" id="E1n7" cat=" v " tree=" 198 " lemma=" être " c l u s t e r =" E1c_1_2 " form=" soyons " / > <edge id="E1e029" source="E1n22" target ="E1n18" type=" l e x i c a l " label =" subject "> <deriv names="E1d104" source_op="E1o5" target_op="E1o20" span="6 7" / > < / edge> <edge id="E1e011" source="E1n007" target ="E1n013" type=" subst à tester sur http://alpage.inria.fr/frmgwiki Grammaire FRMG Lexique LEFFF Entités Nommées ALEDA WordNet WOLF FrameNet ASFALDA treebanks INRIA Éric de la Clergerie IA & NLP 07/12/15 2 / 34
  3. 3. INRIA Quelles applications ? Extraction d’information & Annotations http://alpage.inria.fr/sapiens Acquisition de connaissances (à partir de grands corpus) http://alpage.inria.fr/Lbx INRIA Éric de la Clergerie IA & NLP 07/12/15 3 / 34
  4. 4. INRIA Beaucoup d’applications potentielles . . . recherche d’information, veille, extraction, questions-réponses accès à l’information : traduction, résumés, annotations/liens sémantiques analyse d’opinion, e-réputation analyse de communautés (tweets, blogs, . . . ) génération (articles journaux, rapports, ...) plagiat, authoring, détection spams & faux commentaires, fact checking aide à la rédaction : correction grammaticale, stylistique ; saisie prédictive aide pédagogique : apprentissage des langues, tutorat, évaluation interaction : agents conversationnels, chatbots, assistants numériques, reconnaissance vocale, synthèse, dictée vocale INRIA Éric de la Clergerie IA & NLP 07/12/15 4 / 34
  5. 5. INRIA Et déjà de bons résultats en bricolant . . . Robot journaliste (inquiétudes !) http://goo.gl/0cpFvC Générer du non-sens new-age ! http://sebpearce.com/bullshit/ Eliza la thérapiste ! http://www.eliza.levillage.org/ INRIA Éric de la Clergerie IA & NLP 07/12/15 5 / 34
  6. 6. INRIA Mais de réelles difficultés ! Forte ambiguïté du langage (tous niveaux) ⇒ besoin connaissances sur le monde, le contexte, . . . , via ressources et statistiques Diversité (langues, domaines, phénomènes), créativité (néologismes, expressions) et évolutivité ⇒ besoin de robustesse Ellipses (ce qui n’est pas dit/écrit) ⇒ besoin connaissances partagées, aspects culturels Jeux avec le language (métaphores, euphémismes, ironie, . . . ) Omar m’a tuer Je voudrais leur dire qu’on a reçu le coup de pied au derrière mais que c’est pas parce que vous voulez renverser la table que vous descendez de la voiture dont vous vous abstenez de choisir le chauffeur. INRIA Éric de la Clergerie IA & NLP 07/12/15 6 / 34
  7. 7. INRIA Néanmoins des succès récents et des annonces 2010: Google translate 2011: IBM Watson gagne à Jeopardy 2011: Assistants vocaux Siri, Google Now, Cortana 2014: Le chatbot Eugene Goostman réussit le test de Turing ? http://goo.gl/hQSmmf 2015: une IA surveille wikipedia http://goo.gl/zAvbSt INRIA Éric de la Clergerie IA & NLP 07/12/15 7 / 34
  8. 8. INRIA IA ? On y est presque :-) Réseaux de Neurones: le retour ! Buzz sur Deep Learning et word embeddings 2013: Word embeddings analogies ≡ calcul vectoriel Mikolov et al.2014: Analyse d’opinions Socher et al. 2015: Google SmartReply suggérer des réponses aux mails http://goo.gl/d8R2LI DeepMind (Google) annonce Neural Turing Machine Labo Facebook Paris Toolkit Google TensorFlow libéré nombreux autres toolkits INRIA Éric de la Clergerie IA & NLP 07/12/15 8 / 34
  9. 9. INRIA Une conjonction de bons facteurs Masses de données textuelles (et autres) Des algo d’apprentissage de + en + sophistiqués De la puissance de calcul Linked Open Data Des ressources structu- rées (RDF) et en réseau INRIA Éric de la Clergerie IA & NLP 07/12/15 9 / 34
  10. 10. INRIA Une chronologie simplifiée Symbolique Apprentissage Neuronal performances 1950 ∼ 1980 ∼ 2000 ∼ 2010 INRIA Éric de la Clergerie IA & NLP 07/12/15 10 / 34
  11. 11. INRIA Outline 1 Approches symboliques 2 Apprentissage supervisé 3 Approches neuronales 4 Vers d’autres approches INRIA Éric de la Clergerie IA & NLP 07/12/15 11 / 34
  12. 12. INRIA Aproches symboliques S’appuyant sur des ressources linguistiques, (semi-) manuellement construites grammaire FRMG lexique LEFFF EN ALEDA WordNet WOLF FrameNet ASFALDA VerbNet VERBENET INRIA Éric de la Clergerie IA & NLP 07/12/15 12 / 34
  13. 13. INRIA Vers des ressources sémantiques : ontologies Rapprochement TAL et Web Sémantique INRIA Éric de la Clergerie IA & NLP 07/12/15 13 / 34
  14. 14. INRIA Évènements et rôles : FrameNet Baker & Fillmore Pour l’extraction d’information : qui fait QUOI, quand, comment, . . . Importance de connaissances sur des scénari d’évenements, avec indications sur les acteurs, leurs rôles, et constructions syntaxiques FRAMENET (http://framenet.icsi.berkeley.edu/) COMMERCE_PAY This frame involves Buyers paying Money for Goods. In this frame the Money is the direct object, and is mapped to the theme of the transfer. COMMUNICATION A Communicator conveys a Message to an Addressee ; the Topic and Medium of the communication also may be expressed. Relié aux rôles thématiques : agent, patient, theme, . . . Ressources similaires : VERBNET, PROPBANK, . . . ALPAGE : ASFALDA INRIA Éric de la Clergerie IA & NLP 07/12/15 14 / 34
  15. 15. INRIA Aproches symboliques (pro & cons) Ecosystèmes (complexes) de ressources linguistiques grammaire FRMG lexique LEFFF EN ALEDA WordNet WOLF FrameNet ASFALDA VerbNet VERBENET expertise linguistique taille & complexité faible couverture trop fines non probabilisées compréhensibles évolutives ∼ dev. logiciel INRIA Éric de la Clergerie IA & NLP 07/12/15 15 / 34
  16. 16. INRIA Outline 1 Approches symboliques 2 Apprentissage supervisé 3 Approches neuronales 4 Vers d’autres approches INRIA Éric de la Clergerie IA & NLP 07/12/15 16 / 34
  17. 17. INRIA Succès et limites des approches supervisées Courant majoritaire : données annotées et apprentissage supervisé FTB 12Ks Sequoia Bank 3Ks Question Bank 2Ks SocialMedia Bank Time Bank Discourse TreeBank Rhapsodie TreeBank efficace découplage robustesse évaluation autonome coût humain fastidieux peu évolutif sensibilité domaine expertise traits boite noire INRIA Éric de la Clergerie IA & NLP 07/12/15 17 / 34
  18. 18. INRIA Importance des jeux de traits Méthodes (discriminantes) : apprentissage configuration vers décision Les configurations abstraites par des propriétés (trait – features) Tâche d’étiquetage syntaxique : la configuration c Paul/PN pense/V que le chat dort abstraite par f1 le mot courant est que f2 le mot précedent est pense f3 le mot à -2 est Paul f4 l’étiquette du mot à -1 est v f5 le mot à -2 commence par une majuscule ... ... f93 les 2 étiquettes précédentes sont pn v f100 les 2 mots précédents sont Paul pense ... ... très gros jeux de traits très gros modèles et sur-entraînement INRIA Éric de la Clergerie IA & NLP 07/12/15 18 / 34
  19. 19. INRIA Outline 1 Approches symboliques 2 Apprentissage supervisé 3 Approches neuronales 4 Vers d’autres approches INRIA Éric de la Clergerie IA & NLP 07/12/15 19 / 34
  20. 20. INRIA IA ? On y est presque :-) Réseaux de Neurones: le retour ! Buzz sur Deep Learning et word embeddings 2013: Word embeddings analogies ≡ calcul vectoriel Mikolov et al.2014: Analyse d’opinions Socher et al. 2015: Google SmartReply suggérer des réponses aux mails http://goo.gl/d8R2LI DeepMind (Google) annonce Neural Turing Machine Labo Facebook Paris Toolkit Google TensorFlow libéré nombreux autres toolkits: Theano, Keras, Torch, . . . https://en.wikipedia.org/wiki/Comparison_of_deep_learning_ software INRIA Éric de la Clergerie IA & NLP 07/12/15 20 / 34
  21. 21. INRIA Base Modélisation des neurones biologiques : les neurones portent des vecteurs (de réels) x = [−, · · · , −] de dimension moyenne (d=100 à 500) les vecteurs xi associés à des neurones d’entrées sont combinés pour fournir un vecteur y à un neurone de sortie y x1 x2 x3 x4 Foward y = σ(Σi Ai xi ) avec Ai matrice Fonction d’activation σ : en générale non linéaire σ doit faire basculer l’état du neurone de sortie vers oui ou non INRIA Éric de la Clergerie IA & NLP 07/12/15 21 / 34
  22. 22. INRIA Fonctions d’activation Utilisation de fonctions proches d’une bascule oui/non mais dérivables tanh(x) = ex − e−x ex + e−x tanh (x) = 1 − tanh2 (x) tangente hyperbolique tanh D’autres fonctions sont aussi utilisées (softmax, sigmoïde) INRIA Éric de la Clergerie IA & NLP 07/12/15 22 / 34
  23. 23. INRIA Sorties multiples On peut avoir plusieurs neurones de sortie y1 y2 x1 x2 x3 x4 INRIA Éric de la Clergerie IA & NLP 07/12/15 23 / 34
  24. 24. INRIA Couches cachées On peut intercaler des couches cachées intermédiaires ⇒ abstraction progressive des informations des neurones d’entrée traits y1 y2 x1 x2 x3 x4 INRIA Éric de la Clergerie IA & NLP 07/12/15 24 / 34
  25. 25. INRIA Apprentissage : backpropagation y1 y2 x1 x2 x3 x4 Backward Similaire au perceptron redescente des erreurs des neurones de sortie vers les neurones d’entrée (backpropagation) mise à jour des paramètres Wi par descente de gradient W (t+1) i = W (t) i − µ ∗ ∂y ∂Wi INRIA Éric de la Clergerie IA & NLP 07/12/15 25 / 34
  26. 26. INRIA Réseaux récurrents Pour le TAL, on veut des réseaux adaptés au traitement de séquences (charactères, mots, phrases, . . . ) ⇒ Réseaux récurrents la sortie de la config à i est utilisée comme entrée pour calculer i + 1 INRIA Éric de la Clergerie IA & NLP 07/12/15 26 / 34
  27. 27. INRIA LSTM Encore mieux : des réseaux récurrents avec mémoire à long terme (et oubli) Long-Short Term Memory – LSTM INRIA Éric de la Clergerie IA & NLP 07/12/15 27 / 34
  28. 28. INRIA Agencer des briques État de l’art actuellement en TAL : bi-LSTM (lecture gauche-droite + lecture droite-gauche) sur mots et si-besoin caractères + convolution 1D (combine info autour du mot courant) Crédits : Practical Neural Networks for NLP : From Theory to Code. Dyer, Goldberg, and Neubig INRIA Éric de la Clergerie IA & NLP 07/12/15 28 / 34
  29. 29. INRIA Pro & Cons État de l’art en TAL sur de nombreuse tâches, mais proche d’autres méthodes d’apprentissage ouverture vers d’autres tâches (approches moins supervisées) agencement (+ en + complexe) de réseaux de base mais les premières couches utilisables pour plusieurs tâches besoin de gros volumes de données sensibles aux initialisations entraînements longs interprétation des modèles INRIA Éric de la Clergerie IA & NLP 07/12/15 29 / 34
  30. 30. INRIA Outline 1 Approches symboliques 2 Apprentissage supervisé 3 Approches neuronales 4 Vers d’autres approches INRIA Éric de la Clergerie IA & NLP 07/12/15 30 / 34
  31. 31. INRIA Hybridation Mariage symbolique et apprentissage (tenté avec FRMG) expertise forte requise formel x linguistique problème couverture (mais FRMG ∼ 90%, et intérêt des erreurs) ressources linguistiques requises/exploitables gestion des ambiguïtés compréhensibilité et adaptabilité développement initial rapide moins sensible au domaine possibilité de régler des paramètres par apprentissage (hybridation) et couplage avec outils statistiques FTB test Europar annodis emea-fr-dev emea-fr-test frwiki 82 84 86 88 90 LAS FRMG stat. FRMG+stat. Divers analyseurs sur corpus SEQUOIA INRIA Éric de la Clergerie IA & NLP 07/12/15 31 / 34
  32. 32. INRIA Approches non supervisées Courant futuriste : emploi encore limité ! Partir de données brutes : ok pour modèles de langue (saisie prédictive) ⇒ Word Embeddings (word2vec) ok pour regroupements (clustering) ressources extraction terminologie, champs thématiques, réseaux sémantiques, morphologie, . . . en général besoin de validation pas trop mal pour étiquetage et ségmentation faible sur des décisions complexes (induction de grammaires) http://stp.lingfil.uu.se/ ~bea/copiale/ INRIA Éric de la Clergerie IA & NLP 07/12/15 32 / 34
  33. 33. INRIA Vers des approches faiblement supervisées Courant prometteur : l’imagination au pouvoir Exploitation de vues multiples et interactions traduction : textes alignés transfert multilingue (langue + dotée vers − dotée via textes, wikipedia, . . . ) accès aux logs des moteurs de recherche + liens suivis + bouton chance analyse d’opinion : associer commentaires et notes données par les utilisateurs (Google/Jigsaw Perspective) réseaux sociaux : méta-données associées (threads/discussions, date, . . . ) séquences de mails Google SmartReply Photos & légendes ; Films & sous-titres crowdsourcing : payant ou au travers de jeux INRIA Éric de la Clergerie IA & NLP 07/12/15 33 / 34
  34. 34. INRIA Conclusion Une époque faste (données, puissance, algo, ressources) mais quels acteurs ? Une grande palette de techniques et des mariages possibles De nouvelles approches à explorer pour des supervisions faibles Proche d’IA spécialistes (go, poker,. . . ) mais loin d’IA généralistes pb : agencement/interaction de très nombreux composants Et encore très loin d’une compréhension du langage et du monde apprendre à apprendre, adaptation à l’imprévu, . . . ( Almanach) INRIA Éric de la Clergerie IA & NLP 07/12/15 34 / 34
  • kkokreyol

    May. 18, 2019
  • FrdrickGuillot

    Jan. 5, 2018
  • Claupatru

    May. 20, 2017
  • NicolasRenac

    May. 9, 2017

Transparents présentés au Séminaire DIXIT organisé par le GFII

Views

Total views

746

On Slideshare

0

From embeds

0

Number of embeds

7

Actions

Downloads

38

Shares

0

Comments

0

Likes

4

×