SlideShare une entreprise Scribd logo
1  sur  94
Télécharger pour lire hors ligne
La question de la langue à
l’époque de Google
Frédéric Kaplan

frederic.kaplan@ep!.ch
twitter : @frederickaplan
Chi"re d’a"aires de Google



40        milliards / an
                    (en $)
... simplement en vendant
des mots.
110 millions / jour
4.5 millions / heure
75 000 / min
À la #n de cet exposé,
Google aura gagné environ
2 millions de dollars.
L’histoire de Google tient en
deux algorithmes :
l’un l’a rendu populaire,
l’autre l’a rendu riche.
L’un a créé
une valeur d’usage,
l’autre
une valeur d’échange.
1
L’algorithme qui a rendu
     Google célèbre
Altavista — 1996
Google — 1998
PageRank
L’algorithme qui a permis à
Google de devenir la porte
d’entrée du web.
Brin et Page travaillent sur le
Standford Library
Technologies Project
Comment classer les
résultats de recherche pour
un mot-clé donné ?
Hypothèse

Les documents les plus
importants sont ceux qui
sont le plus cités.
Mais certaines citations
valent plus que d’autres.
Et comment sait-on qu’un
document est important ?
Par le nombre de citations.
Une formule récursive.
La valeur PageRank d’un
document est liée au nombre
de documents qui le citent et
à leur propre valeur
PageRank.
Le PageRank est aussi la probabilité
stationnaire d'une chaîne de Markov.
Brin et Page proposent alors
une analogie.

Le web est un ensemble de
documents. Chaque
hyperlien correspond à une
citation.
Dans sa version « pure »,
Pagerank incarne un certain
idéal démocratique.

« Dans l’esprit de PageRank ». Dominique Cardon. Exposé Colloque Arc-Info. Nov 2012
Mais pour bien fonctionner, il
faudrait que personne ne
tente d’optimiser ses
documents en fonction de
l’algorithme.
Mais, évidemment, ce n’est
pas le cas.
Des algorithmes se sont
massivement développés
pour tromper l’algorithme de
classement de Google.
Ils optimisent les textes et
leurs intertextualités pour
arriver en premier dans les
résultats de recherche.
Une première guerre
«linguistique » a commencé.
Mars 2000 : Éclatement
de la « Bulle Internet ».
Beaucoup de « start-ups »
proposant une valeur
d’usage, mais pas de valeur
d’échange ne résistèrent
pas.
Google a eu une meilleure idée
que de simplement vendre de
la publicité.
Brin et Page ont réalisé qu’ils
accumulaient du capital
linguistique grâce au nombre
croissant d’utilisateurs qui
s’exprimaient au travers de
services de Google.
Il leur su$sait d’exploiter ce
capital.
2
l’algorithme qui a rendu
      Google riche
Un algorithme qui organise
automatiquement la
spéculation autour des mots a
permis de créer le premier
marché linguistique mondial.
Le marché linguistique existait
déjà avant Google.

Il était possible depuis
longtemps d’acheter certains
mots (Trademarks)
> cf. C.Fauré commentant Lombardo sur l’origine antique des Trademarks
> http://www.christian-faure.net/2012/01/22/les-savoirs-de-lecriture-en-grece-
ancienne-3-marchands-transactions-economiques-ecritures/
L’algorithme de Google a
élargi et en partie libéralisé ce
marché.
1
    4
2
    5
3
    6

    7
    8
    9

    10
Tous les mots peuvent
donner lieu à des enchères...
L’algorithme classe
automatiquement les
annonces selon un calcul
en quatre étapes.
1. Enchère sur un mot clé (E)

Une entreprise choisit un mot ou une
expression, par exemple « vacances »
et le prix maximum qu’elle serait prête
à payer en cas de clic.
Google propose une estimation du montant de l’enchère à proposer pour avoir de
bonnes chances d’être dans la première page des résultats proposés.

Les acheteurs de mots peuvent aussi cibler leur publicité à des dates ou des lieux
spéci#ques.
2. Calcul du score de qualité de la
publicité (Q)

Google donne un score à la publicité sur
une échelle de un à dix.
Ce score dépend essentiellement de la pertinence du texte de la publicité par rapport à la
requête de l’utilisateur, de la qualité de la page vers laquelle la publicité pointe (qualité de
son contenu et rapidité de chargement) et du nombre de clics moyen sur la publicité. En
gros, ce score mesure à quel point la publicité « fonctionne ».

C’est un point essentiel, car Google ne gagne de l’argent que si les internautes
choisissent e"ectivement de cliquer sur le lien proposé par la publicité.

L’algorithme exact qui produit le score de qualité de la publicité reste secret et
modi!able à loisir par Google.
3. Calcul du rang (R)

Le Rang est l’Enchère multipliée par le
Score. Une publicité ayant un bon score
peut ainsi compenser une enchère plus
faible et arriver devant.

R=E*Q
4. Calcul du prix à payer en cas de
clic (P)

Le prix que paye une entreprise 1 si un
internaute clique sur sa publicité n’est
pas le prix de l’enchère, mais le prix
de l’enchère 2 juste en dessous de sa
propre enchère modulée par la qualité
relative entre cette deuxième enchère
et celle de l’entreprise.
Tout tient dans la formule : P1 = E2 * (Q2 / Q1) où P1 est le prix payé par l’entreprise, E2
est l’enchère la plus haute en dessous de l’enchère de l'entreprise 1, Q1 la qualité de
l’enchère 1, Q2 la qualité de l’enchère 2.
Ce jeu d’enchères est recalculé pour
chaque requête de chaque utilisateur
— des millions de fois par seconde
Cet algorithme génère
40 de milliards de dollars
par an.
Le marché linguistique ainsi
créé par Google est déjà
global et multilingue.
La « Bourse des mots » qui
lui est associée donne une
indication relativement juste
des grands mouvements
sémantiques mondiaux.
ski           or




sun screen   world cup
Google a réussi à étendre le
domaine du capitalisme à la
langue elle-même, à
organiser la vente
de « mots » à l’échelle
planétaire.
Ces autres projets et
innovations technologiques
peuvent être analysés à
travers ce prisme.
Quand Google corrige à la
volée un mot que vous avez
mal orthographié, il transforme
un matériau sans valeur en une
ressource économique
potentiellement rentable.
Quand Google prolonge une
phrase que vous avez
commencée à taper, il ramène
votre expression dans le
domaine de la langue qu’il peut
exploiter.
la langue vivante




    la langue
   exploitable
commercialement
English




Googlish
Français




Googlais
Anglais




Bingish
Nous nous exprimons chaque
jour un peu plus au travers d’une
des interfaces de Google (GMail,
Google Docs, Google+, etc.)
Nous sommes déjà des
millions chaque jour à écrire
et à parler par le biais de
Google.
Les acteurs du capitalisme
linguistique doivent
développer des relations
linguistiques intimes et
durables avec un grand
nombre d’utilisateurs, pour
pouvoir modéliser et in!échir
la langue.
Le capitalisme linguistique
n’est pas une économie de
l’attention.
C’est une économie de
l’expression.
L’objectif n’est tant de
capter les regards, mais
d’être un médiateur de
l’écrit.
Économie de l’attention


Attention      Intention


   Lieu de la médiation
Économie de l’expression


Intention      Expression


   Lieu de la médiation
Du fait de ces médiations, la
langue elle-même risque de se
transformer.
Première hypothèse (2011)

Les technologies du capitalisme linguistique
conduiraient à la régularisation de la
langue.

Plus nous ferons appel aux prothèses
linguistiques, laissant les algorithmes
corriger et prolonger nos propos, plus cette
régularisation serait e$cace.
Mais cette régularisation se base
essentiellement sur une analyse statistique
des écrits de l’Internet. Or beaucoup de ces
écrits ne sont pas des ressources pures, ce
sont des écrits déjà in!uencés par des
algorithmes.
Il nous fait donc désormais distinguer deux
types de ressources linguistiques :

(a) les ressources primaires produites par des
humains (conversations orales ou écrites,
contenus de livres scannés, etc.)

(b) les ressources secondaires produites par
des machines en général à partir des
ressources primaires (traduction automatique,
articles écrits par des algorithmes, spam). 
La modi#cation de la syntaxe dans des
chaînes de traduction automatique illustre un
certain de type de pollution.
  « La qualité se dégrade petit à petit au fur et à mesure
  quand on applique des algorithmes de traduction
  automatique »

  « Quality degrades gradually as and when we measure
  applies algorithms to machine translation »

  « Calidad degrada gradualmente a medida y cuando la
  medida se aplica algoritmos de traducción automática »

  « Qualité se dégrade progressivement au fur et à mesure
  est appliquée algorithmes de traduction automatique »
Les distorsions sémantiques introduites par le
‘Text Spinning’ illustrent un autre type de
pollution :

  « Mr. and Mrs. Dursley, of number four, Privet Drive, were
  proud to say that they were perfectly normal, thank you
  very much. They were the last people you'd expect to be
  involved in anything strange or mysterious, because they
  just didn't hold with such nonsense. »

  « Mr. but Mrs. Dursley, of number four, Privet Drive, were
  glad to declare that they were impeccably standard,
  thanks much. They were the !nal folks you'd look for to be
  included in whatever or recondite, resulting from the fact
  that they simply didn't keep with such gibberish. “
Malheureusement, sans
connaître l’origine d’une
production, il n’est souvent
pas aisé de distinguer entre
ressources primaires ou
secondaires.
Un humain peut, dans certains
cas, faire la di"érence, mais il
est di$cile de construire des
algorithmes pour faire
automatiquement cette
distinction.
Au fur et à mesure que la quantité de
ressources secondaires devient signi#cative
par rapport aux ressources primaires, les
modèles statistiques peuvent se modi#er pour
intégrer le vocabulaire, les formulations et
les tournures des algorithmes.
Ce sont ces tournures qui
risquent de nous être
proposées sous la forme de
suggestions ou de corrections. 
Google voit les ressources
secondaires comme un danger,
une pollution pour ses
modèles.
Pour lutter contre cette « pollution »
croissante, Google a modi#é en 2011 son
service Google Translate.

Google a remplacé son service créateur de ressources
secondaires en un service de traduction « on demand » qui
garde toujours le texte original de la traduction, pour s’en
servir pour la recherche et pour potentiellement améliorer
progressivement la traduction proposée au fur et à mesure que
les algorithmes de traduction progressent. 

cf. Kirti Vashee / Analysis of the Shutdown Announcements of the Google Translate API
Cela ne su$ra pas.

Il faut maintenant compter avec l’écriture des
machines et tous les hybrides de ce nouvel
ordre linguistique.
Sur les 30 meilleurs éditeurs de
Wikipedia, les 2/3 sont des
bots

> R.Stuart Geiger, “The Lives of Bots.” in Wikipedia: A Critical Point of View. 2011
> http://en.wikipedia.org/wiki/Wikipedia:List_of_Wikipedians_by_number_of_recent_edits
D’ici deux ans, une proportion
signi#cative des messages sur
les réseaux sociaux sera peut-
être produite par des bots.

> Hwang, Pearce and Nanis (2012) Socialbots: voices from the fronts interactions Volume 19
Issue 2, March + April 2012
Ainsi, textes humains et
algorithmiques se mêlent pour
proposer une nouvelle forme
d’écriture. Et c’est cette nouvelle
écriture que d’autres algorithmes
analysent pour ensuite structurer
nos propres productions
linguistiques.
Avec le capitalisme linguistique,
la langue elle-même se
transforme pour intégrer les biais
linguistiques des machines et
les contraintes de l’économie
linguistique planétaire.
Nous assistons peut-être une
nouvelle phase de
« grammatisation » de la
langue, une nouvelle rétroaction
de la technologie et de
l’économie sur la langue naturelle.
Dans un temps intermédiaire
apparait quelque chose comme
une lingua franca, un pidgin ou
un créole, dont la syntaxe et le
vocabulaire sont liés aux capacités
linguistiques des machines et aux
valeurs marchandes des mots.
La nouvelle créolisation
Il me semble primordial
d’étudier ces nouveaux
phénomènes linguistiques.
1. Modéliser l’évolution de la
langue commerciale. Produire
les dictionnaires du Googlish
et du Bingish.
2. Modéliser les nouveaux
dialectes algorithmiques.
Construire des algorithmes
pour les reconnaitre.
3. Détecter et documenter les
phénomènes de créolisation.
Cela constitue un axe de nos
recherches au DHLAB
frederic.kaplan@ep!.ch
twitter:@frederickaplan

Contenu connexe

En vedette

Développer la lecture sociale en bibliothèque
Développer la lecture sociale en bibliothèqueDévelopper la lecture sociale en bibliothèque
Développer la lecture sociale en bibliothèqueFrederic Kaplan
 
Real scale media TEDxTransmedia
Real scale media TEDxTransmediaReal scale media TEDxTransmedia
Real scale media TEDxTransmediaFrederic Kaplan
 
DH101 2013/2014 course 10 - 3d printing, Javascript data visualization
DH101 2013/2014 course 10 - 3d printing, Javascript data visualization DH101 2013/2014 course 10 - 3d printing, Javascript data visualization
DH101 2013/2014 course 10 - 3d printing, Javascript data visualization Frederic Kaplan
 
Reinventing books, magazines and newspapers in the digital age
Reinventing books, magazines and newspapers in the digital ageReinventing books, magazines and newspapers in the digital age
Reinventing books, magazines and newspapers in the digital ageFrederic Kaplan
 
DH101 2013/2014 course1 - Presentation of the course / Collaborative writing ...
DH101 2013/2014 course1 - Presentation of the course / Collaborative writing ...DH101 2013/2014 course1 - Presentation of the course / Collaborative writing ...
DH101 2013/2014 course1 - Presentation of the course / Collaborative writing ...Frederic Kaplan
 
DH101 2013/2014 course 4 - Digitization techniques 2D and 3D
DH101 2013/2014 course 4 - Digitization techniques 2D and 3D DH101 2013/2014 course 4 - Digitization techniques 2D and 3D
DH101 2013/2014 course 4 - Digitization techniques 2D and 3D Frederic Kaplan
 
DH101 2013/2014 course 9 - Crowdsourcing, crowdfunding, Wikipedia, Open Stree...
DH101 2013/2014 course 9 - Crowdsourcing, crowdfunding, Wikipedia, Open Stree...DH101 2013/2014 course 9 - Crowdsourcing, crowdfunding, Wikipedia, Open Stree...
DH101 2013/2014 course 9 - Crowdsourcing, crowdfunding, Wikipedia, Open Stree...Frederic Kaplan
 
DH101 2013/2014 course 5 - Project on Venice / Datafication / Regulated repre...
DH101 2013/2014 course 5 - Project on Venice / Datafication / Regulated repre...DH101 2013/2014 course 5 - Project on Venice / Datafication / Regulated repre...
DH101 2013/2014 course 5 - Project on Venice / Datafication / Regulated repre...Frederic Kaplan
 
Présentation economie sociale sce nov10 final finale
Présentation economie sociale sce nov10 final finalePrésentation economie sociale sce nov10 final finale
Présentation economie sociale sce nov10 final finaleRachad Lawani
 
Optimisez votre prochaine présentation !
Optimisez votre prochaine présentation !Optimisez votre prochaine présentation !
Optimisez votre prochaine présentation !Expremium/Paris
 
Signaux Numériques 2015 par Antoine Chotard AEC 16 avril 2015 / Conférence Ci...
Signaux Numériques 2015 par Antoine Chotard AEC 16 avril 2015 / Conférence Ci...Signaux Numériques 2015 par Antoine Chotard AEC 16 avril 2015 / Conférence Ci...
Signaux Numériques 2015 par Antoine Chotard AEC 16 avril 2015 / Conférence Ci...UNITEC
 

En vedette (20)

Développer la lecture sociale en bibliothèque
Développer la lecture sociale en bibliothèqueDévelopper la lecture sociale en bibliothèque
Développer la lecture sociale en bibliothèque
 
Protocole EIGRP
Protocole EIGRPProtocole EIGRP
Protocole EIGRP
 
Kangen
KangenKangen
Kangen
 
Kangen
KangenKangen
Kangen
 
Kangen water
Kangen waterKangen water
Kangen water
 
QB1 : The story
QB1 : The storyQB1 : The story
QB1 : The story
 
Real scale media TEDxTransmedia
Real scale media TEDxTransmediaReal scale media TEDxTransmedia
Real scale media TEDxTransmedia
 
DH101 2013/2014 course 10 - 3d printing, Javascript data visualization
DH101 2013/2014 course 10 - 3d printing, Javascript data visualization DH101 2013/2014 course 10 - 3d printing, Javascript data visualization
DH101 2013/2014 course 10 - 3d printing, Javascript data visualization
 
Introduction to XML
Introduction to XMLIntroduction to XML
Introduction to XML
 
Reinventing books, magazines and newspapers in the digital age
Reinventing books, magazines and newspapers in the digital ageReinventing books, magazines and newspapers in the digital age
Reinventing books, magazines and newspapers in the digital age
 
DH101 2013/2014 course1 - Presentation of the course / Collaborative writing ...
DH101 2013/2014 course1 - Presentation of the course / Collaborative writing ...DH101 2013/2014 course1 - Presentation of the course / Collaborative writing ...
DH101 2013/2014 course1 - Presentation of the course / Collaborative writing ...
 
DH101 2013/2014 course 4 - Digitization techniques 2D and 3D
DH101 2013/2014 course 4 - Digitization techniques 2D and 3D DH101 2013/2014 course 4 - Digitization techniques 2D and 3D
DH101 2013/2014 course 4 - Digitization techniques 2D and 3D
 
DH101 2013/2014 course 9 - Crowdsourcing, crowdfunding, Wikipedia, Open Stree...
DH101 2013/2014 course 9 - Crowdsourcing, crowdfunding, Wikipedia, Open Stree...DH101 2013/2014 course 9 - Crowdsourcing, crowdfunding, Wikipedia, Open Stree...
DH101 2013/2014 course 9 - Crowdsourcing, crowdfunding, Wikipedia, Open Stree...
 
DH101 2013/2014 course 5 - Project on Venice / Datafication / Regulated repre...
DH101 2013/2014 course 5 - Project on Venice / Datafication / Regulated repre...DH101 2013/2014 course 5 - Project on Venice / Datafication / Regulated repre...
DH101 2013/2014 course 5 - Project on Venice / Datafication / Regulated repre...
 
Présentation economie sociale sce nov10 final finale
Présentation economie sociale sce nov10 final finalePrésentation economie sociale sce nov10 final finale
Présentation economie sociale sce nov10 final finale
 
DDA algorithm
DDA algorithmDDA algorithm
DDA algorithm
 
Optimisez votre prochaine présentation !
Optimisez votre prochaine présentation !Optimisez votre prochaine présentation !
Optimisez votre prochaine présentation !
 
Journalism
JournalismJournalism
Journalism
 
Mode&Digital #fashionwebfluence
Mode&Digital #fashionwebfluenceMode&Digital #fashionwebfluence
Mode&Digital #fashionwebfluence
 
Signaux Numériques 2015 par Antoine Chotard AEC 16 avril 2015 / Conférence Ci...
Signaux Numériques 2015 par Antoine Chotard AEC 16 avril 2015 / Conférence Ci...Signaux Numériques 2015 par Antoine Chotard AEC 16 avril 2015 / Conférence Ci...
Signaux Numériques 2015 par Antoine Chotard AEC 16 avril 2015 / Conférence Ci...
 

Similaire à La question de la langue à l'époque de Google

Urfist bordeaux-moteurs
Urfist bordeaux-moteursUrfist bordeaux-moteurs
Urfist bordeaux-moteursolivier
 
HISTOIRE ET PANORAMA DU WEB À DESTINATION DES PROFESSIONNELS DE L'IMAGE ET DE...
HISTOIRE ET PANORAMA DU WEB À DESTINATION DES PROFESSIONNELS DE L'IMAGE ET DE...HISTOIRE ET PANORAMA DU WEB À DESTINATION DES PROFESSIONNELS DE L'IMAGE ET DE...
HISTOIRE ET PANORAMA DU WEB À DESTINATION DES PROFESSIONNELS DE L'IMAGE ET DE...Nadia Berg
 
Comment est-ce que la puissance du service de Google influence la culture d'e...
Comment est-ce que la puissance du service de Google influence la culture d'e...Comment est-ce que la puissance du service de Google influence la culture d'e...
Comment est-ce que la puissance du service de Google influence la culture d'e...Zane Fleming
 
Accompagner le lecteur aux usages du numérique 3/3
Accompagner le lecteur aux usages du numérique 3/3Accompagner le lecteur aux usages du numérique 3/3
Accompagner le lecteur aux usages du numérique 3/3cspirin
 
google vs facebook, recherche algorithmique vs recherche sociale, curators et...
google vs facebook, recherche algorithmique vs recherche sociale, curators et...google vs facebook, recherche algorithmique vs recherche sociale, curators et...
google vs facebook, recherche algorithmique vs recherche sociale, curators et...Christophe Poupet
 
Profiter concrètement du balisage sémantique schema.org - TuniSEO
Profiter concrètement du balisage sémantique schema.org - TuniSEOProfiter concrètement du balisage sémantique schema.org - TuniSEO
Profiter concrètement du balisage sémantique schema.org - TuniSEOErlé Alberton
 
Monétiser à l'ère du numérique
Monétiser à l'ère du numériqueMonétiser à l'ère du numérique
Monétiser à l'ère du numériqueTechnofutur TIC
 
Rapport De Veille
Rapport De VeilleRapport De Veille
Rapport De VeilleTrochet
 
10 tendances digitales pour 2016
10 tendances digitales pour 201610 tendances digitales pour 2016
10 tendances digitales pour 2016NiceToMeetYou
 
Lali Dugelay : interviews des drigeants qui font l'actu
Lali Dugelay : interviews des drigeants qui font l'actuLali Dugelay : interviews des drigeants qui font l'actu
Lali Dugelay : interviews des drigeants qui font l'actuAGAMI Family Office
 
Internet c'est pas magique
Internet c'est pas magiqueInternet c'est pas magique
Internet c'est pas magiquerichard peirano
 
Google Hummingbird : ce que cela change pour le SEO - conférence SEO Campus 2014
Google Hummingbird : ce que cela change pour le SEO - conférence SEO Campus 2014Google Hummingbird : ce que cela change pour le SEO - conférence SEO Campus 2014
Google Hummingbird : ce que cela change pour le SEO - conférence SEO Campus 2014Woptimo
 
Utiliser Le MultiméDia Dans Un Projet Danimation
Utiliser Le MultiméDia Dans Un Projet DanimationUtiliser Le MultiméDia Dans Un Projet Danimation
Utiliser Le MultiméDia Dans Un Projet DanimationBibliothèques Brest
 
L'actualité High-Tech de la semaine : Internet.org, Netflix, Oxford Dictionar...
L'actualité High-Tech de la semaine : Internet.org, Netflix, Oxford Dictionar...L'actualité High-Tech de la semaine : Internet.org, Netflix, Oxford Dictionar...
L'actualité High-Tech de la semaine : Internet.org, Netflix, Oxford Dictionar...Phil Jeudy
 
Index independant du web ertzscheid
Index independant du web ertzscheidIndex independant du web ertzscheid
Index independant du web ertzscheidolivier
 
Internet et le site de la FCGA - 1998
Internet et le site de la FCGA - 1998Internet et le site de la FCGA - 1998
Internet et le site de la FCGA - 1998Xavier LAIR
 

Similaire à La question de la langue à l'époque de Google (20)

Urfist bordeaux-moteurs
Urfist bordeaux-moteursUrfist bordeaux-moteurs
Urfist bordeaux-moteurs
 
Wurfing8
Wurfing8Wurfing8
Wurfing8
 
HISTOIRE ET PANORAMA DU WEB À DESTINATION DES PROFESSIONNELS DE L'IMAGE ET DE...
HISTOIRE ET PANORAMA DU WEB À DESTINATION DES PROFESSIONNELS DE L'IMAGE ET DE...HISTOIRE ET PANORAMA DU WEB À DESTINATION DES PROFESSIONNELS DE L'IMAGE ET DE...
HISTOIRE ET PANORAMA DU WEB À DESTINATION DES PROFESSIONNELS DE L'IMAGE ET DE...
 
Comment est-ce que la puissance du service de Google influence la culture d'e...
Comment est-ce que la puissance du service de Google influence la culture d'e...Comment est-ce que la puissance du service de Google influence la culture d'e...
Comment est-ce que la puissance du service de Google influence la culture d'e...
 
Accompagner le lecteur aux usages du numérique 3/3
Accompagner le lecteur aux usages du numérique 3/3Accompagner le lecteur aux usages du numérique 3/3
Accompagner le lecteur aux usages du numérique 3/3
 
Turbulences n46
Turbulences n46Turbulences n46
Turbulences n46
 
Recherche
RechercheRecherche
Recherche
 
google vs facebook, recherche algorithmique vs recherche sociale, curators et...
google vs facebook, recherche algorithmique vs recherche sociale, curators et...google vs facebook, recherche algorithmique vs recherche sociale, curators et...
google vs facebook, recherche algorithmique vs recherche sociale, curators et...
 
Profiter concrètement du balisage sémantique schema.org - TuniSEO
Profiter concrètement du balisage sémantique schema.org - TuniSEOProfiter concrètement du balisage sémantique schema.org - TuniSEO
Profiter concrètement du balisage sémantique schema.org - TuniSEO
 
Monétiser à l'ère du numérique
Monétiser à l'ère du numériqueMonétiser à l'ère du numérique
Monétiser à l'ère du numérique
 
Rapport De Veille
Rapport De VeilleRapport De Veille
Rapport De Veille
 
10 tendances digitales pour 2016
10 tendances digitales pour 201610 tendances digitales pour 2016
10 tendances digitales pour 2016
 
Lali Dugelay : interviews des drigeants qui font l'actu
Lali Dugelay : interviews des drigeants qui font l'actuLali Dugelay : interviews des drigeants qui font l'actu
Lali Dugelay : interviews des drigeants qui font l'actu
 
Internet c'est pas magique
Internet c'est pas magiqueInternet c'est pas magique
Internet c'est pas magique
 
VIEWLEX # 08
VIEWLEX # 08VIEWLEX # 08
VIEWLEX # 08
 
Google Hummingbird : ce que cela change pour le SEO - conférence SEO Campus 2014
Google Hummingbird : ce que cela change pour le SEO - conférence SEO Campus 2014Google Hummingbird : ce que cela change pour le SEO - conférence SEO Campus 2014
Google Hummingbird : ce que cela change pour le SEO - conférence SEO Campus 2014
 
Utiliser Le MultiméDia Dans Un Projet Danimation
Utiliser Le MultiméDia Dans Un Projet DanimationUtiliser Le MultiméDia Dans Un Projet Danimation
Utiliser Le MultiméDia Dans Un Projet Danimation
 
L'actualité High-Tech de la semaine : Internet.org, Netflix, Oxford Dictionar...
L'actualité High-Tech de la semaine : Internet.org, Netflix, Oxford Dictionar...L'actualité High-Tech de la semaine : Internet.org, Netflix, Oxford Dictionar...
L'actualité High-Tech de la semaine : Internet.org, Netflix, Oxford Dictionar...
 
Index independant du web ertzscheid
Index independant du web ertzscheidIndex independant du web ertzscheid
Index independant du web ertzscheid
 
Internet et le site de la FCGA - 1998
Internet et le site de la FCGA - 1998Internet et le site de la FCGA - 1998
Internet et le site de la FCGA - 1998
 

Plus de Frederic Kaplan

L'historien et l'algorithme : Présentation aux Entretiens du Nouveau Monde In...
L'historien et l'algorithme : Présentation aux Entretiens du Nouveau Monde In...L'historien et l'algorithme : Présentation aux Entretiens du Nouveau Monde In...
L'historien et l'algorithme : Présentation aux Entretiens du Nouveau Monde In...Frederic Kaplan
 
DH101 2013/2014 course 8 - Historical Geographical Information Systems (HGIS)...
DH101 2013/2014 course 8 - Historical Geographical Information Systems (HGIS)...DH101 2013/2014 course 8 - Historical Geographical Information Systems (HGIS)...
DH101 2013/2014 course 8 - Historical Geographical Information Systems (HGIS)...Frederic Kaplan
 
DH101 2013/2014 Projects
DH101 2013/2014 ProjectsDH101 2013/2014 Projects
DH101 2013/2014 ProjectsFrederic Kaplan
 
DH101 2013/2014 course 7 - OCR, Printed text recognition, Handwriting recogni...
DH101 2013/2014 course 7 - OCR, Printed text recognition, Handwriting recogni...DH101 2013/2014 course 7 - OCR, Printed text recognition, Handwriting recogni...
DH101 2013/2014 course 7 - OCR, Printed text recognition, Handwriting recogni...Frederic Kaplan
 
DH101 2013/2014 course 6 - Semantic coding, RDF, CIDOC-CRM
DH101 2013/2014 course 6 - Semantic coding, RDF, CIDOC-CRMDH101 2013/2014 course 6 - Semantic coding, RDF, CIDOC-CRM
DH101 2013/2014 course 6 - Semantic coding, RDF, CIDOC-CRMFrederic Kaplan
 
3d scanning for digital heritage
3d scanning for digital heritage3d scanning for digital heritage
3d scanning for digital heritageFrederic Kaplan
 
Franziska Frey 2 / DHV13
Franziska Frey 2 / DHV13Franziska Frey 2 / DHV13
Franziska Frey 2 / DHV13Frederic Kaplan
 
Franziska Frey 1 / DHV13
Franziska Frey 1 / DHV13Franziska Frey 1 / DHV13
Franziska Frey 1 / DHV13Frederic Kaplan
 
Color and appearance information in 3d models
Color and appearance information in 3d modelsColor and appearance information in 3d models
Color and appearance information in 3d modelsFrederic Kaplan
 
Digital Humanities Venice Fall School: Introduction
Digital Humanities Venice Fall School: IntroductionDigital Humanities Venice Fall School: Introduction
Digital Humanities Venice Fall School: IntroductionFrederic Kaplan
 
DH101 2013/2014 course 3 - Panoramic intensifcation, narrative crise and intr...
DH101 2013/2014 course 3 - Panoramic intensifcation, narrative crise and intr...DH101 2013/2014 course 3 - Panoramic intensifcation, narrative crise and intr...
DH101 2013/2014 course 3 - Panoramic intensifcation, narrative crise and intr...Frederic Kaplan
 
DH101 2013/2014 course 2
DH101 2013/2014 course 2DH101 2013/2014 course 2
DH101 2013/2014 course 2Frederic Kaplan
 
Edition numérique de Jean-Jacques Rousseau
Edition numérique de Jean-Jacques RousseauEdition numérique de Jean-Jacques Rousseau
Edition numérique de Jean-Jacques RousseauFrederic Kaplan
 
Les métamorphoses de la valeur
Les métamorphoses de la valeurLes métamorphoses de la valeur
Les métamorphoses de la valeurFrederic Kaplan
 

Plus de Frederic Kaplan (18)

L'historien et l'algorithme : Présentation aux Entretiens du Nouveau Monde In...
L'historien et l'algorithme : Présentation aux Entretiens du Nouveau Monde In...L'historien et l'algorithme : Présentation aux Entretiens du Nouveau Monde In...
L'historien et l'algorithme : Présentation aux Entretiens du Nouveau Monde In...
 
DH101 2013/2014 course 8 - Historical Geographical Information Systems (HGIS)...
DH101 2013/2014 course 8 - Historical Geographical Information Systems (HGIS)...DH101 2013/2014 course 8 - Historical Geographical Information Systems (HGIS)...
DH101 2013/2014 course 8 - Historical Geographical Information Systems (HGIS)...
 
DH101 2013/2014 Projects
DH101 2013/2014 ProjectsDH101 2013/2014 Projects
DH101 2013/2014 Projects
 
DH101 2013/2014 course 7 - OCR, Printed text recognition, Handwriting recogni...
DH101 2013/2014 course 7 - OCR, Printed text recognition, Handwriting recogni...DH101 2013/2014 course 7 - OCR, Printed text recognition, Handwriting recogni...
DH101 2013/2014 course 7 - OCR, Printed text recognition, Handwriting recogni...
 
DH101 2013/2014 course 6 - Semantic coding, RDF, CIDOC-CRM
DH101 2013/2014 course 6 - Semantic coding, RDF, CIDOC-CRMDH101 2013/2014 course 6 - Semantic coding, RDF, CIDOC-CRM
DH101 2013/2014 course 6 - Semantic coding, RDF, CIDOC-CRM
 
3d scanning for digital heritage
3d scanning for digital heritage3d scanning for digital heritage
3d scanning for digital heritage
 
3d scanning pipeline
3d scanning pipeline3d scanning pipeline
3d scanning pipeline
 
Franziska Frey 2 / DHV13
Franziska Frey 2 / DHV13Franziska Frey 2 / DHV13
Franziska Frey 2 / DHV13
 
Franziska Frey 1 / DHV13
Franziska Frey 1 / DHV13Franziska Frey 1 / DHV13
Franziska Frey 1 / DHV13
 
3d scanning techniques
3d scanning techniques3d scanning techniques
3d scanning techniques
 
Color and appearance information in 3d models
Color and appearance information in 3d modelsColor and appearance information in 3d models
Color and appearance information in 3d models
 
3d from images
3d from images3d from images
3d from images
 
Pellegrini small
Pellegrini smallPellegrini small
Pellegrini small
 
Digital Humanities Venice Fall School: Introduction
Digital Humanities Venice Fall School: IntroductionDigital Humanities Venice Fall School: Introduction
Digital Humanities Venice Fall School: Introduction
 
DH101 2013/2014 course 3 - Panoramic intensifcation, narrative crise and intr...
DH101 2013/2014 course 3 - Panoramic intensifcation, narrative crise and intr...DH101 2013/2014 course 3 - Panoramic intensifcation, narrative crise and intr...
DH101 2013/2014 course 3 - Panoramic intensifcation, narrative crise and intr...
 
DH101 2013/2014 course 2
DH101 2013/2014 course 2DH101 2013/2014 course 2
DH101 2013/2014 course 2
 
Edition numérique de Jean-Jacques Rousseau
Edition numérique de Jean-Jacques RousseauEdition numérique de Jean-Jacques Rousseau
Edition numérique de Jean-Jacques Rousseau
 
Les métamorphoses de la valeur
Les métamorphoses de la valeurLes métamorphoses de la valeur
Les métamorphoses de la valeur
 

La question de la langue à l'époque de Google

  • 1. La question de la langue à l’époque de Google Frédéric Kaplan frederic.kaplan@ep!.ch twitter : @frederickaplan
  • 2. Chi"re d’a"aires de Google 40 milliards / an (en $)
  • 3. ... simplement en vendant des mots.
  • 6. 75 000 / min
  • 7. À la #n de cet exposé, Google aura gagné environ 2 millions de dollars.
  • 8. L’histoire de Google tient en deux algorithmes : l’un l’a rendu populaire, l’autre l’a rendu riche.
  • 9. L’un a créé une valeur d’usage, l’autre une valeur d’échange.
  • 10. 1 L’algorithme qui a rendu Google célèbre
  • 13. PageRank L’algorithme qui a permis à Google de devenir la porte d’entrée du web.
  • 14.
  • 15. Brin et Page travaillent sur le Standford Library Technologies Project
  • 16. Comment classer les résultats de recherche pour un mot-clé donné ?
  • 17. Hypothèse Les documents les plus importants sont ceux qui sont le plus cités.
  • 18. Mais certaines citations valent plus que d’autres.
  • 19. Et comment sait-on qu’un document est important ? Par le nombre de citations.
  • 21. La valeur PageRank d’un document est liée au nombre de documents qui le citent et à leur propre valeur PageRank.
  • 22. Le PageRank est aussi la probabilité stationnaire d'une chaîne de Markov.
  • 23. Brin et Page proposent alors une analogie. Le web est un ensemble de documents. Chaque hyperlien correspond à une citation.
  • 24. Dans sa version « pure », Pagerank incarne un certain idéal démocratique. « Dans l’esprit de PageRank ». Dominique Cardon. Exposé Colloque Arc-Info. Nov 2012
  • 25. Mais pour bien fonctionner, il faudrait que personne ne tente d’optimiser ses documents en fonction de l’algorithme.
  • 26. Mais, évidemment, ce n’est pas le cas.
  • 27. Des algorithmes se sont massivement développés pour tromper l’algorithme de classement de Google.
  • 28. Ils optimisent les textes et leurs intertextualités pour arriver en premier dans les résultats de recherche.
  • 30. Mars 2000 : Éclatement de la « Bulle Internet ».
  • 31. Beaucoup de « start-ups » proposant une valeur d’usage, mais pas de valeur d’échange ne résistèrent pas.
  • 32. Google a eu une meilleure idée que de simplement vendre de la publicité.
  • 33. Brin et Page ont réalisé qu’ils accumulaient du capital linguistique grâce au nombre croissant d’utilisateurs qui s’exprimaient au travers de services de Google.
  • 34. Il leur su$sait d’exploiter ce capital.
  • 35. 2 l’algorithme qui a rendu Google riche
  • 36. Un algorithme qui organise automatiquement la spéculation autour des mots a permis de créer le premier marché linguistique mondial.
  • 37. Le marché linguistique existait déjà avant Google. Il était possible depuis longtemps d’acheter certains mots (Trademarks) > cf. C.Fauré commentant Lombardo sur l’origine antique des Trademarks > http://www.christian-faure.net/2012/01/22/les-savoirs-de-lecriture-en-grece- ancienne-3-marchands-transactions-economiques-ecritures/
  • 38. L’algorithme de Google a élargi et en partie libéralisé ce marché.
  • 39. 1 4 2 5 3 6 7 8 9 10
  • 40. Tous les mots peuvent donner lieu à des enchères...
  • 41. L’algorithme classe automatiquement les annonces selon un calcul en quatre étapes.
  • 42. 1. Enchère sur un mot clé (E) Une entreprise choisit un mot ou une expression, par exemple « vacances » et le prix maximum qu’elle serait prête à payer en cas de clic. Google propose une estimation du montant de l’enchère à proposer pour avoir de bonnes chances d’être dans la première page des résultats proposés. Les acheteurs de mots peuvent aussi cibler leur publicité à des dates ou des lieux spéci#ques.
  • 43. 2. Calcul du score de qualité de la publicité (Q) Google donne un score à la publicité sur une échelle de un à dix. Ce score dépend essentiellement de la pertinence du texte de la publicité par rapport à la requête de l’utilisateur, de la qualité de la page vers laquelle la publicité pointe (qualité de son contenu et rapidité de chargement) et du nombre de clics moyen sur la publicité. En gros, ce score mesure à quel point la publicité « fonctionne ». C’est un point essentiel, car Google ne gagne de l’argent que si les internautes choisissent e"ectivement de cliquer sur le lien proposé par la publicité. L’algorithme exact qui produit le score de qualité de la publicité reste secret et modi!able à loisir par Google.
  • 44. 3. Calcul du rang (R) Le Rang est l’Enchère multipliée par le Score. Une publicité ayant un bon score peut ainsi compenser une enchère plus faible et arriver devant. R=E*Q
  • 45. 4. Calcul du prix à payer en cas de clic (P) Le prix que paye une entreprise 1 si un internaute clique sur sa publicité n’est pas le prix de l’enchère, mais le prix de l’enchère 2 juste en dessous de sa propre enchère modulée par la qualité relative entre cette deuxième enchère et celle de l’entreprise. Tout tient dans la formule : P1 = E2 * (Q2 / Q1) où P1 est le prix payé par l’entreprise, E2 est l’enchère la plus haute en dessous de l’enchère de l'entreprise 1, Q1 la qualité de l’enchère 1, Q2 la qualité de l’enchère 2.
  • 46. Ce jeu d’enchères est recalculé pour chaque requête de chaque utilisateur — des millions de fois par seconde
  • 47. Cet algorithme génère 40 de milliards de dollars par an.
  • 48. Le marché linguistique ainsi créé par Google est déjà global et multilingue.
  • 49. La « Bourse des mots » qui lui est associée donne une indication relativement juste des grands mouvements sémantiques mondiaux.
  • 50. ski or sun screen world cup
  • 51. Google a réussi à étendre le domaine du capitalisme à la langue elle-même, à organiser la vente de « mots » à l’échelle planétaire.
  • 52. Ces autres projets et innovations technologiques peuvent être analysés à travers ce prisme.
  • 53.
  • 54. Quand Google corrige à la volée un mot que vous avez mal orthographié, il transforme un matériau sans valeur en une ressource économique potentiellement rentable.
  • 55. Quand Google prolonge une phrase que vous avez commencée à taper, il ramène votre expression dans le domaine de la langue qu’il peut exploiter.
  • 56. la langue vivante la langue exploitable commercialement
  • 60. Nous nous exprimons chaque jour un peu plus au travers d’une des interfaces de Google (GMail, Google Docs, Google+, etc.)
  • 61. Nous sommes déjà des millions chaque jour à écrire et à parler par le biais de Google.
  • 62. Les acteurs du capitalisme linguistique doivent développer des relations linguistiques intimes et durables avec un grand nombre d’utilisateurs, pour pouvoir modéliser et in!échir la langue.
  • 63. Le capitalisme linguistique n’est pas une économie de l’attention.
  • 64. C’est une économie de l’expression.
  • 65. L’objectif n’est tant de capter les regards, mais d’être un médiateur de l’écrit.
  • 66. Économie de l’attention Attention Intention Lieu de la médiation
  • 67. Économie de l’expression Intention Expression Lieu de la médiation
  • 68. Du fait de ces médiations, la langue elle-même risque de se transformer.
  • 69. Première hypothèse (2011) Les technologies du capitalisme linguistique conduiraient à la régularisation de la langue. Plus nous ferons appel aux prothèses linguistiques, laissant les algorithmes corriger et prolonger nos propos, plus cette régularisation serait e$cace.
  • 70. Mais cette régularisation se base essentiellement sur une analyse statistique des écrits de l’Internet. Or beaucoup de ces écrits ne sont pas des ressources pures, ce sont des écrits déjà in!uencés par des algorithmes.
  • 71. Il nous fait donc désormais distinguer deux types de ressources linguistiques : (a) les ressources primaires produites par des humains (conversations orales ou écrites, contenus de livres scannés, etc.) (b) les ressources secondaires produites par des machines en général à partir des ressources primaires (traduction automatique, articles écrits par des algorithmes, spam). 
  • 72. La modi#cation de la syntaxe dans des chaînes de traduction automatique illustre un certain de type de pollution. « La qualité se dégrade petit à petit au fur et à mesure quand on applique des algorithmes de traduction automatique » « Quality degrades gradually as and when we measure applies algorithms to machine translation » « Calidad degrada gradualmente a medida y cuando la medida se aplica algoritmos de traducción automática » « Qualité se dégrade progressivement au fur et à mesure est appliquée algorithmes de traduction automatique »
  • 73. Les distorsions sémantiques introduites par le ‘Text Spinning’ illustrent un autre type de pollution : « Mr. and Mrs. Dursley, of number four, Privet Drive, were proud to say that they were perfectly normal, thank you very much. They were the last people you'd expect to be involved in anything strange or mysterious, because they just didn't hold with such nonsense. » « Mr. but Mrs. Dursley, of number four, Privet Drive, were glad to declare that they were impeccably standard, thanks much. They were the !nal folks you'd look for to be included in whatever or recondite, resulting from the fact that they simply didn't keep with such gibberish. “
  • 74. Malheureusement, sans connaître l’origine d’une production, il n’est souvent pas aisé de distinguer entre ressources primaires ou secondaires.
  • 75. Un humain peut, dans certains cas, faire la di"érence, mais il est di$cile de construire des algorithmes pour faire automatiquement cette distinction.
  • 76. Au fur et à mesure que la quantité de ressources secondaires devient signi#cative par rapport aux ressources primaires, les modèles statistiques peuvent se modi#er pour intégrer le vocabulaire, les formulations et les tournures des algorithmes.
  • 77. Ce sont ces tournures qui risquent de nous être proposées sous la forme de suggestions ou de corrections. 
  • 78. Google voit les ressources secondaires comme un danger, une pollution pour ses modèles.
  • 79. Pour lutter contre cette « pollution » croissante, Google a modi#é en 2011 son service Google Translate. Google a remplacé son service créateur de ressources secondaires en un service de traduction « on demand » qui garde toujours le texte original de la traduction, pour s’en servir pour la recherche et pour potentiellement améliorer progressivement la traduction proposée au fur et à mesure que les algorithmes de traduction progressent.  cf. Kirti Vashee / Analysis of the Shutdown Announcements of the Google Translate API
  • 80. Cela ne su$ra pas. Il faut maintenant compter avec l’écriture des machines et tous les hybrides de ce nouvel ordre linguistique.
  • 81. Sur les 30 meilleurs éditeurs de Wikipedia, les 2/3 sont des bots > R.Stuart Geiger, “The Lives of Bots.” in Wikipedia: A Critical Point of View. 2011 > http://en.wikipedia.org/wiki/Wikipedia:List_of_Wikipedians_by_number_of_recent_edits
  • 82. D’ici deux ans, une proportion signi#cative des messages sur les réseaux sociaux sera peut- être produite par des bots. > Hwang, Pearce and Nanis (2012) Socialbots: voices from the fronts interactions Volume 19 Issue 2, March + April 2012
  • 83.
  • 84. Ainsi, textes humains et algorithmiques se mêlent pour proposer une nouvelle forme d’écriture. Et c’est cette nouvelle écriture que d’autres algorithmes analysent pour ensuite structurer nos propres productions linguistiques.
  • 85. Avec le capitalisme linguistique, la langue elle-même se transforme pour intégrer les biais linguistiques des machines et les contraintes de l’économie linguistique planétaire.
  • 86. Nous assistons peut-être une nouvelle phase de « grammatisation » de la langue, une nouvelle rétroaction de la technologie et de l’économie sur la langue naturelle.
  • 87. Dans un temps intermédiaire apparait quelque chose comme une lingua franca, un pidgin ou un créole, dont la syntaxe et le vocabulaire sont liés aux capacités linguistiques des machines et aux valeurs marchandes des mots.
  • 89. Il me semble primordial d’étudier ces nouveaux phénomènes linguistiques.
  • 90. 1. Modéliser l’évolution de la langue commerciale. Produire les dictionnaires du Googlish et du Bingish.
  • 91. 2. Modéliser les nouveaux dialectes algorithmiques. Construire des algorithmes pour les reconnaitre.
  • 92. 3. Détecter et documenter les phénomènes de créolisation.
  • 93. Cela constitue un axe de nos recherches au DHLAB