La question de la langue à l'époque de Google

La question de la langue à
l’époque de Google
Frédéric Kaplan

frederic.kaplan@ep!.ch
twitter : @frederickaplan

Chi"re d’a"aires de Google

40 milliards / an
(en $)

... simplement en vendant
des mots.

À la #n de cet exposé,
Google aura gagné environ
2 millions de dollars.

L’histoire de Google tient en
deux algorithmes :
l’un l’a rendu populaire,
l’autre l’a rendu riche.

L’un a créé
une valeur d’usage,
l’autre
une valeur d’échange.

1
L’algorithme qui a rendu
Google célèbre

PageRank
L’algorithme qui a permis à
Google de devenir la porte
d’entrée du web.

Brin et Page travaillent sur le
Standford Library
Technologies Project

Comment classer les
résultats de recherche pour
un mot-clé donné ?

Hypothèse

Les documents les plus
importants sont ceux qui
sont le plus cités.

Mais certaines citations
valent plus que d’autres.

Et comment sait-on qu’un
document est important ?
Par le nombre de citations.

La valeur PageRank d’un
document est liée au nombre
de documents qui le citent et
à leur propre valeur
PageRank.

Le PageRank est aussi la probabilité
stationnaire d'une chaîne de Markov.

Brin et Page proposent alors
une analogie.

Le web est un ensemble de
documents. Chaque
hyperlien correspond à une
citation.

Dans sa version « pure »,
Pagerank incarne un certain
idéal démocratique.

« Dans l’esprit de PageRank ». Dominique Cardon. Exposé Colloque Arc-Info. Nov 2012

Mais pour bien fonctionner, il
faudrait que personne ne
tente d’optimiser ses
documents en fonction de
l’algorithme.

Mais, évidemment, ce n’est
pas le cas.

Des algorithmes se sont
massivement développés
pour tromper l’algorithme de
classement de Google.

Ils optimisent les textes et
leurs intertextualités pour
arriver en premier dans les
résultats de recherche.

Une première guerre
«linguistique » a commencé.

Mars 2000 : Éclatement
de la « Bulle Internet ».

Beaucoup de « start-ups »
proposant une valeur
d’usage, mais pas de valeur
d’échange ne résistèrent
pas.

Google a eu une meilleure idée
que de simplement vendre de
la publicité.

Brin et Page ont réalisé qu’ils
accumulaient du capital
linguistique grâce au nombre
croissant d’utilisateurs qui
s’exprimaient au travers de
services de Google.

Il leur su$sait d’exploiter ce
capital.

2
l’algorithme qui a rendu
Google riche

Un algorithme qui organise
automatiquement la
spéculation autour des mots a
permis de créer le premier
marché linguistique mondial.

Le marché linguistique existait
déjà avant Google.

Il était possible depuis
longtemps d’acheter certains
mots (Trademarks)
> cf. C.Fauré commentant Lombardo sur l’origine antique des Trademarks
> http://www.christian-faure.net/2012/01/22/les-savoirs-de-lecriture-en-grece-
ancienne-3-marchands-transactions-economiques-ecritures/

L’algorithme de Google a
élargi et en partie libéralisé ce
marché.

1
4
2
5
3
6

7
8
9

10

Tous les mots peuvent
donner lieu à des enchères...

L’algorithme classe
automatiquement les
annonces selon un calcul
en quatre étapes.

1. Enchère sur un mot clé (E)

Une entreprise choisit un mot ou une
expression, par exemple « vacances »
et le prix maximum qu’elle serait prête
à payer en cas de clic.
Google propose une estimation du montant de l’enchère à proposer pour avoir de
bonnes chances d’être dans la première page des résultats proposés.

Les acheteurs de mots peuvent aussi cibler leur publicité à des dates ou des lieux
spéci#ques.

2. Calcul du score de qualité de la
publicité (Q)

Google donne un score à la publicité sur
une échelle de un à dix.
Ce score dépend essentiellement de la pertinence du texte de la publicité par rapport à la
requête de l’utilisateur, de la qualité de la page vers laquelle la publicité pointe (qualité de
son contenu et rapidité de chargement) et du nombre de clics moyen sur la publicité. En
gros, ce score mesure à quel point la publicité « fonctionne ».

C’est un point essentiel, car Google ne gagne de l’argent que si les internautes
choisissent e"ectivement de cliquer sur le lien proposé par la publicité.

L’algorithme exact qui produit le score de qualité de la publicité reste secret et
modi!able à loisir par Google.

3. Calcul du rang (R)

Le Rang est l’Enchère multipliée par le
Score. Une publicité ayant un bon score
peut ainsi compenser une enchère plus
faible et arriver devant.

R=E*Q

4. Calcul du prix à payer en cas de
clic (P)

Le prix que paye une entreprise 1 si un
internaute clique sur sa publicité n’est
pas le prix de l’enchère, mais le prix
de l’enchère 2 juste en dessous de sa
propre enchère modulée par la qualité
relative entre cette deuxième enchère
et celle de l’entreprise.
Tout tient dans la formule : P1 = E2 * (Q2 / Q1) où P1 est le prix payé par l’entreprise, E2
est l’enchère la plus haute en dessous de l’enchère de l'entreprise 1, Q1 la qualité de
l’enchère 1, Q2 la qualité de l’enchère 2.

Ce jeu d’enchères est recalculé pour
chaque requête de chaque utilisateur
— des millions de fois par seconde

Cet algorithme génère
40 de milliards de dollars
par an.

Le marché linguistique ainsi
créé par Google est déjà
global et multilingue.

La « Bourse des mots » qui
lui est associée donne une
indication relativement juste
des grands mouvements
sémantiques mondiaux.

ski or

sun screen world cup

Google a réussi à étendre le
domaine du capitalisme à la
langue elle-même, à
organiser la vente
de « mots » à l’échelle
planétaire.

Ces autres projets et
innovations technologiques
peuvent être analysés à
travers ce prisme.

Quand Google corrige à la
volée un mot que vous avez
mal orthographié, il transforme
un matériau sans valeur en une
ressource économique
potentiellement rentable.

Quand Google prolonge une
phrase que vous avez
commencée à taper, il ramène
votre expression dans le
domaine de la langue qu’il peut
exploiter.

la langue vivante

la langue
exploitable
commercialement

Nous nous exprimons chaque
jour un peu plus au travers d’une
des interfaces de Google (GMail,
Google Docs, Google+, etc.)

Nous sommes déjà des
millions chaque jour à écrire
et à parler par le biais de
Google.

Les acteurs du capitalisme
linguistique doivent
développer des relations
linguistiques intimes et
durables avec un grand
nombre d’utilisateurs, pour
pouvoir modéliser et in!échir
la langue.

Le capitalisme linguistique
n’est pas une économie de
l’attention.

C’est une économie de
l’expression.

L’objectif n’est tant de
capter les regards, mais
d’être un médiateur de
l’écrit.

Économie de l’attention

Attention Intention

Lieu de la médiation

Économie de l’expression

Intention Expression

Lieu de la médiation

Du fait de ces médiations, la
langue elle-même risque de se
transformer.

Première hypothèse (2011)

Les technologies du capitalisme linguistique
conduiraient à la régularisation de la
langue.

Plus nous ferons appel aux prothèses
linguistiques, laissant les algorithmes
corriger et prolonger nos propos, plus cette
régularisation serait e$cace.

Mais cette régularisation se base
essentiellement sur une analyse statistique
des écrits de l’Internet. Or beaucoup de ces
écrits ne sont pas des ressources pures, ce
sont des écrits déjà in!uencés par des
algorithmes.

Il nous fait donc désormais distinguer deux
types de ressources linguistiques :

(a) les ressources primaires produites par des
humains (conversations orales ou écrites,
contenus de livres scannés, etc.)

(b) les ressources secondaires produites par
des machines en général à partir des
ressources primaires (traduction automatique,
articles écrits par des algorithmes, spam).

La modi#cation de la syntaxe dans des
chaînes de traduction automatique illustre un
certain de type de pollution.
« La qualité se dégrade petit à petit au fur et à mesure
quand on applique des algorithmes de traduction
automatique »

« Quality degrades gradually as and when we measure
applies algorithms to machine translation »

« Calidad degrada gradualmente a medida y cuando la
medida se aplica algoritmos de traducción automática »

« Qualité se dégrade progressivement au fur et à mesure
est appliquée algorithmes de traduction automatique »

Les distorsions sémantiques introduites par le
‘Text Spinning’ illustrent un autre type de
pollution :

« Mr. and Mrs. Dursley, of number four, Privet Drive, were
proud to say that they were perfectly normal, thank you
very much. They were the last people you'd expect to be
involved in anything strange or mysterious, because they
just didn't hold with such nonsense. »

« Mr. but Mrs. Dursley, of number four, Privet Drive, were
glad to declare that they were impeccably standard,
thanks much. They were the !nal folks you'd look for to be
included in whatever or recondite, resulting from the fact
that they simply didn't keep with such gibberish. “

Malheureusement, sans
connaître l’origine d’une
production, il n’est souvent
pas aisé de distinguer entre
ressources primaires ou
secondaires.

Un humain peut, dans certains
cas, faire la di"érence, mais il
est di$cile de construire des
algorithmes pour faire
automatiquement cette
distinction.

Au fur et à mesure que la quantité de
ressources secondaires devient signi#cative
par rapport aux ressources primaires, les
modèles statistiques peuvent se modi#er pour
intégrer le vocabulaire, les formulations et
les tournures des algorithmes.

Ce sont ces tournures qui
risquent de nous être
proposées sous la forme de
suggestions ou de corrections.

Google voit les ressources
secondaires comme un danger,
une pollution pour ses
modèles.

Pour lutter contre cette « pollution »
croissante, Google a modi#é en 2011 son
service Google Translate.

Google a remplacé son service créateur de ressources
secondaires en un service de traduction « on demand » qui
garde toujours le texte original de la traduction, pour s’en
servir pour la recherche et pour potentiellement améliorer
progressivement la traduction proposée au fur et à mesure que
les algorithmes de traduction progressent.

cf. Kirti Vashee / Analysis of the Shutdown Announcements of the Google Translate API

Cela ne su$ra pas.

Il faut maintenant compter avec l’écriture des
machines et tous les hybrides de ce nouvel
ordre linguistique.

Sur les 30 meilleurs éditeurs de
Wikipedia, les 2/3 sont des
bots

> R.Stuart Geiger, “The Lives of Bots.” in Wikipedia: A Critical Point of View. 2011
> http://en.wikipedia.org/wiki/Wikipedia:List_of_Wikipedians_by_number_of_recent_edits

D’ici deux ans, une proportion
signi#cative des messages sur
les réseaux sociaux sera peut-
être produite par des bots.

> Hwang, Pearce and Nanis (2012) Socialbots: voices from the fronts interactions Volume 19
Issue 2, March + April 2012

Ainsi, textes humains et
algorithmiques se mêlent pour
proposer une nouvelle forme
d’écriture. Et c’est cette nouvelle
écriture que d’autres algorithmes
analysent pour ensuite structurer
nos propres productions
linguistiques.

Avec le capitalisme linguistique,
la langue elle-même se
transforme pour intégrer les biais
linguistiques des machines et
les contraintes de l’économie
linguistique planétaire.

Nous assistons peut-être une
nouvelle phase de
« grammatisation » de la
langue, une nouvelle rétroaction
de la technologie et de
l’économie sur la langue naturelle.

Dans un temps intermédiaire
apparait quelque chose comme
une lingua franca, un pidgin ou
un créole, dont la syntaxe et le
vocabulaire sont liés aux capacités
linguistiques des machines et aux
valeurs marchandes des mots.

Il me semble primordial
d’étudier ces nouveaux
phénomènes linguistiques.

1. Modéliser l’évolution de la
langue commerciale. Produire
les dictionnaires du Googlish
et du Bingish.

2. Modéliser les nouveaux
dialectes algorithmiques.
Construire des algorithmes
pour les reconnaitre.

3. Détecter et documenter les
phénomènes de créolisation.

Cela constitue un axe de nos
recherches au DHLAB

frederic.kaplan@ep!.ch
twitter:@frederickaplan

La question de la langue à l'époque de Google

Recommandé

Recommandé

Contenu connexe

En vedette

En vedette (20)

Similaire à La question de la langue à l'époque de Google

Similaire à La question de la langue à l'époque de Google (20)

Plus de Frederic Kaplan

Plus de Frederic Kaplan (18)

La question de la langue à l'époque de Google