Frédéric Kaplan, nous explique comment l’algorithme de Google « créolise » la langue selon une multitude d’indices : la suggestion d’idiomes parfois même vernaculaires (c’est à dire une langue parlée seulement à l’intérieur d’une communauté, parfois restreinte par opposition à langue véhiculaire), l’invitation à penser en mots clefs et le mélange de notre langage aux textes générés automatiquement.
Rappelons les principes simples de ce second algorithme qui permet de fixer la valeur de chaque mot. Un annonceur fait une enchère sur un mot clé (par exemple “vacances”) en donnant le prix maximum qu’il serait prêt à payer pour un clic. Google donne un score de qualité à la publicité mesurant son efficacité. L’algorithme exact qui produit le score de qualité de la publicité reste secret et modifiable à loisir par Google. Le rang est déterminé par le produit de l’enchère et du score. En cas de clic, l’entreprise paie un prix basé sur l’enchère juste en dessous de sa propre enchère modulé par la qualité relative entre cette deuxième enchère et celle de l’entreprise.
Ce jeu d’enchères a lieu des millions de fois par seconde, à chaque requête d’un utilisateur. Si on considère qu’il constitue la principale source de revenus de Google, nous pouvons estimer qu’il génère un chiffre d’affaires d’environ 40 milliards par an. C’est cette énorme et continuelle source de financement qui permet à Google sa politique de recherche et développement ambitieuse, et notamment l’acquisition de grandes ressources linguistiques constituant un capital de plus en plus vaste. Un projet aussi incroyable que Google Books ne représente annuellement qu’une petite portion de ce chiffre d’affaires (1,5 % selon Alain Jacquesson dans son livre Google Livres et le futur des bibliothèques numériques).
Dans ces conditions, il est pertinent d’analyser les autres services que Google propose au travers de ce prisme. Quand vous tapez le mot “vacen”, le moteur de recherche vous propose en temps réel des complétions qui non seulement corrigent la faute que vous étiez sur le point de commettre, mais également prolongent ces premières lettres par une suite de mots statistiquement probable. En proposant ce service, Google ne fait pas que vous rendre service, il transforme un matériau sans valeur en une ressource économique directement rentable. Un mot mal orthographié est en fait sans valeur économique, car peu de personnes feront des enchères à son sujet, une suite de mots statistiquement probables et souvent recherchés constitue au contraire l’assurance d’une enchère et donc d’un gain immédiat pour Google. Il s’agit pour Google de vous ramener le plus souvent possible dans le domaine de la langue qu’il exploite.