Post

Comment les IA génératives grand public influencent le langage des publications académiques

Comment les IA génératives grand public influencent   le langage des publications académiques

Source: The Conversation – France (in French) – By François Rastier, Directeur de recherche, Centre national de la recherche scientifique (CNRS)

L’usage des Large Language Model (LLM) d’IA s’est répandu dans le monde académique. À quel prix ? Hamonazaryan1/Pixabay, CC BY

Le langage des intelligences artificielles, IA, génératives reste encore peu étudié, mais l’on peut déjà observer « à l’œil nu » des conséquences inattendues de l’usage de ces IA sur les discours scientifiques et académiques.


Si l’intelligence artificielle (IA) générative imite le langage humain, son usage croissant et souvent quotidien conduit à rendre cette imitation réciproque. Ainsi, une étude de chercheurs du Max-Planck Institute; parue en juillet 2025, en analysant un corpus de 740 000 heures d’exposés académiques, de vidéos YouTube et de podcasts a décelé, entre 2017 et 2024, un usage croissant de mots privilégiés par les chatbots, comme « delve », « comprehend », « boast », « swift » et « meticulous » (approfondir, comprendre, se vanter, rapide et méticuleux).

Il reste difficile de démêler influence et substitution : les corpus oraux étudiés peuvent ne s’appuyer qu’en partie sur des textes générés par IA. En tout état de cause, l’apparition croissante de ces mots affecte les discours relevant de la technologie, du business et de l’éducation – mais non ceux qui traitent de religion ou de sport ; il ne s’agit donc pas d’une évolution générale de la langue, car ce processus affecte les domaines où l’IA est la plus utilisée.

Dans le domaine académique, l’influence de l’IA générative peut aller jusqu’à la substitution. Consacré à la détection de la fraude scientifique, le site Academ-AI liste, par centaines, les articles, communications et chapitres de livres qui contiennent des formules caractéristiques des IA génératives, comme « selon ma dernière mise à jour ». En voici quelques-unes :

« Veuillez fournir plus d’informations… »

« Absolument ! Voici quelques points supplémentaires qui peuvent être abordés dans l’article scientifique. »

« Je m’excuse pour la confusion, mais en tant que modèle de langage IA, je n’ai pas accès à des articles spécifiques. »

« À la date de ma dernière mise à jour (septembre 2021), je ne disposais d’aucune information. »

La confiance dans l’IA est telle que les auteurs n’ont pas pris la peine de relire les articles qu’ils ont signés. Peu importe au demeurant, si les rédactions des revues s’en sont aussi dispensées. Cette nonchalance est d’autant moins anecdotique qu’avant publication des éditeurs commencent à réécrire par IA les manuscrits qui leur sont soumis.

Cela n’est pas sans conséquence. Par exemple, quand des chercheurs ont demandé à ChatGPT5 de « polir » (« please polish ») le premier paragraphe de l’article fondateur de Turing « Computing Machinery and Intelligence » (1950). Là où Turing, pour répondre à la question « Can machines think? », rejette comme dangereuse (« dangerous ») l’idée de s’en remettre au sens usuel de « machine » et de « think », le chatbot remplace « dangerous » par un simple « risky » (risqué), passant de l’affirmé et de l’avéré au possible.

Une banalisation du langage

Les algorithmes des IA génératives ne sont pas déterministes, mais probabilistes, et privilégient donc ce qui est le plus fréquent dans leur corpus d’apprentissage.

Ce choix entraîne deux conséquences majeures. D’une part, les mots rares dans ce corpus (mais qui peuvent être endémiques dans des corpus spécialisés) se raréfient encore, voire disparaissent. Et il en résulte une restriction du dicible – voire du pensable, selon le principe énoncé par Winston, le commissaire politique du roman 1984 de George Orwell (« Ne voyez-vous pas que le véritable but du novlangue est de restreindre les limites de la pensée ? À la fin, nous rendrons littéralement impossible le crime par la pensée, car il n’y aura plus de mots pour l’exprimer. »)

D’autre part, comme la génération de texte s’opère par le calcul des probabilités d’occurrence contextuelle, pour chaque mot, les mots qui voisinent le plus fréquemment dans ses contextes d’emploi se voient privilégiés. Dès lors, les phraséologies, les expressions toutes faites et les clichés envahissent le discours, avec le conformisme qu’elles concrétisent – et radicalisent.

De longue date, les fréquences lexicales ont été étudiées en linguistique de corpus. On ne retient pas les fréquences les plus élevées, car elles intéressent pour l’essentiel les mots grammaticaux, et comme elles restent analogues en tout corpus, elles ne sont pas caractérisantes. Généralement, on s’appuie sur les mots de fréquence moyenne, pour différencier des textes ou des sous-corpus.

Cependant, et bien qu’ils soient le plus souvent négligés faute de poids statistique, les mots de faible fréquence sont très caractérisants et même individualisants : tel hapax, comme « ptyx », renverra uniquement à un sonnet célèbre de Mallarmé. Au-delà, on oublie les mots de fréquence zéro. Or, ces mots absents, que l’on peut inventorier en contrastant des textes ou des sous-corpus, restent hautement révélateurs, car un discours ne signifie pas moins par ce qu’il énonce que par ce qu’il tait, même s’il use d’une langue stéréotypée.

Or, les IA décrivent un monde de ce qui est (ou du moins devrait être) conforme à leurs biais. Ce positivisme paradoxal, qui crée le monde auquel il prétend référer, ne laisse aucune place à l’implicite et reste cependant réputé permettre un discours de connaissance.

La disparition de l’implicite découle d’une loi de moindre effort : l’utilisateur n’a pas à interpréter les discours de son IA, il lui suffit de les écouter ou de les déchiffrer pour les comprendre. Il n’a jamais à établir une distance critique pour en juger, et cette facilité obéit aux principes de la relation client : un langage simplifié et univoque devrait contribuer à son confort et entretenir la connaissance du connu.

De moins en moins de termes spécifiques

Relevons enfin une dernière forme d’adultération (falsficiation) du discours scientifique et technique : la multiplication des termes qui ne sont pas spécifiques au domaine considéré. Or, dans certaines disciplines le rapport entre termes spécifiques et termes généraux s’est soudain inversé, en deux ans à peine.

La proportion des termes non spécifiques diminue drastiquement et ils l’emportent désormais sur les termes pertinents. Cela s’accorde avec le projet d’une IA dite générale, qui pourrait bien favoriser les généralités. Elle multiplie du moins des termes passe-partout et donc fréquemment employés – sauf quand on a quelque chose de précis à dire. Ainsi, des termes favorisés par ChatGPT, comme « delves », « showcasing », ou « underscores » (explore, présentant, souligne), ont vu leur fréquence s’accroître.

En 2023, première année d’usage de ChatGPT, le nombre des mots non spécifiques, jusqu’alors faible, a triplé par rapport à 2022, pour représenter la moitié des occurrences, mais l’année suivante, ils furent multipliés par huit.

Une hypothèse charitable voudrait que ce soit par mimétisme – à moins que ce même logiciel n’ait été un rédacteur clandestin, ce que semble attester la multiplication des « hallucitations », terme maintenant convenu pour désigner les citations « hallucinantes » forgées par les chatbots.

Parallèlement, les évaluations des revues scientifiques ont connu des dérives lexicales analogues, et par exemple des adjectifs comme « commendable », « meticulous », ou « intricate » (louable, méticuleux, complexe), ont vu leur fréquence augmenter dramatiquement, soit respectivement pour la seule année 2024, de 9,8 fois, 34,7 fois, et 11,2 fois.

Un cycle se dessine : certains appels d’offres semblent déjà générés avec l’aide de l’IA ; puis les projets soumis sont évalués de même (ils l’étaient déjà auparavant par la détection automatisée de répétitions de mots-clés). Des articles financés par ces projets de recherche sont ensuite produits, puis évalués par les revues scientifiques au moyen des mêmes logiciels. On peut douter que ces multiples médiations et les biais qu’elles introduisent favorisent les découvertes scientifiques et les innovations techniques.

Standardisation lexicale et tonalité euphorisante

On manque encore d’études comparatives d’ampleur sur l’incidence linguistique de l’IA. Toutefois, en évaluant l’évolution de l’Internet d’août 2022, tel qu’il est consigné alors dans l’Internet Archive, et celui de mai 2025, et en identifiant les textes générés par IA au moyen du logiciel Pangram v3, Jonas Dolezal et ses collègues de Stanford ont montré qu’en 33 mois seulement, 35 % des sites ont été générés automatiquement.

En outre, selon une autre étude, 36 % des sites restants en portent des traces. Si ces chiffres peuvent être relativisés en tenant compte des faux négatifs et positifs, les résultats restent solides et Dolezal et ses collègues ont dégagé deux tendances lourdes.

Ils ont souligné, en premier lieu, la chute de la diversité linguistique et notamment la standardisation lexicale. C’est là sans doute une rançon inévitable de l’industrialisation en cours – et, en persiflant un peu, cela rapprocherait le langage de l’IA de cette critique, formulée voici presque deux siècles, par Alexis de Tocqueville, contre le langage administratif de l’Ancien Régime :

« Le style est également décoloré, coulant, vague et mou. La physionomie particulière de chaque écrivain s’y efface et va se perdant dans une médiocrité commune. »

Ils ont également noté la prévalence d’une tonalité euphorisante, évaluée par des méthodes classiques d’analyse des émotions, qui reflète sans doute les biais algorithmiques qui flattent et retiennent le client roi. Annoncé de longue date par le triomphe américain de la méthode Coué et la positivité prescrite par le secteur du développement personnel, l’optimisme généralisé se trouve à présent prescrit et renouvelé par l’idéologie de la tech – en deçà même de la désinformation.

Un indice ne trompe pas : un ami a fait discuter entre eux quatre chatbots, et au bout de dix minutes, ils se couvraient réciproquement de flagorneries. Un univers de discours dystopique se profile ainsi, avec une standardisation du langage (et donc de la pensée), et un effacement des contradictions de la vie sociale par un optimisme industrialisé.

François Rastier ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d’une organisation qui pourrait tirer profit de cet article, et n’a déclaré aucune autre affiliation que son organisme de recherche.

ref. Comment les IA génératives grand public influencent le langage des publications académiques – https://theconversation.com/comment-les-ia-generatives-grand-public-influencent-le-langage-des-publications-academiques-281586

MIL OSI – Global Reports