Un LLM n'est pas une base de connaissance

Le 27 mai 2025, une courte vidéo publiée par le Service d’information du gouvernement sur Instagram et TikTok entendait commémorer la Résistance. Quelques heures plus tard, elle était supprimée, des historiens et journalistes ayant pointé des erreurs flagrantes, notamment la présence d’un soldat allemand au milieu des scènes de Libération, ainsi qu’un drapeau japonais visible en arrière-plan. Les faits sont publics, la suppression a été confirmée le 28 mai. Ce n’est pas un simple couac de communication, c’est l’illustration d’une confusion tenace, prendre un système génératif pour une base de connaissance.

Ce malentendu ne se limite pas à l’image. Il structure aussi nos usages du texte. Lorsqu’un grand modèle de langage répond avec aisance, nous croyons consulter une bibliothèque fiable. En réalité, nous interrogeons un moteur de langage qui calcule des continuités plausibles, sans exposition native des sources ni des dates. C’est précisément le point que cet article va traiter, non pas la rhétorique de la vraisemblance, déjà abordée dans mon précédent article : Pour les IA, la vérité n’existe pas (lien ici), mais l’ingénierie de la connaissance : provenance, mise à jour, cohérence, interrogeabilité.

Mon objectif est simple, distinguer clairement ce qu’un LLM sait faire, et ce que fait une base de connaissance. Puis montrer comment on les marie correctement dans la pratique contemporaine, en m’appuyant sur deux travaux devenus des références : Petroni et al. (2019) sur la mémoire factuelle implicite des modèles, et Lewis et al. (2020) sur la génération augmentée par recherche (le fameux RAG dont beaucoup parlent et posent en solution miracle), c’est-à-dire l’adjonction d’une mémoire explicite consultable. J’y reviendrai plus loin.

Mémoire paramétrique, mémoire explicite

Avant d’aller plus loin, il faut clarifier de quoi l’on parle. Car derrière le mot « mémoire », on confond souvent deux réalités très différentes. C’est un peu comme si l’on mettait dans le même sac les souvenirs d’un individu et les archives d’une bibliothèque : les deux conservent de l’information, mais pas de la même manière, ni pour les mêmes usages.

Un LLM, c’est avant tout une gigantesque mécanique paramétrique. Son entraînement ajuste des milliards de coefficients pour que, face à une suite de mots, il prédise la continuation la plus probable. Cette « mémoire » est interne, figée dans les paramètres, et elle donne parfois l’illusion d’un savoir encyclopédique.

Mais une base de connaissance ne fonctionne pas ainsi. Elle repose sur des éléments vérifiables : qui dit quoi, à quelle date, dans quel contexte. On peut la mettre à jour, la parcourir, en extraire la source précise. Elle est vivante, révisable, transparente. Exactement l’inverse de la mémoire paramétrique, opaque et statique.

Ce contraste est fondamental. La mémoire paramétrique d’un modèle ressemble à un vaste paysage statistique. Certains faits y sont bien ancrés, comme des sentiers très empruntés qui se tracent d’eux-mêmes, car ils apparaissent souvent dans les données d’entraînement. D’autres, plus rares, se perdent dans les hautes herbes et deviennent difficilement accessibles. Rien ne garantit que le chemin mène au bon endroit, et encore moins qu’il n’y ait pas deux sentiers contradictoires.

La mémoire explicite, elle, est une bibliothèque consultable. Vous y ajoutez un livre, vous en retirez un autre, vous annotez les marges. Elle fonctionne comme une salle d’archives où chaque document est daté, identifié, et où l’on peut revenir en arrière pour vérifier. Si la mémoire paramétrique est un paysage flou gravé dans la roche, la mémoire explicite est un carnet ouvert que l’on peut tenir à jour. C’est elle qui rend possible la mise à jour, la traçabilité, la gouvernance de la connaissance.

C’est précisément ce gouffre entre mémoire paramétrique et mémoire explicite que les chercheurs ont commencé à explorer. Petroni et Al. (2019) ont proposé un test simple mais révélateur : les cloze prompts. L’idée consiste à présenter au modèle une phrase avec un trou à compléter, par exemple « Paris est la capitale de [MASK] ». Un humain y verrait immédiatement « la France ». Le modèle, lui, doit produire le mot manquant à partir de ce qu’il a retenu de son entraînement. Sur certains faits courants, il réussit. Mais dès que l’on s’éloigne des évidences ou que l’on touche des connaissances rares, la performance chute rapidement. Et surtout, le modèle ne peut pas dire où il a appris cette information, ni quand elle était valable. En clair, la mémoire paramétrique sait « réciter », mais elle ne sait pas « citer ».

Le RAG, solution miracle ou rustine nécessaire ?

Face à ces limites, une autre approche a rapidement émergé : la génération augmentée par recherche, ou RAG, décrite par Lewis et Al. (2020).

L’idée est simple en apparence, mais mérite d’être détaillée. Au lieu de se contenter de la mémoire paramétrique du modèle, on lui ouvre un accès à une mémoire externe, une base documentaire interrogeable. Le mécanisme fonctionne en deux temps. D’abord, le système traduit la question de l’utilisateur en une requête, puis il va fouiller dans une collection de textes (par exemple, un index de Wikipédia ou une base interne d’articles scientifiques). Il en extrait les passages les plus pertinents. Ensuite, ces extraits sont insérés directement dans le contexte fourni au modèle, qui peut s’en servir pour formuler sa réponse.

Dit autrement, c’est comme si l’on posait une question à quelqu’un de très éloquent : d’abord, on lui met dans les mains quelques fiches tirées des archives, puis on lui demande d’improviser une réponse en s’appuyant dessus. Le style reste celui du modèle, mais le contenu est désormais enrichi par des documents qu’il n’avait pas en mémoire interne.

Cette double mécanique, recherche puis génération, change beaucoup de choses. Elle permet de mettre à jour le savoir sans réentraîner le modèle, de corriger ou d’ajouter des faits à mesure que la base évolue, et surtout d’établir une traçabilité : on peut indiquer « ce passage s’inspire de tel document ». Mais attention, traçabilité ne rime pas avec fidélité. Même nourri de sources identifiables, le modèle continue de fonctionner par assemblage probabiliste. Il peut déformer, omettre ou réinterpréter les informations qu’on lui fournit. La provenance devient possible, mais la déformation reste probable.

Autrement dit, là où la mémoire paramétrique est close et opaque, le RAG ouvre une fenêtre vers une mémoire explicite et vivante. Mais cette fenêtre reste filtrée par la nature même du système : ce qui en sort n’est jamais la copie conforme de ce qui y entre.

Lewis et Al. ont montré que cette approche améliore nettement les performances sur des tâches dites « knowledge-intensive », celles qui demandent beaucoup de faits précis et variés. Mais ils n’ont jamais prétendu que cela transformait un LLM en base de connaissance à part entière.

C’est une amélioration, oui, mais au prix d’un bricolage : un modèle qui parle toujours par probabilité, mais auquel on a greffé une mémoire externe pour compenser ses trous. Rustine efficace, mais rustine quand même.

D’abord parce qu’il ne change pas la nature profonde du modèle, qui continue de raisonner par probabilité de mots et non par vérification de faits. Cette mécanique privilégie la cohérence formelle plutôt que la vérité. Lorsqu’une réponse est juste, c’est l’effet d’un alignement heureux des probabilités, non celui d’une volonté de vérifier. Et lorsqu’elle est fausse, ce n’est pas un mensonge, mais le fonctionnement ordinaire du système. Vouloir supprimer entièrement ces défaillances reviendrait à exiger de ces systèmes qu’ils soient autre chose que ce qu’ils sont. On peut réduire la fréquence des erreurs, jamais les abolir.

Ensuite parce que la solidité de l’ensemble dépend encore de la qualité du patch collé dessus : si la base documentaire est incomplète ou mal indexée, le modèle générera des réponses lacunaires ou biaisées, simplement habillées de références. Et même avec d’excellentes sources, rien ne garantit que le modèle les interprétera fidèlement.

Enfin parce que la connaissance n’est pas intégrée au cœur du système. Elle reste greffée sur le côté, comme une béquille indispensable mais précaire, qui compense une faiblesse sans jamais la résorber.

Ce que cela change dans la pratique

Si le RAG n’est qu’une rustine, c’est parce qu’il vient combler une faille structurelle : la différence entre mémoire paramétrique et mémoire explicite. Cette distinction n’a rien d’un détail technique. Elle détermine ce qu’un modèle peut réellement faire, et ce qu’il serait dangereux de lui confier.

Tout utilisateur attentif l’a déjà remarqué, ces différences théoriques se traduisent dans l’usage quotidien. On les observe dans trois situations typiques.

La mise à jour. Dans un modèle purement paramétrique, le savoir est figé au moment de l’entraînement. Si une loi change, si une donnée médicale est révisée, si une biographie s’enrichit, rien ne bouge tant que l’on n’a pas réentraîné le modèle, une opération longue, coûteuse et risquée. Avec une mémoire explicite, on met simplement à jour la source, et le modèle peut l’utiliser immédiatement. C’est la différence entre une inscription gravée dans la pierre et une page que l’on corrige dans un dossier.

La provenance. Un discours fluide ne suffit pas dans les domaines sensibles : médecine, droit, éducation, communication publique. Il faut pouvoir dire d’où vient une information, et qui en est l’auteur. Or un LLM ne cite pas ses sources, il les devine statistiquement. Le RAG, lui, permet de rattacher une réponse à un document identifiable. C’est la différence entre écouter une histoire racontée de mémoire et consulter une archive où l’on peut vérifier la signature.

Les cas rares. La mémoire paramétrique favorise les faits fréquents. Plus une information est répandue dans les données d’entraînement, plus elle a de chances de ressortir correctement. Mais dès qu’on entre dans la « longue traîne », des faits peu cités, des détails pointus, des savoirs de niche, la machine trébuche. L’accès à une base documentaire actualisée réduit ce biais de fréquence : le modèle ne se contente plus de ses souvenirs statistiques, il s’appuie sur des textes précis.

Pour explorer des pistes, reformuler un texte ou vulgariser un concept, le modèle seul peut suffire. Mais dès qu’il s’agit d’avancer des faits, d’être très précis dans des domaines pointus, il doit s’appuyer sur une mémoire explicite, vérifiable et actualisée.

Une question à garder en tête

La mésaventure du Service d’information du gouvernement n’était pas qu’un incident visuel. Elle disait quelque chose de plus profond : la tentation de prendre une machine à produire du langage pour une source de savoir.

Un LLM n’est pas une base de connaissance. Il excelle à dérouler des phrases cohérentes, à explorer des idées, à reformuler un contenu. Mais il ne vérifie rien, ne cite pas, ne se met pas à jour par lui-même. Sa mémoire est paramétrique, opaque et figée.

Une base de connaissance, elle, vit de ses ajouts, de ses corrections, de sa traçabilité. Elle ne se contente pas de réciter, elle permet de citer. Elle ne produit pas seulement du discours, elle garantit une gouvernance du savoir.

Confondre les deux, c’est s’exposer à applaudir la fluidité d’un texte en croyant tenir une vérité, ou à commémorer la Résistance avec des drapeaux qui n’y ont jamais flotté.

Reste donc une question pour chacun d’entre nous : que faisons-nous de ces outils ? Les laissons-nous flatter notre besoin de réponses immédiates, au risque de nous contenter d’une cohérence sans vérité, ou choisissons-nous de les utiliser comme leviers pour penser, interroger et vérifier ?