HackAtari, le test qui révèle que nos IA ne comprennent rien

NOTE : *L’étude « Deep Reinforcement Learning Agents are not even close to Human Intelligence » (https://arxiv.org/pdf/2505.21731) de Quentin Delfosse et al. (2025) constitue, à mon sens, un jalon essentiel dans notre compréhension de l’intelligence artificielle. Je connais Quentin personnellement, et j’apprécie tout autant la rigueur de ses travaux que la finesse de son regard sur l’IA. Cette publication nous rappelle que le véritable défi n’est pas de battre l’humain, mais de le comprendre.

Le génie de faire l’inverse

Quentin Delfosse et Jannis Blüml, deux jeunes chercheurs de l’Université technique de Darmstadt, ont eu une idée brillante. Plutôt que de suivre la tendance habituelle qui consiste à complexifier les défis pour tester l’IA, ils ont fait exactement l’inverse. Ils ont pris des agents d’IA qui dominent les jeux Atari (ces systèmes capables de performances surhumaines sur Pong, Space Invaders ou Ms. Pac-Man) et leur ont fait passer un test inhabituel : jouer à des versions plus faciles de ces mêmes jeux.

Le résultat ? Un effondrement total. Ces IA « géniales » deviennent soudainement incompétentes dès qu’on allège la difficulté.

Cette approche contre-intuitive révèle une vérité dérangeante sur nos IA. Delfosse et Blüml ont créé HackAtari, une collection de plus de 224 variations de jeux Atari classiques, principalement des simplifications. L’innovation technique est remarquable : en manipulant directement la mémoire vive (RAM) des jeux en temps réel, ils peuvent modifier n’importe quel aspect sans toucher au code source propriétaire.

Les changements apportés sembleraient triviaux pour un humain. Dans Pong, l’adversaire devient « paresseux » et reste immobile après avoir renvoyé la balle. Dans Freeway, toutes les voitures s’arrêtent, transformant la traversée périlleuse en promenade de santé. Dans Kangaroo, les singes et noix de coco dangereux disparaissent purement et simplement.

Ces modifications ne représentent aucun piège, elles rendent objectivement les jeux plus accessibles. Et pourtant… Ce qui aurait pu n’être qu’un clin d’œil expérimental s’est transformé en constat accablant. Car lorsque ces variantes simplifiées sont mises à l’épreuve, la façade de l’intelligence s’effondre.

L’effondrement spectaculaire des « champions »

Les résultats sont sans appel. Tous les agents testés s’effondrent, quelle que soit leur sophistication. Que ce soit DQN (Deep Q-Networks, l’algorithme pionnier qui a révolutionné l’IA sur Atari), PPO (Proximal Policy Optimization, une méthode d’optimisation de politique très populaire), ou C51 (un algorithme qui modélise les distributions de récompenses plutôt que leur simple moyenne), tous subissent des chutes de performance dramatiques de 50% ou plus.

IMPALA se distingue légèrement en maintenant des performances « surhumaines » en moyenne, cet algorithme distribué est conçu pour l’entraînement à grande échelle, mais cette apparente robustesse masque une réalité plus nuancée : même cet agent subit des chutes de plus de 50% sur 10 jeux sur 15.

Le cas de Pong illustre parfaitement le problème. L’agent semble suivre la balle parfaitement, mais en réalité il exploite des corrélations cachées que HackAtari révèle. Une fois ces raccourcis perturbés, l’agent devient soudainement aveugle.

Même les approches sophistiquées échouent. Les chercheurs ont testé des agents « object-centric » (des IA censées raisonner en termes d’objets plutôt qu’en pixels bruts). Ces systèmes plus avancés résistent légèrement mieux, mais tous échouent encore sur les modifications de gameplay essentielles.

Mais pour être sûrs que ces chutes ne proviennent pas d’une difficulté accrue ou d’une bizarrerie du test, les chercheurs ont eu une idée simple et redoutable : comparer les IA… à des humains.

Humains vs Machines

Pour valider que leurs modifications constituaient bien des simplifications, les chercheurs ont mené une étude rigoureuse avec 128 participants. Chaque participant a d’abord appris à jouer au jeu original (10-15 minutes), puis a été évalué sur la version standard (15 minutes) et enfin sur la version modifiée (15 minutes).

Les résultats humains sont époustouflants. Sur 13 des 15 jeux testés, les participants maintiennent ou améliorent leurs performances sur les versions simplifiées : +957% d’amélioration moyenne sur Asterix, +1658% sur Kangaroo quand les dangers disparaissent, +1013% sur Riverraid avec tir restreint, +472% sur Freeway avec voitures arrêtées.

Cette capacité d’adaptation révèle ce qui nous distingue fondamentalement : nous comprenons l’intention du jeu, là où les machines n’ont mémorisé que sa surface.

Si les humains s’adaptent là où les IA s’effondrent, c’est qu’il ne s’agit pas d’un simple problème de difficulté, mais d’un biais d’apprentissage plus profond… Une faille structurelle que cette expérience met en lumière.

Mais comment expliquer cet écart saisissant entre l’adaptabilité humaine et la rigidité des machines ? La réponse se trouve dans la façon même dont nos IA apprennent.

L’apprentissage par raccourcis ou la mécanique de l’échec

Ce que révèle HackAtari, c’est que nos IA « intelligentes » sont en réalité des machines à exploiter des corrélations superficielles. Elles repèrent des régularités dans leur environnement d’entraînement, un mouvement, une couleur, la position d’un objet, et s’y accrochent comme à des béquilles cognitives.

Ce phénomène, baptisé « shortcut learning » par les chercheurs, n’est pas limité aux jeux vidéo. En vision par ordinateur, des réseaux peuvent classer des images de loups versus chiens en se basant uniquement sur la présence de neige, sans jamais « voir » l’animal.

C’est la différence fondamentale entre « jouer bien » et « comprendre pourquoi on joue bien« . Nos IA excellent dans le premier, échouent lamentablement dans le second.

Cette recherche ébranle une croyance fondamentale du domaine : que l’égalité de performance implique l’égalité d’intelligence. Comme l’écrivent les auteurs, « achieving human-level performance in training settings does not imply human-like reasoning capabilities.«

Les métriques traditionnelles (scores moyens, performances surhumaines) masquent cette fragilité. Un agent peut dominer un environnement tout en étant incapable de s’adapter à sa version simplifiée.

Cette découverte soulève des questions inquiétantes pour tous les domaines où l’IA est déployée :

Voitures autonomes : Si une IA de conduite a appris à reconnaître les panneaux stop en se basant sur des corrélations superficielles (la couleur rouge, par exemple), que se passe-t-il quand elle rencontre un panneau décoloré par le soleil ou partiellement masqué ? Le véhicule pourrait perdre ses repères dans des situations pourtant plus simples que son entraînement initial. L’agent pourrait avoir mémorisé des milliers de scénarios de conduite sans jamais vraiment « comprendre » les règles de circulation
Diagnostic médical : Une IA médicale pourrait atteindre des performances impressionnantes en se concentrant sur des détails non pertinents des images médicales (qualité de l’éclairage, type de scanner utilisé) plutôt que sur les véritables indicateurs pathologiques. Face à des images acquises dans des conditions légèrement différentes, même plus claires, elle pourrait complètement échouer dans son diagnostic.
Systèmes critiques : Dans les domaines sensibles comme la finance, la sécurité ou l’énergie, nos IA pourraient s’appuyer sur des corrélations fragiles qui semblent robustes en temps normal mais s’effondrent dès que les conditions changent, même de manière favorable. Un système de détection de fraude pourrait par exemple se baser sur des détails techniques irrelevants plutôt que sur les véritables patterns frauduleux.

Le problème fondamental est que nous déployons ces systèmes en supposant qu’ils ont « compris » leur tâche, alors qu’ils n’ont fait que mémoriser des solutions locales à des problèmes spécifiques. Cette différence n’est pas qu’académique, elle est potentiellement dangereuse.

Les pistes vers une IA vraiment intelligente

Delfosse et Blüml identifient plusieurs directions prometteuses, toutes inspirées par notre intelligence naturelle. Plutôt que de continuer à améliorer la puissance brute de calcul, il faut repenser fondamentalement l’architecture de nos IA :

Voir le monde en « objets » plutôt qu’en pixels : Forcer les agents à raisonner en termes d’objets et relations. Quand vous regardez Pac-Man, vous ne voyez pas 21 168 pixels colorés mais Pac-Man (objet rond jaune), des fantômes (objets mobiles colorés), des murs (objets statiques). Cette décomposition naturelle vous permet de comprendre instantanément les règles du jeu.
Comprendre le « pourquoi » plutôt que le « quoi » : Intégrer la compréhension des relations cause-effet. Dans Frogger, un humain comprend intuitivement : « Si je touche une voiture, je meurs PARCE QUE les voitures sont dangereuses. » Un agent traditionnel apprend seulement : « Quand ces pixels se superposent, la récompense devient négative. »
Construire des compétences modulaires réutilisables : Développer des sous-compétences qui se transfèrent d’un contexte à l’autre. Quand vous apprenez un nouveau jeu de plateforme, vous réutilisez automatiquement des compétences acquises comme « sauter par-dessus les obstacles », « éviter les ennemis », « collecter les bonus ».
Exploiter la puissance des grands modèles de langage : Une piste particulièrement prometteuse consiste à utiliser les LLM pour générer des représentations symboliques à partir d’entrées visuelles. Ces modèles excellent à manipuler des concepts abstraits et à raisonner sur des relations causales, exactement ce qui manque aux agents actuels.

L’idée serait de créer des agents hybrides. Imaginons un système qui utiliserait un LLM pour « décrire » une scène de Pong : « Il y a une balle qui se déplace vers la droite, un adversaire en haut qui vient de renvoyer la balle, et ma raquette en bas à gauche. » Quand l’adversaire devient « paresseux », la description change naturellement, et le LLM comprend intuitivement que cette situation est plus simple.

Arrêtons de surinterpréter les capacités des IA

Cette recherche nous rappelle combien il est facile de surinterpréter les capacités de nos IA. C’est un biais profondément humain : face à un comportement qui semble intelligent, nous projetons automatiquement nos propres processus cognitifs.

Prenons l’exemple de Pong plus en détail. Nous voyons l’agent suivre parfaitement la balle et nous lui attribuons une compréhension de la physique. Mais HackAtari révèle la supercherie : l’agent n’a jamais « vu » la balle, il a découvert que la position de l’adversaire corrèle avec sa future position. Une corrélation utile, mais pas une compréhension. Quand l’ennemi devient paresseux dans HackAtari, ce raccourci ne fonctionne plus et l’agent devient aveugle.

C’est comme si nous observions quelqu’un « prédire » la météo en regardant les fourmis. Tant que les fourmis sont un bon indicateur, la prédiction fonctionne parfaitement. Mais dès qu’on déplace les fourmis ou qu’on change leur comportement, notre « météorologue » devient aveugle. Il n’a jamais compris les nuages, la pression atmosphérique, ou les systèmes météorologiques.

Cette illusion cognitive a des racines profondes. Nous sommes des êtres sociaux, programmés pour détecter l’intention et la compréhension chez autrui. Quand nous voyons un comportement complexe et adaptatif, notre cerveau active automatiquement ce que les psychologues appellent la « théorie de l’esprit », cette capacité à attribuer des états mentaux aux autres.

Mais les IA d’aujourd’hui n’ont pas d’états mentaux au sens où nous l’entendons. Elles ont des poids synaptiques, des fonctions de perte, des gradients. La réalité est plus prosaïque et plus fascinante à la fois : elles exploitent des régularités statistiques avec une efficacité redoutable, sans jamais construire de modèle mental du monde.

L’agent de Space Invaders qui semble « stratégiquement » éviter les projectiles ennemis ne planifie pas vraiment. Il a appris que certains patterns de pixels corrèlent avec des récompenses négatives. L’agent de Pac-Man qui « comprend » qu’il faut éviter les fantômes n’a pas de concept de danger, il optimise une fonction mathématique complexe qui encode indirectement cette notion.

Cette distinction n’est pas qu’académique. Elle explique pourquoi ces mêmes agents, si brillants dans leur environnement d’origine, deviennent soudainement incompétents face aux modifications HackAtari. Ils n’ont jamais vraiment compris les règles, ils ont mémorisé des solutions locales à des problèmes spécifiques.

L’IA cet élève qui récite sans comprendre

Imaginez un élève en classe. Il récite parfaitement sa leçon de physique : formules, définitions, exemples. Tout est là, bien rangé, appris par cœur. L’enseignant, impressionné, le félicite. Sur le papier, il coche toutes les cases de la réussite.

Mais un jour, on lui pose une question un peu différente. Pas plus difficile, juste décalée : « Si la lune disparaissait soudainement, que se passerait-il pour les marées ? » Et là, le silence. Le regard vide. Le cerveau qui patine.

Car il n’a jamais compris. Il a mémorisé les mots sans les relier, empilé des faits sans en saisir le sens. Il répond bien tant que la question est conforme à ce qu’il a appris. Mais dès qu’on change légèrement le contexte, il s’effondre.

C’est exactement ce que met en évidence HackAtari avec nos intelligences artificielles. Elles aussi ont réussi l’examen standard. Elles ont appris à briller dans des environnements calibrés, répétitifs, où il suffit de trouver un raccourci. Mais quand on simplifie la tâche, quand on la reformule, elles perdent pied. Non pas parce que c’est plus dur, mais parce qu’elles n’avaient jamais compris en profondeur.

HackAtari, c’est un test de vérité. Une manière de demander à nos IA : « Explique-moi ce que tu fais, mais sans les antisèches. »

Et comme l’élève qui a triché avec des réponses toutes faites, elles se retrouvent nues, démunies, démasquées.

Ce fil rouge permet de suivre, tout au long de l’article, une comparaison familière et parlante. Il donne corps à l’idée que la véritable intelligence ne se mesure pas à la performance brute, mais à la capacité à transférer, à comprendre, à s’adapter. Comme un bon élève, pas celui qui récite, mais celui qui pense.

Le test de Feynman pour l’IA

C’est exactement ce que Richard Feynman avait compris, bien avant les machines. Il disait : « Si vous ne pouvez pas l’expliquer simplement, c’est que vous ne l’avez pas vraiment compris. »

HackAtari applique ce principe aux IA. Et le verdict est sans appel : si elles ne peuvent pas s’adapter à une version simplifiée d’un jeu, c’est qu’elles n’ont jamais vraiment compris ce qu’elles faisaient.

Comme l’élève brillant qui sèche devant une question un peu décalée, nos IA révèlent ici leurs limites. Elles ont optimisé des stratégies, repéré des corrélations utiles, mais sans jamais construire une représentation mentale de la tâche. Elles jouent juste — tant que le jeu ne change pas.

C’est une leçon précieuse : atteindre une performance élevée ne prouve rien sur la compréhension. Ce n’est qu’un indicateur, parfois trompeur. Et HackAtari agit comme un révélateur de ces illusions.

Ce que HackAtari révèle vraiment

HackAtari ne teste pas seulement des machines, il agit comme un bon professeur. Celui qui, au lieu de se contenter d’un devoir bien récité, pose une question un peu de travers. Une question qui oblige à penser, pas à répéter.

Et là, comme cet élève modèle qui perd ses moyens dès qu’on sort du script, nos IA se figent. Non pas parce qu’on a rendu la tâche plus difficile, mais parce qu’on en a changé la forme. Et que leur savoir, en réalité, n’en était pas un. Elles avaient appris à répondre juste, pas à comprendre pourquoi.

C’est cela que révèle HackAtari : ce fossé invisible entre la performance et la compréhension. Il ne suffit pas de « gagner » pour être intelligent. Il faut pouvoir s’adapter, raisonner, se décaler.

Alors, si nous voulons bâtir des intelligences artificielles dignes de ce nom, il faudra leur enseigner autrement. Et surtout, leur poser de meilleures questions.

Pas celles du programme. Celles d’après.