top of page

The illusion of thinking

  • Photo du rédacteur: Olivier Mégean
    Olivier Mégean
  • 1 juil.
  • 2 min de lecture

Une étude d’Apple, publiée le 9 juin 2025, révèle des failles majeures dans les « large reasoning models » (LRMs), des IA avancées conçues pour résoudre des problèmes complexes via des chaînes de raisonnement. Alors que l’industrie mise sur une montée en puissance de ces systèmes pour atteindre une IA générale, ces résultats semblent (totalement) remettre en cause cette trajectoire.

 

L’étude, intitulée The Illusion of Thinking, explore les limites du raisonnement automatique à travers des énigmes classiques : la Tour de Hanoï, les problèmes de traversée de rivière, etc. Apple propose un environnement de puzzles dont la complexité est contrôlable pour observer non seulement les réponses, mais aussi les traces de raisonnement. Ces environnements permettent de moduler précisément la complexité des tâches, sans contamination par des données existantes : on peut observer non seulement la solution finale mais aussi les étapes internes de raisonnement.

 

Les tests ont couvert les principaux LRMs de l’industrie : OpenAI o3, Google Gemini Thinking, Anthropic Claude 3.7 Sonnet‑Thinking, DeepSeek‑R1

 

 

L’étude a mis en avant trois enseignements majeurs :

 

1.     Un LRM offre un avantage temporaire, pour un effondrement inévitable

 

·       Pour des tâches simples, les LRMs surpassent les IA standards.

·       Pour des tâches difficiles, tous les modèles échouent complètement, atteignant un « complete accuracy collapse » comme le décrit également cette étude de Cornwell université.

·       Plus le niveau de difficulté augmente, plus la précision s’effondre … parfois jusqu’à 0 % !

 

2.     Une sorte de « fénéantise » de l’algorithme

 

Encore plus étonnant ! Les chercheurs ont observé que, face à des tâches plus complexes, les modèles réduisent leur effort de raisonnement (moins de tokens utilisés). Cela suggère une forme de découragement algorithmique.

 

3.     Un mécanisme d’« overthinking » (surchauffe)

 

Sur des tâches moyennes, les modèles continuent à explorer des pistes incorrectes même après avoir trouvé la bonne solution. Mais cet effort collectif s’arrête brutalement lorsque le seuil critique est atteint.

 

Conclusion : les LRMs échouent de manière drastique face à une certaine complexité !

 

L’étude menée par Apple remet profondément en question l’idée selon laquelle l’augmentation de la taille des modèles d’intelligence artificielle — le scaling — suffirait à améliorer leurs capacités de raisonnement ou à atteindre une forme d’AGI (intelligence artificielle générale).

 

Confrontés à ces limites, les chercheurs appellent à explorer de nouvelles approches comme l’intégration de mécanismes symboliques, l’hybridation avec des algorithmes classiques ou le développement d’architectures « neurosymboliques » ayant pour objectif d’allier la souplesse du raisonnement humain à la rigueur des systèmes formels.

 

Pour les entreprises, ces constats ont des implications concrètes : les IA génératives ne peuvent pas encore être considérées comme fiables pour traiter des situations complexes ou critiques, rendant indispensable une supervision humaine constante.

 

Plus d’infos : @omestra

 
 

En savoir plus :

Transformation & Transition numérique - Intelligence artificielle - Intelligences artificielles génératives - Entreprises et technologie - Gouvernance de la Tech - Conférence IA génératives et acculturation - Roadmap technologique - Pilotage de la transformation

© 2025 omestra - Tous droits réservés. Mentions légales

  • LinkedIn
bottom of page