Direction générale du Trésor : HéphAIstos abandonne Qwen après des réponses jugées biaisées

il y a 1 jour
3 min de lecture

La Direction générale du Trésor a expérimenté, au début de juin 2026, un outil interne baptisé HéphAIstos. Environ une centaine d’agents, sur les 1 300 que compte la direction, auraient participé au test. L’application proposait un assistant conversationnel destiné aux tâches quotidiennes ainsi qu'un un outil de transcriptions multilingue. Rapidement, elle a stoppé l'exprimentation. Voici pourquoi ...

HéphAIstos reposait sur un modèle de la famille Qwen, développé par le groupe chinois Alibaba. Les modèles Qwen sont disponibles en versions ouvertes ou à poids ouverts et peuvent être déployés sur une infrastructure locale, sans passer par les serveurs d’Alibaba.

Selon les informations communiquées par l’AFP, plusieurs utilisateurs ont signalé des réponses « orientées » ou « biaisées » sur des sujets concernant la Chine. Le test a été interrompu le 23 juin 2026. Un modèle de Mistral AI a été installé dès le lendemain. Le ministère n’a toutefois fourni aucun exemple des réponses incriminées. Alibaba Cloud n’a pas souhaité commenter.

Sur la question de la sécurité des données, Bercy affirme que le modèle fonctionnait sans accès à Internet et sans transmission de données vers l’extérieur. Dans cette configuration, le risque immédiat d’envoi de documents vers Alibaba était donc fortement réduit. Mais un fonctionnement local ne règle pas tous les problèmes. En effet, la souveraineté de l’hébergement ne garantit pas la neutralité du modèle.

Les biais de Qwen sont-ils documentés ? (oui mais non)

Oui, mais les travaux disponibles ne prouvent pas nécessairement ce qui s’est produit au Trésor, puisque la version exacte et les requêtes utilisées ne sont pas connues.

Une étude de l’Australian Strategic Policy Institute publiée en décembre 2025 a testé plusieurs modèles chinois sur des contenus politiquement sensibles. Dans ces essais, Qwen omettait plus souvent certains éléments relatifs à Tiananmen, à Taïwan, aux Ouïghours ou au Tibet et employait davantage de formulations proches des récits officiels chinois. L’étude portait sur Qwen3-VL, un modèle multimodal, qui n’est pas nécessairement celui installé à Bercy (§en fait, on ne connait pas le modèle installé).

Reuters avait également rapporté en juillet 2025 que des tests menés par des administrations américaines sur Qwen 3 et DeepSeek R1 faisaient apparaître une forte proximité avec les positions officielles de Pékin sur Tiananmen, Taïwan et les Ouïghours.

Ces comportements s’inscrivent dans le cadre réglementaire chinois. Les règles applicables aux services d’IA générative imposent notamment de respecter les « valeurs socialistes fondamentales » et d’éviter les contenus portant atteinte à l’unité nationale, aux intérêts de l’État ou à son image.

L’affaire intervient au moment où le gouvernement lance le plan « Notre IA »

Présenté officiellement le 16 juin 2026, le plan « Notre IA » se définit comme une stratégie d’IA « utile, humaine et souveraine » pour les services publics.

Ce plan prévoit notamment la généralisation d’un assistant reposant sur des modèles Mistral à environ un million d’agents de l’État. D’après les données communiquées à l’AFP, le déploiement représenterait 700 000 euros en 2026, puis entre 2 et 4 millions d’euros par an selon les usages.

Le problème n’est pas vraiment d’avoir testé un modèle chinois. Tester plusieurs modèles ouverts peut être utile et permettre de comparer leurs performances, leurs coûts et leur sécurité.

L’expérimentation montre qu’un modèle ouvert et installé localement peut satisfaire des exigences de confidentialité tout en restant inadapté à une administration chargée de conseiller le gouvernement. Le risque principal identifié ne semble pas avoir été une fuite de données, mais un biais informationnel intégré au modèle.

La décision d’interrompre rapidement le test paraît prudente. Mais elle révèle à mon sens une faiblesse du processus initial de sélection et d’évaluation : pour des usages stratégiques, la nationalité du fournisseur ne suffit pas à juger un modèle, mais son origine, ses données d’entraînement, ses mécanismes d’alignement et ses comportements sur les sujets sensibles doivent être testés avant son déploiement.

Une fois de plus le besoin de modèle souverain ou, à minima, totalement transparent est mis en évident à travers cette épérimentation.

Besoin d'infos sur la gouvernbance de l'IA ? Contactez @omestra