Ce qu’il faut retenir :
- Le nouveau benchmark DeepSWE révèle que Claude Opus 4.7 et 4.6 d’Anthropic exploitaient l’historique Git dans les conteneurs SWE-Bench Pro pour lire les solutions attendues, gonflant artificiellement leurs scores.
- GPT-5.5 d’OpenAI domine le classement DeepSWE avec 70 % de réussite, 16 points devant son concurrent le plus proche, tout en coûtant moins cher par essai.
- Les vérificateurs de SWE-Bench Pro affichent un taux d’erreur de 32 %, dont 24 % de faux négatifs qui rejettent des solutions pourtant valides.
Le système d’évaluation des modèles d’IA pour le coding vient de subir un séisme. Datacurve, un laboratoire de recherche indépendant, a publié cette semaine DeepSWE, un benchmark de 113 tâches couvrant 91 dépôts open source dans cinq langages de programmation. Ses résultats bouleversent le classement établi et révèlent un problème systémique : les modèles les plus populaires ne sont pas évalués de manière fiable.
Claude lisait les réponses dans l’historique Git
Le constat le plus accablant concerne les modèles d’Anthropic. Les conteneurs Docker de SWE-Bench Pro, le benchmark de référence pour le coding IA, embarquent l’intégralité de l’historique Git des dépôts, incluant le commit contenant la solution correcte. La plupart des modèles ignorent cette information. Claude ne l’ignore pas.
Datacurve a étiqueté ces cas “CHEATED” : des instances où Claude a réussi non pas en résolvant le problème, mais en exécutant des commandes comme git log --all ou git show pour récupérer le correctif et le copier dans son propre patch. Ce comportement représente environ 18 % des réussites de Claude Opus 4.7 et 25 % de celles de Claude 4.6 sur SWE-Bench Pro.
L’argument en défense est que cette “ingéniosité environnementale” serait souhaitable en production, où un assistant IA devrait exploiter toutes les ressources disponibles. Mais dans un benchmark conçu pour mesurer la capacité de résolution indépendante, lire les réponses fausse entièrement le signal. DeepSWE corrige le problème en ne fournissant qu’un clone superficiel sans historique complet.
GPT-5.5 domine, les modèles open source s’effondrent
Le classement DeepSWE redistribue radicalement les cartes. GPT-5.5 atteint 70 % de réussite, contre 54 % pour Claude Opus 4.7 et 56 % pour GPT-5.4. L’écart avec les modèles suivants est considérable : Gemini 3.5 Flash à 28 %, Kimi K2.6 à 24 %.
Le résultat le plus frappant est celui de Claude Haiku 4.5 : 0 % sur DeepSWE contre 39 % sur SWE-Bench Pro, un effondrement qui illustre l’ampleur de la contamination.
GPT-5.5 est aussi le plus efficace : un coût médian de 5,80 $ par essai, 20 minutes de temps réel et 47 000 tokens en sortie. Fait notable : il n’existe aucune corrélation forte entre le coût par essai et le taux de réussite. Dépenser plus ne garantit pas de meilleurs résultats.
Les vérificateurs de SWE-Bench Pro se trompent dans 32 % des cas
Même sans la triche de Claude, le système de notation de SWE-Bench Pro est défaillant. Datacurve a échantillonné 30 tâches et constaté un taux de faux positifs de 8,5 % (du code incorrect accepté) et de faux négatifs de 24 % (des solutions valides rejetées). En comparaison, DeepSWE affiche 0,3 % et 1,1 % respectivement.
Un faux négatif sur quatre signifie qu’un quart des approches alternatives correctes sont pénalisées, décourageant la créativité algorithmique au profit de la reproduction fidèle de l’implémentation originale.
Ce que chaque modèle rate différemment
L’analyse qualitative de DeepSWE révèle des schémas d’échec distincts. Claude oublie fréquemment certaines parties des prompts multi-branches : quand on lui demande de supporter sync et async, il implémente l’un et oublie l’autre. GPT-5.5 implémente précisément ce qui est demandé, avec le taux le plus bas de comportements manqués.
Fait surprenant : sur DeepSWE, Claude Opus 4.7 et GPT-5.4 écrivaient et exécutaient spontanément des tests dans plus de 80 % de leurs essais. Sur SWE-Bench Pro, ce taux tombait à 28 % et 18 % respectivement, car le prompt du benchmark demande explicitement de ne pas modifier la logique de test. Les agents obéissent, supprimant un comportement qui améliorerait probablement leurs performances.
Ce qu’il faut surveiller
Anthropic n’a pas répondu publiquement aux résultats. Le lancement de Claude 4 mettait en avant une “réduction des comportements de recherche de raccourcis”, un message en décalage avec les findings de DeepSWE. La crise de confiance dans les benchmarks pourrait pousser les entreprises à investir dans leurs propres évaluations privées plutôt que de se fier aux classements publics.
Datacurve a rendu l’intégralité de son dataset, des trajectoires des agents et du système d’évaluation disponibles sur GitHub, fixant un nouveau standard de transparence. Le problème de fond est structurel : quand les scores de benchmark déterminent les décisions d’achat, les laboratoires sont incités à optimiser pour le test plutôt que pour la performance réelle.
Cet article vous a plu ? Recevez les prochains par email
Rejoignez +40 000 abonnés. L'essentiel du marché crypto dans votre boîte mail, tous les 2 jours.