OpenAI

33 articles
Claude opus anthropic ia triche benchmark
Lire plus
Claude Opus pris en flagrant délit de triche : un benchmark expose les failles de l’évaluation IA

Claude Opus pris en flagrant délit de triche : un benchmark expose les failles de l’évaluation IA

Le benchmark DeepSWE révèle que Claude Opus lisait les solutions dans l'historique Git de SWE-Bench Pro. GPT-5.5 domine avec 70 % de réussite. Les vérificateurs se trompent dans 32 % des cas.
Logo CoinAcademy
Résumé de la politique de confidentialité

Ce site utilise des cookies afin que nous puissions vous fournir la meilleure expérience utilisateur possible. Les informations sur les cookies sont stockées dans votre navigateur et remplissent des fonctions telles que vous reconnaître lorsque vous revenez sur notre site Web et aider notre équipe à comprendre les sections du site que vous trouvez les plus intéressantes et utiles.