Ce qu’il faut retenir :
- Anthropic a lancé Fable 5 comme son modèle le plus performant, avec des benchmarks en forte hausse.
- Un ingénieur émérite affirme ne pas le distinguer d’Opus 4.6, 4.7 ou 4.8 lors d’un test à l’aveugle.
- L’écart entre scores de benchmarks et utilité réelle relance le débat sur un plateau de l’IA.
Comme nous l’évoquions, Anthropic a bien lancé Fable 5, qu’il présente comme son modèle le plus capable à ce jour. Les benchmarks impressionnent : 29,3 % sur FrontierCode Diamond contre 13,4 % pour Opus 4.8, ou encore 95 % sur SWE-bench Verified. Pourtant, plusieurs ingénieurs chevronnés racontent une tout autre expérience sur le terrain. De quoi nourrir un débat de fond : l’IA de pointe touche-t-elle un plateau ? Précisons d'emblée qu’il s’agit ici d’analyses et de témoignages, à prendre comme tels.
Le test à l’aveugle qui dérange
L’élément déclencheur vient d’un ingénieur émérite travaillant chez un hyperscaler, l’un de ces géants qui hébergent justement ces modèles. Après des tests approfondis, il affirme sur Reddit ne pas réussir à distinguer Fable 5 d’Opus 4.6, 4.7 ou 4.8 dans un test à l’aveugle, au sein de son environnement de travail. Le modèle « révolutionnaire » lui semble surtout faire plus de la même chose. Son raisonnement va au cœur du métier : un ingénieur professionnel ne génère pas un projet entier d’un seul coup. Il avance par petits incréments, teste chaque brique avant la suivante et doit comprendre chaque composant. Pour ce flux de travail, estime-t-il, les modèles ont déjà atteint un plateau de valeur. « Nous atteignons une limite asymptotique », résume-t-il.
Quand les benchmarks ne disent pas tout
L’écart entre la performance sur les tests et l’utilité réelle n’a jamais été aussi large. Si Fable 5 domine sur FrontierCode Diamond, ses 29,3 % signifient qu’il échoue encore près de 70 % du temps sur les tâches de code difficiles. Sur SWE-bench Pro, ses 80,3 % impliquent un échec dans un cas sur cinq, même sur des tâches bien définies et isolées. Quant au cas Stripe, qui aurait « compressé des mois d’ingénierie en quelques jours », l’ingénieur souligne qu’il s’agissait d’une migration de code, pas d’ingénierie inédite. Il cite un exemple concret : Fable 5 se serait trompé « avec assurance » sur le comportement de services AWS, une erreur qu’il n’a pu détecter que parce qu’il maîtrisait déjà le sujet. Le problème de fond : chaque gain de capacité brute est annulé par la nécessité de tout vérifier.
Le mur de la compression et des données
Deux limites structurelles sont avancées. D’abord, la compression de l’information : un prompt ne peut contenir l’intégralité de la spécification d’un système complexe. Si l’information est insuffisante, le modèle comble les trous en inférant, c’est-à-dire en hallucinant. Un modèle plus puissant ne résout pas ce problème, il devient simplement plus créatif dans ses hallucinations. Ensuite, le plafond des données : les modèles ont déjà absorbé l’essentiel du savoir public utile, des documentations d’API aux bonnes pratiques. Les progrès suivants exigeraient un raisonnement réellement nouveau sur des cas limites et des comportements non documentés, absents des corpus d’entraînement.
L’équation économique qui coince
Le prix achève de poser question. Fable 5 est facturé entre 10 et 50 dollars par million de tokens, soit le double d’Opus 4.8. Plus révélateur, son calendrier de déploiement : inclus sans surcoût dans les abonnements jusqu’au 22 juin, puis basculé en crédits à l’usage, avant un retour « quand la capacité le permettra ». Autrement dit, ces modèles seraient si coûteux à servir qu’ils ne peuvent être intégrés durablement aux forfaits. Certains qualifient même ces subventions de « système de Ponzi ». Si le coût double pour des gains marginaux sur le travail itératif, le calcul de rentabilité s’effondre. Une inquiétude qui rejoint, comme nous l’évoquions avec Oracle, le doute grandissant sur la soutenabilité des investissements colossaux dans l’IA.
Et maintenant ?
Ce constat ne signe pas la mort de l’IA pour le développement. Sa valeur reste réelle, mais dans un usage itératif et supervisé, comme assistant junior plutôt que comme ingénieur autonome. L’ingénieur prédit même que, d’ici un an, un modèle local tournant sur un ordinateur portable haut de gamme offrira 90 % de la valeur qu’apporte aujourd’hui un modèle de pointe à son travail.
Il faut nuancer : les progrès sur les benchmarks sont bien réels, et la capacité brute a déjà permis des prouesses, comme la détection d’une faille de Zcash via Opus 4.8. Mais si les rendements pratiques plafonnent à ce point, la vraie question devient celle de la soutenabilité du modèle économique de l’IA de pointe. Les modèles gagnants pourraient bien être ceux qui s’intègrent le mieux aux usages, pas ceux qui affichent les meilleurs scores.
Cet article vous a plu ? Recevez les prochains par email
Rejoignez +40 000 abonnés. L'essentiel du marché crypto dans votre boîte mail, tous les 2 jours.