Ce qu’il faut retenir :
- PrismML sort de l’ombre avec Bonsai 8B, un modèle de langage 1-bit de 8,2 milliards de paramètres qui tient dans 1,15 Go de mémoire, soit 14 fois moins qu’un modèle classique.
- Le modèle tourne à 44 tokens/seconde sur iPhone 17 Pro Max et 131 tokens/seconde sur Mac M4 Pro, tout en restant compétitif sur les benchmarks standards.
- Issu de la recherche de Caltech et soutenu par Khosla Ventures, Google et Cerberus, Bonsai est disponible en open source sous licence Apache 2.0.
PrismML, un laboratoire d’IA issu de Caltech, est sorti du mode furtif lundi pour annoncer ce qui pourrait constituer un tournant dans l’IA embarquée : Bonsai 8B, le premier modèle de langage 1-bit commercialement viable, capable de faire tourner 8,2 milliards de paramètres dans une empreinte mémoire de seulement 1,15 Go.
14 fois plus petit, compétitif sur les benchmarks
Un modèle de langage classique de 8 milliards de paramètres en précision 16-bit pèse environ 16 Go et ne tient pas dans la mémoire d’un smartphone. Bonsai 8B réduit ce poids de 14 fois en utilisant une architecture 1-bit native, c’est-à-dire entraînée dès le départ avec des poids binaires, et non un modèle compressé après coup.
Chaque paramètre du réseau (couches d’attention, MLP, embeddings, tête de sortie) est encodé sur un seul bit. Les poids sont contraints aux valeurs +scale ou -scale, avec un facteur d’échelle FP16 partagé par groupes de 128 poids, pour un stockage effectif de 1,125 bit par poids. Le modèle a été entraîné sur des TPU Google v4.
Sur les benchmarks standards (IFEval, GSM8K, MMLU-Redux), PrismML affirme que Bonsai 8B est compétitif avec des modèles de référence comme Llama 3 8B et Qwen3 8B, bien que les évaluations indépendantes par la communauté soient encore en cours, le modèle n’ayant été publié que depuis quelques jours.
L’IA sur smartphone : une démonstration concrète
Les chiffres de vitesse d’inférence sont parlants. Sur un iPhone 17 Pro Max, Bonsai 8B tourne à 44 tokens par seconde. Sur un Mac M4 Pro, il atteint 131 tokens/seconde. Sur un RTX 4090, il monte à 368 tokens/seconde. À titre de comparaison, un modèle 8B classique en 16-bit ne peut même pas se charger sur un iPhone.
L’efficacité énergétique suit la même logique : 0,068 mWh par token sur iPhone et 0,074 mWh sur M4 Pro, soit une réduction de la consommation d’un facteur 4 à 5 par rapport aux modèles pleine précision. PrismML souligne que ces gains proviennent principalement de la réduction de l'empreinte mémoire et non encore de l’exploitation complète de la structure 1-bit pendant l’inférence. Du matériel spécialisé pour les opérations ternaires pourrait théoriquement apporter un ordre de grandeur supplémentaire.
BitNet de Microsoft : le précurseur qui n’a pas franchi le cap
L’idée de LLM en très basse précision n’est pas nouvelle. Microsoft Research a ouvert la voie avec BitNet b1.58, un modèle à poids ternaires (-1, 0, +1) dont la première version open source à 2 milliards de paramètres a été publiée en avril 2025. BitNet a démontré que l’entraînement natif en basse précision pouvait rivaliser avec les modèles classiques de taille comparable, avec une empreinte de seulement 0,4 Go et une efficacité énergétique 12 fois supérieure.
Mais BitNet est resté cantonné à 2 milliards de paramètres dans sa version publique, avec un avertissement explicite de Microsoft déconseillant son utilisation en production. La montée en échelle vers des modèles plus grands demeurait un problème de recherche ouvert. C’est précisément ce plafond que PrismML prétend avoir franchi en livrant trois modèles : Bonsai 1.7B (0,24 Go), Bonsai 4B (0,5 Go) et le flagship Bonsai 8B (1,15 Go).
Densité d’intelligence : une nouvelle métrique
PrismML introduit la notion de “densité d’intelligence”, définie comme le logarithme négatif du taux d’erreur moyen d’un modèle divisé par sa taille en Go. Sur cette métrique, Bonsai 8B obtient un score de 1,06/Go, contre 0,10/Go pour Qwen3 8B, soit un gain de facteur 10. La startup reconnaît que cette métrique est moins flatteuse que la simple comparaison des scores de benchmarks, mais estime qu’elle reflète mieux la difficulté progressive d’améliorer les performances à mesure que l’on se rapproche de la perfection.
Le concept est séduisant mais reste à valider par la communauté. Les premiers retours sur Hacker News et les tests utilisateurs montrent que Bonsai gère correctement les tâches d’utilisation d’outils et de génération de code, avec toutefois des imperfections sur les tâches complexes multi-étapes.
Un enjeu stratégique au-delà de la technique
L’annonce intervient le même jour que la clôture par OpenAI d’une levée de fonds de 122 milliards de dollars à une valorisation de 852 milliards. Deux visions diamétralement opposées de l’avenir de l’IA : d’un côté, la course aux datacenters géants et aux modèles toujours plus massifs ; de l’autre, l’intelligence compressée sur appareils grand public sans coût marginal par inférence.
PrismML a levé 16,25 millions de dollars auprès de Khosla Ventures, Cerberus Ventures (fondé par l’ancien responsable du programme TPU de Google, Amir Salek) et Google. Babak Hassibi, PDG et cofondateur, est professeur à Caltech, où il a dirigé les travaux mathématiques sur la compression de réseaux neuronaux sans perte de capacité de raisonnement.
Ce qu’il faut surveiller
Les trois modèles Bonsai sont disponibles dès maintenant sur HuggingFace sous licence Apache 2.0, sans restriction d’usage commercial. Ils fonctionnent via MLX (Apple), llama.cpp avec CUDA (Nvidia), et sont déjà intégrés dans l’application iOS Locally AI.
Les prochaines semaines seront décisives pour valider les performances annoncées via des benchmarks indépendants. Si Bonsai tient ses promesses, il pourrait accélérer considérablement l’émergence d’agents IA embarqués, d’assistants hors ligne et d’applications sensibles où les données ne peuvent pas quitter l’appareil.
Cet article vous a plu ? Recevez les prochains par email
Rejoignez +40 000 abonnés. L'essentiel du marché crypto dans votre boîte mail, tous les 2 jours.