Un petit laboratoire. Trois publications qui partagent un même fil rouge — la métacognition, la discipline d'un modèle qui sait ce qu'il sait. Un modèle de langage ternaire de 10M de paramètres. Une référence de calibration qui classe les modèles de chat de pointe par leur honnêteté sous pression. Un modèle compressé de graphe de connaissances biomédical qui dépasse deux tableaux de bord.
Chaque publication est assez petite pour être étudiée de bout en bout. Entrez.
Un descendant de transformeur à 10M de paramètres avec poids dans {−1, 0, +1}. À paramètres égaux, il dépasse un transformeur classique sur TinyStories byte-LM de 6,7σ. L'entropie du routeur alimente directement une tête de confiance — quand le modèle est incertain, il le dit.
13 épreuves, 1 015 items, 7 modèles de chat de pointe évalués par un conseil délibératif de 5 vendeurs. NEO mesure le mode de défaillance dangereux que les classements ignorent : une réponse fausse mais confiante, indistinguable d'une bonne tant que les conséquences n'arrivent pas.
Un plongement de graphe de connaissances ternaire entraîné sur OGBL-biokg + PrimeKG. Le maître flottant dépasse le classement ComplEx d'OGBL. L'élève ternaire dépasse TransE à 5,3× de compression — premier KGE à trois valeurs à le faire. Même recette, répliquée sur PrimeKG (2023) : la quantization améliore le maître sur les deux jeux de données.
Assez petit pour être étudié. Assez grand pour surprendre. Tourne sur CPU.
La plupart des LLM hallucinent avec assurance. Tilelli surveille sa propre entropie de routeur et une petite tête de confiance — et quand le signal s'aplatit, il le dit. Pas de théâtre. Pas de faits inventés. Le mécanisme est auditable en cinq lignes : H(routeur) > τ ou p(confiance) < 0,20 déclenche l'abstention.
Le chat en ligne est actuellement en mode template de secours — formules calibrées, évaluateur arithmétique sûr, stub d'abstention. Les poids 10M s'y insèrent lorsque l'entraînement continu sur GPU loué se termine.
La calibration d'abord. La capacité comme effet secondaire.
Le juge unique privilégiait systématiquement sa propre famille. Le remplacer par un conseil délibératif avec auto-exclusion de vendeur a éliminé ce biais — et rebattu le classement. Les deux versions des chiffres sont dans le dépôt. Ce genre de constat n'apparaît que si l'on publie le protocole, pas seulement le score.
Le premier KGE à trois valeurs à dépasser TransE sur OGBL. Répliqué sur PrimeKG (2023). Tourne sur un microcontrôleur à 2 €.
Les paires (Rosiglitazone, Sitagliptin, Gliclazide, Tolbutamide, Miglitol) ↔ diabète de type 2 ont été retirées des splits train/val/test avant la prédiction. Le modèle les a recouvrées à partir de la structure du graphe — cibles partagées, profils d'effets indésirables, familles de mécanismes. Ce n'est pas une découverte — c'est une fidèle récupération du dossier public sur un modèle minuscule.
Trois vues d'une seule question : le modèle sait-il quand il a raison ?
NEO évalue 7 modèles de chat de pointe : leur confiance déclarée suit-elle leur exactitude réelle — et, quand ils ne savent pas, le disent-ils ? Sur-confiance universelle sur les items pattern-vs-raisonnement. Sous-calibration universelle sur SimpleQA. Les classements mesurent autre chose.
Le routeur à trois voies de Tilelli publie sa propre entropie. Une petite tête de confiance lit ce signal. Quand H(routeur) > τ, le modèle s'abstient. La même métrique mesurée par NEO sur des boîtes noires est ici câblée en façade — et auditable, parce que le modèle pèse 10 mégaoctets.
Le KGE biomédical a une tête d'agreement : un petit MLP qui, pour chaque requête (médicament, relation, maladie), prédit si l'élève ternaire sera d'accord avec son maître flottant. AUC 0,755 par requête. Cliniquement, la bonne question n'est pas « quelle est la précision moyenne ? » mais « cette requête appartient-elle au type que le modèle gère ? »
Les trois publications sont sous licence Apache 2.0, compatibles CPU en inférence, et auditables de bout en bout en lisant la source. Le pari partagé : un petit modèle qui connaît la forme de sa propre ignorance est plus utile qu'un grand modèle qui comble la lacune avec assurance.
Tilelli est le mot tamazight pour liberté. Les Imazighen — « les hommes libres » — sont un peuple autochtone transnational d'Afrique du Nord dont la langue précède d'environ trois mille ans les frontières nationales modernes. La lettre ⵣ (yaz) figure sur le drapeau amazigh et représente l'homme libre.
Nommer de petits modèles auditables et sobres d'après cette idée n'est pas anodin. Chacune des trois publications tourne sans fournisseur — sur CPU, sur un microcontrôleur à 2 €, sur l'ordinateur portable que vous possédez déjà.
Un hommage à Marrakech, dont le nom tamazight Mur N'Akush — Pays de Dieu — donna son nom à la ville. La dynastie almoravide berbère en fit une capitale en 1062, alors que cette langue avait déjà deux mille ans. Et à Sa Majesté le Roi Mohammed VI — le 17 juin 2011, la nouvelle constitution marocaine a reconnu le tamazight comme langue officielle du Royaume aux côtés de l'arabe.
Questions, corrections, collaborations. Email simple.