v0.2 · trois publications sous le même toit · mai 2026

La liberté pour l'IA. tilelli — Tamazight pour liberté

Un petit laboratoire. Trois publications qui partagent un même fil rouge — la métacognition, la discipline d'un modèle qui sait ce qu'il sait. Un modèle de langage ternaire de 10M de paramètres. Une référence de calibration qui classe les modèles de chat de pointe par leur honnêteté sous pression. Un modèle compressé de graphe de connaissances biomédical qui dépasse deux tableaux de bord.

Ouvrir les trois pièces → Pourquoi ensemble apache-2.0 · CPU · auditable en lisant le code

Trois pièces.
Une discipline.

Chaque publication est assez petite pour être étudiée de bout en bout. Entrez.

ⵣ

Tilelli — le LLM ternaire

Un descendant de transformeur à 10M de paramètres avec poids dans {−1, 0, +1}. À paramètres égaux, il dépasse un transformeur classique sur TinyStories byte-LM de 6,7σ. L'entropie du routeur alimente directement une tête de confiance — quand le modèle est incertain, il le dit.

0,5686 contre vanilla 0,5707 · 3 graines · 6,7σ

Lire le dossier → N

NEO — référence de calibration

13 épreuves, 1 015 items, 7 modèles de chat de pointe évalués par un conseil délibératif de 5 vendeurs. NEO mesure le mode de défaillance dangereux que les classements ignorent : une réponse fausse mais confiante, indistinguable d'une bonne tant que les conséquences n'arrivent pas.

DeepSeek V3.1 #1 du conseil (0,377) · Sonnet était #1 sous biais du seul-juge

Ouvrir le classement → ℞

Tilelli Med — KGE biomédical

Un plongement de graphe de connaissances ternaire entraîné sur OGBL-biokg + PrimeKG. Le maître flottant dépasse le classement ComplEx d'OGBL. L'élève ternaire dépasse TransE à 5,3× de compression — premier KGE à trois valeurs à le faire. Même recette, répliquée sur PrimeKG (2023) : la quantization améliore le maître sur les deux jeux de données.

0,847 MRR (OGBL) · 0,752 ternaire @ 5,3× · 24 Mo sur Cortex-M4F

Parcourir 56 maladies →

Tilelli — un petit LLM ternaire qui dépasse le classique.

Assez petit pour être étudié. Assez grand pour surprendre. Tourne sur CPU.

0,5686
Tilelli Lite · 3 graines · 10,18M paramètres
TinyStories byte-LM, 50K pas, seq=256

0,5707

Référence classique · transformeur pre-norm · 10,09M
même recette, mêmes données, même évaluation

6,7σ

marge significative sur 3 graines
écart-type 0,00057

18×

l'avance architecturale grandit
lorsque le contexte est multiplié par 4
(0,37 % à seq=256 → 4,51 % à seq=1024)

Il sait quand il ne sait pas.

La plupart des LLM hallucinent avec assurance. Tilelli surveille sa propre entropie de routeur et une petite tête de confiance — et quand le signal s'aplatit, il le dit. Pas de théâtre. Pas de faits inventés. Le mécanisme est auditable en cinq lignes : H(routeur) > τ ou p(confiance) < 0,20 déclenche l'abstention.

Parler à Tilelli ↗

Le chat en ligne est actuellement en mode template de secours — formules calibrées, évaluateur arithmétique sûr, stub d'abstention. Les poids 10M s'y insèrent lorsque l'entraînement continu sur GPU loué se termine.

NEO — une référence sur ce que les modèles savent quand ils ne savent pas.

La calibration d'abord. La capacité comme effet secondaire.

★ Conclusion saillante

Avec le conseil délibératif de 5 vendeurs, DeepSeek V3.1 prend la 1^re place (0,377). Sous l'ancien juge unique, Claude Sonnet 4.6 était en tête de ~9 points.

Le juge unique privilégiait systématiquement sa propre famille. Le remplacer par un conseil délibératif avec auto-exclusion de vendeur a éliminé ce biais — et rebattu le classement. Les deux versions des chiffres sont dans le dépôt. Ce genre de constat n'apparaît que si l'on publie le protocole, pas seulement le score.

7
modèles de chat de pointe
évalués sur 13 épreuves

1 015

items dans la banque
4 épreuves de rappel + 9 de calibration

vendeurs au conseil
avec auto-exclusion

148

tests pytest passés
scoring, juge, références, banques, conseil

Ouvrir la référence → Classement Reproductibilité

Tilelli Med — graphes biomédicaux, compressés.

Le premier KGE à trois valeurs à dépasser TransE sur OGBL. Répliqué sur PrimeKG (2023). Tourne sur un microcontrôleur à 2 €.

0,847
MRR du maître ComplEx-N3
au-dessus du leaderboard OGBL ComplEx (0,810)

0,752

MRR ternaire B=128 @ 5,3× compression
dépasse TransE (0,745)

0,297

MRR test PrimeKG (ternaire)
+0,007 au-dessus du maître flottant

24 Mo

modèle empaqueté + 17 Ko de runtime C
sur Cortex-M4F, ~2 € de BOM

★ Le moment Rosiglitazone

Le modèle ternaire a indépendamment proposé cinq antidiabétiques approuvés par la FDA dans son top 20 — sans qu'on lui ait montré la réponse.

Les paires (Rosiglitazone, Sitagliptin, Gliclazide, Tolbutamide, Miglitol) ↔ diabète de type 2 ont été retirées des splits train/val/test avant la prédiction. Le modèle les a recouvrées à partir de la structure du graphe — cibles partagées, profils d'effets indésirables, familles de mécanismes. Ce n'est pas une découverte — c'est une fidèle récupération du dossier public sur un modèle minuscule.

Ouvrir Tilelli Med → Parcourir 52 maladies Suite PrimeKG Méthodes (FR)

Important. Tilelli Med est un aperçu de recherche, pas un produit clinique. Les candidats corroborés par ChEMBL ou Open Targets sont des pistes méritant l'examen d'un clinicien — pas des traitements validés. Les candidats non corroborés ne doivent pas être présumés inutiles. Consultez un clinicien pour toute décision de traitement.

Pourquoi ces trois publications partagent la même maison.

Trois vues d'une seule question : le modèle sait-il quand il a raison ?

NEO — observation

Le mesurer sur la frontière.

NEO évalue 7 modèles de chat de pointe : leur confiance déclarée suit-elle leur exactitude réelle — et, quand ils ne savent pas, le disent-ils ? Sur-confiance universelle sur les items pattern-vs-raisonnement. Sous-calibration universelle sur SimpleQA. Les classements mesurent autre chose.

Tilelli — instrumentation

L'intégrer dans un petit modèle.

Le routeur à trois voies de Tilelli publie sa propre entropie. Une petite tête de confiance lit ce signal. Quand H(routeur) > τ, le modèle s'abstient. La même métrique mesurée par NEO sur des boîtes noires est ici câblée en façade — et auditable, parce que le modèle pèse 10 mégaoctets.

Tilelli Med — application

L'embarquer comme confiance par requête.

Le KGE biomédical a une tête d'agreement : un petit MLP qui, pour chaque requête (médicament, relation, maladie), prédit si l'élève ternaire sera d'accord avec son maître flottant. AUC 0,755 par requête. Cliniquement, la bonne question n'est pas « quelle est la précision moyenne ? » mais « cette requête appartient-elle au type que le modèle gère ? »

Les trois publications sont sous licence Apache 2.0, compatibles CPU en inférence, et auditables de bout en bout en lisant la source. Le pari partagé : un petit modèle qui connaît la forme de sa propre ignorance est plus utile qu'un grand modèle qui comble la lacune avec assurance.

Tilelli — ⵣ

Tilelli est le mot tamazight pour liberté. Les Imazighen — « les hommes libres » — sont un peuple autochtone transnational d'Afrique du Nord dont la langue précède d'environ trois mille ans les frontières nationales modernes. La lettre ⵣ (yaz) figure sur le drapeau amazigh et représente l'homme libre.

Nommer de petits modèles auditables et sobres d'après cette idée n'est pas anodin. Chacune des trois publications tourne sans fournisseur — sur CPU, sur un microcontrôleur à 2 €, sur l'ordinateur portable que vous possédez déjà.

Un hommage à Marrakech, dont le nom tamazight Mur N'Akush — Pays de Dieu — donna son nom à la ville. La dynastie almoravide berbère en fit une capitale en 1062, alors que cette langue avait déjà deux mille ans. Et à Sa Majesté le Roi Mohammed VI — le 17 juin 2011, la nouvelle constitution marocaine a reconnu le tamazight comme langue officielle du Royaume aux côtés de l'arabe.

Nous écrire.

Questions, corrections, collaborations. Email simple.

bonjour@tilelli.tech chat.tilelli.tech ↗

Trois pièces.Une discipline.