Tilelli / Tilelli Med
Compressé 15,8× depuis la base flottante, au-dessus des classements OGBL-biokg ComplEx et TransE, empaqueté dans un binaire de 24 Mo qui tourne via un runtime C99 de 17 Ko — assez petit pour un microcontrôleur à 2 €. Le modèle a proposé indépendamment Rosiglitazone, Sitagliptin, Gliclazide, Tolbutamide, Miglitol pour le diabète de type 2, avec ces paires exclues de l'entraînement. Répliqué sur PrimeKG (2023) : l'élève ternaire dépasse à nouveau son maître flottant.
Open Graph Benchmark ComplEx-N3 Ternaire {−1, 0, +1} Pas un avis médical
La Rosiglitazone (nom de marque Avandia) est un antidiabétique oral approuvé par la FDA. Le triplet (Rosiglitazone, drug-disease, diabète T2) a été retiré des splits train, validation et test avant la prédiction. Le modèle l'a récupéré à partir de la structure du graphe : cibles partagées, profils d'effets indésirables, familles de mécanismes. C'est exactement ce qu'un KGE compressé est censé faire, et il l'a fait.
Un modèle de plongement de graphe entraîné sur le benchmark public OGBL-biokg de Stanford — ~94 000 entités biomédicales (médicaments, protéines, maladies, effets indésirables, fonctions biologiques) et 4,8 millions de relations issues de la littérature publique. Architecture : ComplEx avec régularisation N3 et relations réciproques (Lacroix et al. 2018), entraîné de zéro.
Notre contribution est la compression ternaire : chaque plongement d'entité est ramené de la virgule flottante 32 bits à une représentation à trois valeurs {−1, 0, +1} avec une petite échelle par bloc. À une taille de bloc 128, c'est 5,3× de compression des tables d'entités. Le modèle compressé obtient toujours 0,752 MRR filtré — au-dessus du classement TransE (0,745). À notre connaissance, c'est le premier plongement de graphe à trois valeurs à le faire sur ce benchmark.
Nous avons exécuté le pipeline de prédiction sur 10 maladies sélectionnées couvrant quatre catégories. Pour chacune, le modèle classe tous les médicaments du graphe comme candidats à compléter (médicament, drug-disease, cette maladie) — après avoir filtré les médicaments déjà associés à cette maladie dans l'entraînement. Nous vérifions ensuite les 20 premiers contre ChEMBL et Open Targets.
Le modèle fonctionne bien sur les sous-graphes cardio-métaboliques denses — exactement là où OGBL-biokg a une couverture riche grâce à des décennies de recherche sur les maladies cardiovasculaires et le diabète. Il s'effondre sur les sous-graphes peu denses — oncologie, psychiatrie, auto-immune, respiratoire. Ce n'est pas un défaut à cacher. C'est une propriété du graphe d'entrée et une carte utile des zones où la méthode est fiable ou non.
Le modèle ternaire par ligne (compression 15,8× sur les tables d'entités) est empaqueté dans un binaire .tmed de 24 Mo qui tourne via un runtime C99 compilé statiquement de 17 Ko — pas de Python, pas de PyTorch, pas de malloc. Scan linéaire sur 93 773 entités pour une requête : ~870 ms sur x86_64, 30–60 secondes projetées sur un MCU Cortex-M4F à 2 € avec le modèle stocké dans une flash série externe à 0,50 €. Top-6 pour T2D : Saxagliptin, Gliclazide, Sitagliptin, Miglitol, Tolbutamide — cinq antidiabétiques approuvés par la FDA surfacés depuis le graphe seul.
Il s'agit d'une performance de benchmark plus une vérification externe. Ce n'est pas une découverte de nouveaux médicaments. OGBL-biokg est construit à partir de littérature publique — un MRR élevé signifie que le modèle capture des associations déjà implicites dans le dossier publié. La vraie découverte de médicaments nécessite des essais in vitro, des criblages ADMET, des études de sélectivité et des essais cliniques. Rien de tout cela n'a eu lieu ici.