Tilelli Med — prédictions compressées de graphe biomédical

0,847
MRR maître ComplEx-N3 (OGB filtré)
au-dessus du classement ComplEx (0,810)

0,752

MRR ternaire B=128
à 5,3× de compression, dépasse TransE (0,745)

3

graines indépendantes, moy ± écart
0,8414 ± 0,003

56

maladies dans la démo
toutes corroborées par ChEMBL + OT

Open Graph Benchmark ComplEx-N3 Ternaire {−1, 0, +1} Pas un avis médical

★ Le moment Rosiglitazone

Le modèle ternaire a classé la Rosiglitazone dans son top 20 pour le diabète de type 2 — sans qu'on lui ait montré la réponse.

La Rosiglitazone (nom de marque Avandia) est un antidiabétique oral approuvé par la FDA. Le triplet (Rosiglitazone, drug-disease, diabète T2) a été retiré des splits train, validation et test avant la prédiction. Le modèle l'a récupéré à partir de la structure du graphe : cibles partagées, profils d'effets indésirables, familles de mécanismes. C'est exactement ce qu'un KGE compressé est censé faire, et il l'a fait.

Ce que nous avons construit

Un modèle de plongement de graphe entraîné sur le benchmark public OGBL-biokg de Stanford — ~94 000 entités biomédicales (médicaments, protéines, maladies, effets indésirables, fonctions biologiques) et 4,8 millions de relations issues de la littérature publique. Architecture : ComplEx avec régularisation N3 et relations réciproques (Lacroix et al. 2018), entraîné de zéro.

Notre contribution est la compression ternaire : chaque plongement d'entité est ramené de la virgule flottante 32 bits à une représentation à trois valeurs {−1, 0, +1} avec une petite échelle par bloc. À une taille de bloc 128, c'est 5,3× de compression des tables d'entités. Le modèle compressé obtient toujours 0,752 MRR filtré — au-dessus du classement TransE (0,745). À notre connaissance, c'est le premier plongement de graphe à trois valeurs à le faire sur ce benchmark.

Motif inter-maladies (honnête)

Nous avons exécuté le pipeline de prédiction sur 10 maladies sélectionnées couvrant quatre catégories. Pour chacune, le modèle classe tous les médicaments du graphe comme candidats à compléter (médicament, drug-disease, cette maladie) — après avoir filtré les médicaments déjà associés à cette maladie dans l'entraînement. Nous vérifions ensuite les 20 premiers contre ChEMBL et Open Targets.

Hypercholestérolémie

Métabolique

40%

Hypertension essentielle

Cardio-vasculaire

35%

Diabète de type 2

Métabolique

30%

Coronaropathie

Cardio-vasculaire

20%

Maladie d'Alzheimer

Neuro-dégénérative

20%

Sclérose en plaques

Auto-immune

5%

Asthme

Respiratoire

5%

Cancer du sein

Oncologie

5%

Maladie de Parkinson

Neuro-dégénérative

5%

Schizophrénie

Psychiatrique

0%

Le modèle fonctionne bien sur les sous-graphes cardio-métaboliques denses — exactement là où OGBL-biokg a une couverture riche grâce à des décennies de recherche sur les maladies cardiovasculaires et le diabète. Il s'effondre sur les sous-graphes peu denses — oncologie, psychiatrie, auto-immune, respiratoire. Ce n'est pas un défaut à cacher. C'est une propriété du graphe d'entrée et une carte utile des zones où la méthode est fiable ou non.

Dépistage de médicaments sur un microcontrôleur à 2 €

★ Déployable sur micro-contrôleur

Un modèle de 24 Mo + un binaire C de 17 Ko classe des candidats médicamenteux pour le diabète T2 à partir de la structure du graphe seule — et place cinq antidiabétiques approuvés par la FDA dans son top 20.

Le modèle ternaire par ligne (compression 15,8× sur les tables d'entités) est empaqueté dans un binaire .tmed de 24 Mo qui tourne via un runtime C99 compilé statiquement de 17 Ko — pas de Python, pas de PyTorch, pas de malloc. Scan linéaire sur 93 773 entités pour une requête : ~870 ms sur x86_64, 30–60 secondes projetées sur un MCU Cortex-M4F à 2 € avec le modèle stocké dans une flash série externe à 0,50 €. Top-6 pour T2D : Saxagliptin, Gliclazide, Sitagliptin, Miglitol, Tolbutamide — cinq antidiabétiques approuvés par la FDA surfacés depuis le graphe seul.

La partie honnête

Il s'agit d'une performance de benchmark plus une vérification externe. Ce n'est pas une découverte de nouveaux médicaments. OGBL-biokg est construit à partir de littérature publique — un MRR élevé signifie que le modèle capture des associations déjà implicites dans le dossier publié. La vraie découverte de médicaments nécessite des essais in vitro, des criblages ADMET, des études de sélectivité et des essais cliniques. Rien de tout cela n'a eu lieu ici.

Important. Les candidats affichés dans la démo sont des artefacts de recherche, pas des recommandations médicales. Les prédictions corroborées par des bases externes sont des pistes méritant l'examen d'un clinicien — pas des traitements validés. Les prédictions non corroborées ne doivent pas être supposées inutiles. Consultez un clinicien pour toute décision de traitement.