L’apprentissage automatique identifie des caractéristiques génétiques associées aux séquences du VIH dans les monocytes
L’ADN du virus de l’immunodéficience humaine (VIH) a été détecté dans les monocytes circulants isolés de patients infectés par le VIH, avec ou sans thérapie antirétrovirale (ART). Bien que la fréquence et les niveaux d’ADN viral soient faibles, ces cellules hébergent des variants compétents pour la réplication et non latents chez les patients sous ART. Les études antérieures ont révélé des populations virales distinctes et des caractéristiques génétiques différentes entre les monocytes et les lymphocytes T. Cependant, il n’existe actuellement aucune méthode simple pour distinguer clairement le virus dans les monocytes de celui dans les lymphocytes T.
Les monocytes circulants ne persistent dans le sang que quelques jours avant de migrer vers les tissus et de se différencier en macrophages. Les monocytes infectés par le VIH pourraient disséminer le virus vers des sites comme le système nerveux central (SNC) ou l’appareil génital masculin, où des phénomènes de compartimentation virale ont été observés. Une hypothèse est que les monocytes sont infectés par des virus à tropisme macrophagique répliqués dans les macrophages tissulaires. Identifier les déterminants génétiques des virus dans les monocytes pourrait améliorer notre compréhension des variants à tropisme macrophagique et guider les stratégies d’éradication du réservoir viral.
Dans la plupart des études sur les virus à tropisme macrophagique, le clonage de la région env dans des pseudovirus a permis de définir le tropisme via l’entrée et la réplication. Ces travaux ont montré que l’efficacité d’entrée dans les macrophages via de faibles densités de CD4 et de corécepteur est un critère clé. Des mutations dans le site de liaison à CD4 de l’enveloppe (env), comme la substitution N283 dans la région C2 (augmentant l’affinité de gp120 pour CD4) ou la perte du site de glycosylation N386 dans V4, ont été associées au tropisme macrophagique. La boucle V3, impliquée dans la liaison au corécepteur, joue également un rôle, avec des substitutions comme S306R et I326.
L’apprentissage automatique (ML) offre un outil prometteur pour prédire les provirus dans le réservoir macrophagique. Les méthodes de ML, appliquées à des séquences du VIH, ont permis de prédire l’utilisation du corécepteur, les épitopes immunitaires ou les mutations de résistance aux antirétroviraux. Dans cette étude, nous avons utilisé le ML pour distinguer les génomes viraux des monocytes de ceux des lymphocytes T à partir de séquences env.
Méthodes
Les segments env C2V3C3 de sous-type B, isolés de monocytes et de lymphocytes T appariés, ont été extraits de la base de données de VIH de Los Alamos (21 mai 2022). Les séquences codantes et protéiques ont été alignées via Gene Cutter. Les monocytes CD14+ et lymphocytes T CD4+ ont été purifiés à partir de cellules mononucléées sanguines (PBMC) avec une pureté >99%. Les arbres phylogénétiques des segments env ont été estimés sous MEGA X avec le modèle de substitution GTR + Γ + I. La compartimentation génétique a été évaluée via les tests de Slatkin–Maddison (HyPhy) et Hudson (Snn), avec un seuil de significativité à P ≤0,01.
Les analyses ont été réalisées sous R 4.0.2 avec le package HANDPrediction. Les séquences ont été divisées en groupes d’entraînement (80 %) et de test (20 %). Chaque acide aminé a été converti en cinq propriétés biophysicochimiques (« Hydro », « Charge », « Polar », « Distribution », « Flexi ») via l’indice AAIndex. Après suppression des colonnes non informatives, 4880 caractéristiques ont été conservées. Des algorithmes de ML (SVM, RF, GBM, XGBL, XGBT) et un modèle « stacking » ont été évalués via une validation croisée répétée.
Résultats
Parmi 504 séquences env C2V3C3 issues de huit patients, 266 provenaient de lymphocytes T (14–58/patient) et 238 de monocytes (18–42/patient). Les tests de compartimentation ont confirmé une différenciation significative entre les populations virales des monocytes et lymphocytes T.
Le modèle XGBL a atteint une précision moyenne de 79,0 % (meilleure performance : 86,5 %), avec une spécificité de 0,94. Cinq positions d’acides aminés (297, 326, 335, 355, 395) ont été identifiées comme discriminantes. Les variants 297I, 326D, 335N (indice ARGP820101, hydrophobie), 355G (indice PONP800105, beta-sheet) et 395W/T (indice KUMS000101, résidus thermophiles) étaient enrichis dans les monocytes. Un modèle basé sur ces cinq caractéristiques a montré une précision globale de 73,4 % (IC 95 % : 0,69–0,77).
Discussion
Les positions 297 et 326, situées dans la boucle V3, influencent l’interaction avec le corécepteur CXCR4, notamment via I326, critique pour l’entrée dans les macrophages. Les positions 335 (région C3) et 355 (nouvellement associée au tropisme) pourraient moduler l’affinité de liaison à CD4. La migration des monocytes infectés vers des sites anatomiques comme le SNC pourrait expliquer la compartimentation virale.
Conclusion
Cette étude identifie des déterminants génétiques clés du VIH dans les monocytes, éclairant le tropisme macrophagique et les mécanismes de persistance virale. Ces résultats ouvrent de nouvelles perspectives pour cibler le réservoir myéloïde dans les stratégies curatives.
doi.org/10.1097/CM9.0000000000002932