Prédiction du taux cumulé de naissances vivantes chez les patientes suivant une fécondation in vitro (FIV)/injection intracytoplasmique de spermatozoïdes (ICSI) pour infertilité tubaire et masculine : une approche d’apprentissage automatique utilisant XGBoost
L’infertilité est un problème mondial croissant, et le recours aux technologies de procréation assistée (TPA) a considérablement augmenté ces dernières années. Parmi les méthodes de TPA, la fécondation in vitro (FIV) et l’injection intracytoplasmique de spermatozoïdes (ICSI) sont largement utilisées pour traiter les problèmes d’infertilité. Cependant, les taux de succès de ces traitements sont influencés par de nombreux facteurs, et les patientes font face à des coûts élevés et à des risques potentiels, tels que le syndrome d’hyperstimulation ovarienne, les infections et les grossesses multiples. Une prédiction précise des résultats des TPA est cruciale pour optimiser les stratégies thérapeutiques et améliorer le conseil aux patientes. Les modèles statistiques traditionnels, comme la régression logistique, ont été utilisés pour prédire des résultats tels que la stimulation ovarienne, la grossesse ou les complications obstétricales. Cependant, ces modèles présentent souvent une faible efficacité prédictive, soulignant la nécessité d’approches plus avancées.
Les progrès rapides de l’informatique ont facilité l’intégration de l’intelligence artificielle (IA) et de l’apprentissage automatique (ML) dans la recherche médicale. Ces méthodes ont démontré des performances supérieures aux techniques statistiques conventionnelles. Parmi les algorithmes de ML, l’eXtreme Gradient Boosting (XGBoost) s’est distingué par sa capacité exceptionnelle à analyser des ensembles de données complexes. XGBoost, un algorithme basé sur les arbres de décision, a été appliqué avec succès à diverses tâches de prédiction médicale, incluant le diagnostic et le pronostic de maladies. Sa robustesse face aux données manquantes et sa capacité à intégrer plusieurs modèles prédictifs faibles en un classifieur puissant le rendent particulièrement adapté aux données médicales complexes.
Cette étude visait à développer un modèle de prédiction utilisant XGBoost pour estimer le taux cumulé de naissances vivantes (CLBR) chez des patientes suivant un traitement FIV/ICSI pour infertilité tubaire ou masculine. Les performances du modèle XGBoost ont été comparées à celles d’un modèle conventionnel de régression logistique afin d’évaluer son utilité clinique.
Les données rétrospectives de 3 012 patientes traitées par FIV/ICSI à l’hôpital de l’Union médicale de Pékin (Chine) entre juillet 2014 et mars 2018 ont été analysées. Les patientes utilisant des donneuses/donneurs, celles atteintes d’endométriose, de maladies endocriniennes (hyperandrogénie, diabète, pathologies thyroïdiennes) ou avec des données manquantes ont été exclues. Les variables incluaient des caractéristiques cliniques, des taux d’hormones sexuelles et des paramètres d’hyperstimulation ovarienne contrôlée (HOC). Les principaux facteurs étudiés étaient l’âge, l’indice de masse corporelle (IMC), le type et la durée de l’infertilité, et le protocole de HOC (protocole long par agoniste de la GnRH, protocole ultra-long, protocole court, protocole antagoniste ou mini-stimulation). Les niveaux hormonaux (FSH, E2, LH, PRL, T) ont été mesurés à deux moments : au départ (jour 0) et le deuxième jour après le déclenchement (jour 1). Le critère principal était la naissance vivante, définie comme l’accouchement d’un nouveau-né viable après 28 semaines de gestation. Le critère cumulatif incluait le premier cycle frais et tous les cycles ultérieurs de congélation-décongélation issus de la même stimulation ovarienne.
Les analyses statistiques ont été réalisées avec R et EmpowerStats. Un modèle de régression logistique conventionnel a été développé par sélection rétrogressive de variables avec rééchantillonnage bootstrap. Le modèle XGBoost a été construit à l’aide du package open-source XGBoost, analysant l’importance des caractéristiques et déterminant le seuil de probabilité pour les naissances vivantes. Les performances prédictives ont été évaluées via la sensibilité, la spécificité, la valeur prédictive positive (VPP), la valeur prédictive négative (VPN) et l’aire sous la courbe ROC (AUC). Des courbes de calibration et une analyse de courbe de décision (DCA) ont permis d’évaluer l’utilité clinique.
Parmi les 3 012 cas, 2 101 concernaient une FIV et 911 une ICSI. Le modèle XGBoost a identifié l’âge, les niveaux d’E2 au jour 1 (E21), de PRL1, de LH0, de LH1, d’E20, de PRL0 et la dose totale de FSH comme les variables les plus prédictives. Le modèle de régression logistique a sélectionné l’âge, l’infertilité secondaire, l’ICSI, le nombre de cycles FIV antérieurs, la dose totale de FSH, FSH0, T0, PRL1, LH1, E21, P1 et T1.
Le modèle XGBoost a montré des performances supérieures à la régression logistique, avec une AUC de 0,901 (IC 95 % : 0,890–0,912) contre 0,724 (IC 95 % : 0,708–0,741 ; p < 0,001). Les deux modèles étaient bien calibrés. La DCA a indiqué un bénéfice net plus élevé pour XGBoost, soulignant son utilité clinique potentielle.
Ces résultats mettent en évidence l’avantage des modèles d’apprentissage automatique, en particulier XGBoost, pour prédire les issues des TPA. La capacité discriminatoire élevée et le bénéfice net de XGBoost en font un outil prometteur pour personnaliser le conseil et les stratégies thérapeutiques. Une prédiction précise du CLBR pourrait aider les patientes à prendre des décisions éclairées, optimisant leurs chances de succès tout en réduisant les risques et les coûts.
Des études antérieures, comme le modèle McLernon (C-index 0,72–0,73), ont exploré la prédiction du CLBR mais sans inclure certains facteurs comme l’AMH ou l’IMC. D’autres travaux ont utilisé des algorithmes de ML (forêts aléatoires, XGBoost) avec des AUC allant jusqu’à 0,81. Cependant, aucune n’avait comparé directement les modèles de ML aux modèles conventionnels.
Les limites de cette étude incluent son design rétrospectif, le recrutement monocentrique et l’absence de validation externe. Des recherches futures devront valider ce modèle sur des cohortes multicentriques plus larges.
En conclusion, ce modèle XGBoost prédit avec précision le CLBR chez les patientes FIV/ICSI pour infertilité tubaire ou masculine. Sa supériorité par rapport à la régression logistique en fait un outil clinique précieux pour personnaliser les traitements et améliorer les taux de succès.
doi.org/10.1097/CM9.0000000000001874