Application de l’apprentissage profond à l’imagerie échographique bidimensionnelle Doppler couleur améliore significativement les performances diagnostiques dans la classification des masses mammaires : une étude multicentrique
Le cancer du sein demeure l’un des cancers les plus prévalents chez les femmes à l’échelle mondiale, soulignant le besoin crucial de méthodes diagnostiques précoces et précises. L’imagerie échographique (US), en particulier l’imagerie bidimensionnelle (2D) et l’imagerie Doppler couleur (CDFI), constitue une pierre angulaire dans l’évaluation des masses mammaires en raison de son caractère non invasif et de son accessibilité. Cependant, la différenciation entre les catégories cliniquement distinctes de masses mammaires — masses inflammatoires, adénoses, tumeurs bénignes et tumeurs malignes — reste un défi, même pour les radiologues expérimentés. Les approches traditionnelles d’apprentissage profond pour la classification des masses mammaires se sont principalement concentrées sur une différenciation binaire (bénigne vs. maligne), négligeant la nécessité clinique de catégoriser les lésions en sous-types influençant directement les stratégies thérapeutiques. Cette étude comble cette lacune en développant un réseau de neurones convolutif (CNN) capable de classer les masses mammaires en quatre catégories cliniquement pertinentes en utilisant l’imagerie échographique multimodale.
Contexte clinique et motivation
En Chine, les masses mammaires sont catégorisées en quatre groupes basés sur les voies de traitement : masses inflammatoires, adénoses, tumeurs bénignes et tumeurs malignes. Cette classification est cruciale car chaque catégorie nécessite une prise en charge clinique distincte. Par exemple, les masses inflammatoires telles que la mastite granulomateuse (GM) miment souvent une malignité à l’échographie, entraînant des biopsies inutiles. De même, l’adénose sclérosante (SA), un type d’adénose, présente fréquemment des bordures irrégulières et des microcalcifications, ressemblant à des tumeurs malignes. Les erreurs de diagnostic de ces conditions peuvent entraîner un surtraitement ou des retards d’intervention. Les systèmes existants d’aide au diagnostic (CAD) se concentrent principalement sur la distinction bénigne/maligne, laissant un vide diagnostique pour les sous-types comme l’adénose et les masses inflammatoires. L’innovation de cette étude réside dans son cadre de classification multiclasse, aligné sur les workflows cliniques et améliorant la précision décisionnelle.
Conception de l’étude et collecte de données
L’analyse rétrospective multicentrique a inclus 3 623 patients provenant de 13 hôpitaux répartis dans neuf provinces chinoises. Les données incluaient 15 648 images échographiques acquises entre janvier 2016 et janvier 2018. Les critères d’inclusion exigeaient une confirmation histopathologique par biopsie ou chirurgie, avec des lésions classées dans les quatre catégories prédéfinies. Les patients porteurs de corps étrangers (ex. implants mammaires), de co-infections VIH ou d’images de mauvaise qualité (floues ou artéfactées) ont été exclus. Le jeu de données comprenait 1 601 tumeurs bénignes, 1 179 tumeurs malignes, 572 masses inflammatoires et 271 cas d’adénose. Les images ont été obtenues avec divers systèmes US (GE LOGIQ E9, Siemens, Hitachi, etc.), reflétant une hétérogénéité d’équipements et de protocoles.
Architecture d’apprentissage profond
L’architecture du CNN comprenait deux modules : un module de détection pour localiser les masses mammaires et un module de classification pour catégoriser les lésions.
-
Module de détection :
- Extraction de caractéristiques : ResNet-50 générait des cartes de caractéristiques à partir des images, tandis que des réseaux pyramidaux de caractéristiques (FPN) capturaient des caractéristiques multi-échelles pour s’adapter aux variations de taille des lésions et d’équipements.
- Proposition de régions : Une régression de boîtes englobantes identifiait les régions candidates, avec suppression non maximale pour éliminer les propositions de faible confiance. La perte focale corrigeait le déséquilibre de classes pendant l’entraînement.
-
Module de classification :
- Variantes du modèle : Trois configurations ont été évaluées :
- Modèle 2D : Utilisant uniquement les images échographiques en niveaux de gris.
- Modèle 2D-CDFI : Combinant images 2D et Doppler couleur pour intégrer informations structurelles et vasculaires.
- Modèle 2D-CDFI-PW : Intégrant des données spectrales Doppler pulsé (PW) avec les modalités 2D et CDFI.
- Mécanismes d’attention : Pour le modèle 2D-CDFI-PW, des mécanismes d’attention fusionnaient les données spectrales PW avec les caractéristiques 2D et CDFI.
- Variantes du modèle : Trois configurations ont été évaluées :
L’entraînement utilisait la descente de gradient stochastique (SGD) avec un taux d’apprentissage de 0,001, un lot de 64 images, et une augmentation de données (rotation ±30°, mise à l’échelle 0,5–1,5×) pour éviter le surajustement. Un ensemblage par snapshot combinant cinq modèles partiels a renforcé la robustesse.
Résultats clés
Performances selon les modalités d’imagerie
Le modèle 2D-CDFI a obtenu les meilleures performances :
- Exactitude : 89,2 % (2D-CDFI) vs 87,9 % (2D) et 88,7 % (2D-CDFI-PW).
- AUC :
- Tumeurs bénignes : 0,94 (IC à 95 % : 0,93–0,95).
- Tumeurs malignes : 0,96 (IC à 95 % : 0,95–0,97).
- Masses inflammatoires : 0,80 (IC à 95 % : 0,77–0,83).
- Adénose : 0,81 (IC à 95 % : 0,78–0,84).
La sensibilité et la spécificité dépassaient 90 % pour les tumeurs bénignes et malignes, mais étaient inférieures pour les masses inflammatoires (sensibilité 55 %) et l’adénose (sensibilité 46 %), reflétant des déséquilibres de données et des caractéristiques d’imagerie subtiles.
Impact de la taille des lésions
L’exactitude du modèle 2D variait légèrement avec la taille :
- ≤1 cm : 81,7 %.
- 1–2 cm : 82,3 %.
- 2–5 cm : 85,1 %.
- >5 cm : 84,6 %.
Aucune différence significative n’a été observée entre les groupes (P > 0,05).
Validation multicentrique et généralisabilité
La validation indépendante avec des données de l’Hôpital d’amitié Chine-Japon (CJ) a confirmé l’adaptabilité du modèle :
- Jeu de données CJ (219 cas) :
- Modèle 2D : exactitude de 88,9 % pour les bénignes, 90,2 % pour les malignes.
- Modèle 2D-CDFI : exactitude de 85,7 % pour les bénignes, 90,9 % pour les malignes.
Des disparités de performances entre hôpitaux ont mis en évidence des variations de protocoles et de prévalence des lésions. Par exemple, les cas d’adénose de l’Hôpital universitaire de Zhengzhou montraient une exactitude de 17 % en raison d’un faible échantillonnage.
Comparaison avec les radiologues
Le CNN a surpassé 37 radiologues expérimentés dans une évaluation en aveugle de 50 images :
- CNN : exactitude de 89,2 %, temps de traitement de 400 ms (GPU).
- Radiologues : exactitude moyenne de 30 % (fourchette : 10–45 %), temps moyen d’interprétation de 314 secondes.
Ce contraste souligne le potentiel du CNN pour réduire les retards diagnostiques et optimiser l’efficacité clinique.
Implications techniques et cliniques
- Rôle du CDFI : L’intégration du Doppler couleur a amélioré l’exactitude en capturant des motifs vasculaires indicateurs de malignité (ex. flux sanguin intratumoral chaotique). Cependant, l’imagerie PW n’a pas contribué significativement, probablement en raison d’un manque de données (222 images PW).
- Robustesse algorithmique : Les performances constantes malgré les variations d’équipements et de tailles de lésions soutiennent son applicabilité dans des contextes cliniques divers.
- Intégration dans le workflow clinique : Le traitement en temps réel (latence de 1 seconde sur CPU) permet une intégration transparente, aidant les radiologues à prioriser les cas à risque et réduire les biopsies inutiles.
Limites et perspectives futures
- Déséquilibre des données : Les masses inflammatoires et l’adénose étaient sous-représentées, affectant la sensibilité.
- Imagerie PW : Des jeux de données plus larges sont nécessaires pour valider son utilité.
- Validation prospective : Bien que multicentrique, des études prospectives sont nécessaires pour évaluer les performances en conditions réelles.
Conclusion
Cette étude démontre que l’apprentissage profond, notamment avec l’imagerie 2D-CDFI, atteint une haute exactitude diagnostique pour classer les masses mammaires en quatre catégories cliniquement actionnables. En surpassant les radiologues en vitesse et précision, le modèle CNN proposé offre un outil transformateur pour réduire les erreurs diagnostiques, optimiser la planification thérapeutique et alléger la charge de travail des praticiens. Les efforts futurs devraient se concentrer sur l’élargissement des jeux de données pour les catégories sous-représentées et l’intégration de systèmes d’aide décisionnelle en temps réel.
doi.org/10.1097/CM9.0000000000001329