Identification Rapide de la Maladie Rénale Chronique dans les Bases de Données des Dossiers de Santé Électroniques Utilisant un Phénotype Calculable Combiné à un Modèle de Données Commun
La maladie rénale chronique (MRC) représente un fardeau majeur pour la santé publique mondiale, avec une prévalence dépassant 10 % à l’échelle mondiale. Cependant, la sensibilisation à la MRC reste faible, autour de 10 %. À l’ère du big data, l’amélioration de l’identification de la MRC à l’aide d’outils informatiques est cruciale. Les phénotypes calculables se sont avérés être des outils efficaces pour faciliter le processus d’identification des patients à partir des données des dossiers de santé électroniques (DSE). Ces phénotypes sont des algorithmes automatiques qui identifient la population cible à travers des critères objectifs avec des déclarations logiques. Une mise en œuvre efficace d’un phénotype calculable dépend du mappage valide des données brutes à un ensemble standard de données et de définitions. Des études antérieures ont développé des phénotypes calculables pour l’identification de la MRC en anglais utilisant les codes LOINC (Logical Observation Identifiers Names and Codes) et les codes ICD (International Classification of Diseases). Cependant, la mise en œuvre de ces phénotypes calculables dans des contextes non anglophones et/ou en l’absence d’un système de codage identique est difficile en raison d’une utilisation limitée et de barrières linguistiques.
Un modèle de données commun (MDC) a été proposé comme solution pour la standardisation des données et la localisation des phénotypes calculables. Le cœur d’un MDC est l’extraction des éléments clés, leur transformation en une terminologie standard et leur chargement dans un processus standard d’extraction, transformation et chargement (ETL). Divers MDC, tels que le MDC de l’Observational Medical Outcomes Partnership, le MDC Sentinel et le MDC du Patient-Centered Outcomes Research Network, ont été largement utilisés et ont facilité avec succès la standardisation des données des DSE. Cependant, un MDC spécifique pour la caractérisation de la MRC fait encore défaut.
La confirmation de la MRC prend généralement au moins trois mois, ce qui entrave un diagnostic rapide et augmente les diagnostics manqués dans la pratique clinique, en particulier pour les patients consultant dans différents établissements. Les bases de données des DSE collectent les données de santé de manière continue à travers les établissements et les mettent à jour en temps réel, ce qui en fait des outils prometteurs pour la surveillance et l’identification des patients atteints de MRC. Cette étude suppose qu’un phénotype calculable combiné à un MDC pourrait faciliter l’extraction et l’identification des données liées à la MRC à partir des données des DSE.
L’étude a été menée à Yinzhou, un district de Ningbo, dans la province du Zhejiang, en Chine, avec une population de 1,6 million d’habitants. Le système d’information de santé régional (RHIS) de Yinzhou collecte les DSE des résidents et met à jour la base de données en temps réel. Un code d’identité unique (PERSONKEY) a été généré à partir de l’identifiant personnel, du sexe, de la date de naissance et du nom pour reconnaître les personnes identiques, relier les profils de santé dans différentes sous-bases de données et générer des DSE complets. Les DSE de 976 409 adultes avec des dossiers médicaux ont été extraits comme données brutes pour l’analyse. L’étude a été approuvée par le comité d’éthique de l’hôpital universitaire de Pékin.
Le MDC pour la caractérisation de la MRC a été conçu conformément aux principes décrits dans The Book of OHDSI: Observational Health Data Sciences and Informatics. Les éléments clés pour l’identification de la MRC, tels que définis par les directives cliniques KDIGO (Kidney Disease: Improving Global Outcomes) pour la MRC (2012), incluent l’âge, le sexe, la fonction rénale et les anomalies urinaires. Le domaine de données du MDC pour l’identification de la MRC a été conçu pour inclure les données démographiques, les tests de laboratoire et les diagnostics. La terminologie standard pour les domaines de données a été définie conformément aux directives cliniques KDIGO-MRC et aux codes ICD-10 en anglais et en chinois. Les formulaires contenant les données démographiques (âge, sexe), les tests de laboratoire (fonction rénale, albuminurie, protéinurie, hématurie) et les diagnostics (codes et textes ICD-10) dans la base de données des DSE ont été intégrés par PERSONKEY. Un total de 10 981 723 dossiers médicaux de 976 409 individus dans la base de données des DSE ont été préparés pour l’extraction des vocabulaires originaux.
Les règles de mappage entre les vocabulaires originaux et la terminologie standard ont été établies par annotation manuelle et conversion de format. Deux néphrologues ont effectué l’annotation de manière indépendante, et un informaticien a réalisé le mappage. L’algorithme du phénotype calculable pour l’identification de la MRC a été conçu conformément aux directives cliniques KDIGO pour la MRC. Les patients présentant au moins l’une des manifestations suivantes pendant plus de trois mois ont été définis comme ayant une MRC : (1) fonction rénale réduite : débit de filtration glomérulaire estimé (DFGe) inférieur à 60 mL/min/1,73 m² ; (2) albuminurie : rapport albumine/créatinine urinaire ≥30 mg/g ou concentration d’albumine urinaire ≥20 mg/L ; (3) protéinurie : rapport protéine/créatinine urinaire ≥150 mg/g, ou protéinurie des 24 heures ≥150 mg/24 h, ou protéinurie à l’analyse d’urine ≥+1 ; (4) hématurie sans causes non liées à la MRC, y compris les néoplasmes urologiques, les infections des voies urinaires et les lésions. Critères pour l’hématurie : globules rouges urinaires ≥3 cellules/HPF (ou >28 cellules/mL) ou sang occulte urinaire ≥+2 ; (5) diagnostic lié à la MRC, y compris les maladies rénales primaires, secondaires ou congénitales, les maladies vasculaires rénales, la dialyse de maintien et le receveur/donneur de transplantation rénale. Les patients qui ont subi des tests répétés sur une période de trois mois et ont été confirmés comme ne présentant aucune des manifestations mentionnées ci-dessus ont été définis comme des cas normaux. Les patients qui présentaient ces manifestations pendant moins de trois mois ou qui n’ont pas subi de test répété ont été définis comme des cas à traiter et à traiter dans la prochaine itération de l’identification de la MRC.
Sept établissements ont été sélectionnés parmi 42 établissements de santé à Yinzhou pour mettre en œuvre le phénotype calculable basé sur le MDC. Il s’agissait de trois hôpitaux généraux de niveau tertiaire, de deux hôpitaux spécialisés (un hôpital de maternité et de pédiatrie et un hôpital orthopédique), d’un hôpital général de niveau secondaire et d’un centre de santé communautaire.
La performance du phénotype calculable a été validée par une revue manuelle. Les cas identifiés comme ayant ou non une MRC ont été sélectionnés au hasard, et leurs dossiers originaux de données démographiques, de diagnostics et de tests de laboratoire ont été revus manuellement par deux néphrologues. Pour ceux sans MRC, tous les diagnostics et les tests de laboratoire liés à la MRC dans la base de données ont été extraits et revus manuellement. Pour ceux avec MRC, tous les diagnostics et les tests de laboratoire à partir de la date de présentation de la MRC jusqu’à la fin de la base de données ont été extraits et revus manuellement. Des discussions en panel ont eu lieu en cas d’opinions divergentes. La revue par les néphrologues a été définie comme la norme de référence pour l’identification de la MRC. Le traitement des données et les calculs dans le RHIS ont été basés sur le framework Hadoop, avec le moteur de calcul Spark et l’entrepôt de données Hive pour le support du langage SQL (Structured Query Language). Le processus ETL du MDC et la mise en œuvre du phénotype calculable ont été réalisés à l’aide d’instructions SQL.
Les caractéristiques démographiques et cliniques des patients identifiés avec une MRC ont été analysées. Les stades des patients identifiés avec une MRC ont été évalués en termes de niveaux de DFGe et présentés en G1–G5. Les variables continues et catégorielles ont été présentées respectivement sous forme de moyenne ± écart-type et de fréquence. La performance du phénotype calculable a été évaluée en termes de sensibilité, spécificité et exactitude et analysée à l’aide de MedCalc 15.8.
La terminologie standard pour la caractérisation de la MRC est montrée dans le processus de développement du MDC pour la caractérisation de la MRC et du phénotype calculable pour l’identification de la MRC. Un total de 617 vocabulaires originaux pour les tests de laboratoire ont été trouvés et standardisés en traitant 10 981 723 dossiers médicaux de 976 409 individus provenant de 42 établissements médicaux. Les formats de date, les données catégorielles et l’unité de test ont été convertis. Par annotation manuelle, 111 types de diagnostics (correspondant à 171 types de codes ICD-10 en versions anglaise et chinoise), y compris les maladies rénales primaires, secondaires et congénitales, les maladies vasculaires rénales et les diagnostics liés à l’urémie, ont été réorganisés comme diagnostics liés à la MRC.
En scannant 21 474 008 enregistrements de tests de laboratoire et de diagnostics de 557 719 individus dans sept établissements médicaux, 64 036 (11,5 %) patients atteints de MRC ont été identifiés par le phénotype calculable. Parmi eux, 55 682 (87,0 %) patients ont subi des tests de créatinine sérique. La majorité des patients étaient aux stades précoces (G1 : 33 315 cas [59,8 %] ; G2 : 12 980 cas [23,3 %]). Les patients en G1 étaient les plus jeunes (53,7 ± 14,0 ans), tandis que les patients en G4 étaient les plus âgés (82,3 ± 14,6 ans). La plus forte proportion d’hématurie et d’albuminurie/protéinurie a été observée en G1 (17 187 cas [51,6 %]) et en G5 (417 cas [51,3 %]), respectivement. La fréquence des patients étiquetés avec un code ICD-10 lié à la MRC a augmenté de G1 (16 795 cas [50,4 %]) à G5 (737 cas [90,7 %]).
Au total, les DSE de 50 cas identifiés avec une MRC et de 50 cas sans MRC ont été échantillonnés au hasard et revus par deux néphrologues. Cinquante cas identifiés avec une MRC ont été confirmés comme ayant la maladie, et trois cas sans MRC ont été définis comme mal classés car ils ne répondaient pas au critère de tests répétés sur trois mois. La sensibilité, la spécificité et l’exactitude du phénotype calculable pour l’identification de la MRC étaient respectivement de 94,3 %, 100,0 % et 97,0 %.
Par rapport aux modèles précédents, le phénotype calculable actuel a particulièrement pris en compte l’utilisation des données non uniformes existantes et sa capacité de localisation à travers des bases de données avec des paramètres différents. L’algorithme du phénotype calculable actuel a combiné les enregistrements de diagnostics liés à la MRC et les tests de laboratoire pour améliorer l’utilisation des données et le taux d’identification. La terminologie du MDC a préféré une description standard plutôt qu’un système de codage, afin de réserver le potentiel d’expansion ultérieure dans des bases de données étrangères en l’absence d’un système de codage identique. Conformément aux résultats actuels de la mise en œuvre, les données des DSE dans différents niveaux d’établissements de santé ont été scannées avec succès, et la prévalence de la MRC et les caractéristiques des patients identifiés avec une MRC étaient cohérentes avec les études représentatives nationales précédentes.
La présente étude a établi un paradigme reproductible pour la conception et la construction de MDC et de phénotypes calculables dans d’autres domaines et bases de données. Une légère expansion des critères d’identification de la maladie basée sur la définition standard de la maladie est autorisée pour équilibrer l’utilisation des données et le taux d’identification. L’intégration d’un MDC dans le phénotype calculable peut améliorer l’efficacité de sa mise en œuvre à travers différentes bases de données. Un MDC contenant une terminologie non monotone augmentera le potentiel de localisation. Enfin, la correspondance entre les terminologies anglaise et chinoise peut être l’interface pour relier les données en chinois et les ressources et techniques existantes en anglais. Cette stratégie peut être réalisable pour promouvoir l’extraction des données et l’échange d’informations dans d’autres langues.
doi.org/10.1097/CM9.0000000000002168