一种基于声明的机器学习算法,用于识别肺动脉高压患者
2023-06-11 刘少飞 MedSci原创 发表于上海
本研究描述了一种基于美国医疗保险索赔数据的机器学习算法的开发,用于早期识别PAH患者。
研究背景:
肺动脉高压(PAH)是一种与快速进展和不良预后相关的罕见疾病。典型的PAH症状,如呼吸困难和疲劳,是非特异性的,常常被误诊为其他疾病,因此诊断具有挑战性。这导致症状出现与PAH确诊之间存在长时间的延迟(平均超过2年),大多数新诊断的患者已经经历了严重症状。在过去的二十年里,PAH的治疗选择有所扩展,然而尽管如此,1年的死亡率估计为8%至17%,3年的死亡率为25%至44%。与诊断时疾病较轻的患者相比,诊断时疾病较重的患者预后更差。人工智能和机器学习算法在医疗保健领域的应用日益增多,并有望对临床决策产生重大贡献。机器学习算法评估大量数据以识别重复出现的主题或模式,然后用于预测关系。在需要考虑多个因素的任务中,这些算法可以提供明显的好处,例如诊断和预测结果。最近,已开发出使用大规模例行收集的患者数据库的机器学习算法,用于筛查疾病或识别高风险患者;例如,电子健康记录数据已在糖尿病和心力衰竭以及PAH中得到应用。在本文中,我们描述了一种基于美国医疗保险索赔数据的机器学习算法的开发,用于早期识别PAH患者。
研究方法及结果:
监督式ML模型分析了美国Optum® Clinformatics® Data Mart医疗索赔数据库(2015年1月至2019年12月)的回顾性去身份识别数据。根据观察到的差异,建立了与PAH和非PAH(对照组)配对的倾向评分。使用随机森林模型将患者在诊断时和诊断前6个月分类为PAH或非PAH。其中PAH组和非PAH组分别包括1339名和4222名患者。在诊断前6个月,该模型在区分PAH和非PAH患者方面表现良好,曲线下面积为0.84,召回率(敏感性)为0.73,准确率为0.50。区分PAH和非PAH组的关键特征包括首次症状出现与诊断前模型日期(即诊断前6个月)之间的时间较长;更多的诊断和处方索赔、循环索赔和影像检查,导致整体医疗资源利用率较高;以及更多的住院情况。我们的模型可以在诊断前6个月区分患有和不患有PAH的患者,并说明使用常规索赔数据识别可能受益于PAH特定筛查和/或较早转诊的患者在人群层面是可行的。
研究结论:
总之,我们的模型能够在诊断前6个月区分患有PAH和不患有PAH的患者。我们模型的表现说明了在人群层面识别可能需要进一步进行PAH特定筛查的患者是可行的,并且暗示了索赔数据能够识别除当前已建立的因素之外的特征,以在确认诊断之前指示PAH。即使在诊断之前,患有PAH的患者面临着比没有PAH的患者更高的费用和疾病负担;因此,更早诊断PAH可能不仅可以通过及时干预改善患者预后,还有助于降低患者、医疗系统和付款人的总体费用。该模型的理想使用方式是由综合性医疗服务提供商实施,用于早期识别PAH患者;PAH是一种罕见但慢性疾病,具有显著的医疗资源利用、昂贵的药物和高成本的专科护理。
参考文献:
Hyde B, Paoli CJ, Panjabi S, Bettencourt KC, Bell Lynum KS, Selej M. A claims-based, machine-learning algorithm to identify patients with pulmonary arterial hypertension. Pulm Circ. 2023 Jun 6;13(2):e12237. doi: 10.1002/pul2.12237. PMID: 37287599; PMCID: PMC10243208.
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言