使用机器学习和逻辑回归进行组合,预测接受健康体检的540万名脂肪肝病患者动脉颈动脉斑块风险
2024-01-09 美年健康研究院 美年健康研究院 发表于陕西省
本研究旨在结合机器学习(ML)和Logistic回归的优势,建立一种简单、直观的预测模型,以识别脂肪肝病人群中具有颈部动脉斑块风险的个体,并提供风险分级的分界点,为颈动脉超声检测提供指导。
2023年7月,美年健康研究院和北京大学公共卫生学院共同在国际著名期刊" JMIR Public Health & Surveillance "上发表了一篇题为" Combinatorial Use of Machine Learning and LogisticRegression for Predicting Carotid Plaque RiskAmong 5.4 Million Adults With Fatty Liver DiseaseReceiving Health Check-Ups: Population-BasedCross-pal Study "的研究论文。
1 颈动脉斑块可发展为中风、心肌梗死等作为全球主要死因的疾病。证据显示,脂肪肝病患者中颈动脉斑块的发病率显著增加。然而,与肝脏超声的普及率和脂肪肝病的高检出率不同,由于成本效益等原因,在无症状人群中筛查颈动脉斑块尚未普及,这会导致许多患者未被发现其颈动脉斑块,尤其是患有脂肪肝病的患者。
本研究旨在结合机器学习(ML)和Logistic回归的优势,建立一种简单、直观的预测模型,以识别脂肪肝病人群中具有颈部动脉斑块风险的个体,并提供风险分级的分界点,为颈动脉超声检测提供指导。
研究选取了2017年1月1日至2022年6月30日期间,来自全国除港澳台以外的31个省、自治区和直辖市的5,420,640名美年大健康体检人群作为样本。研究纳入了通过肝脏超声检查诊断为脂肪肝并接受颈动脉超声检查的参与者;对于参加过 2 次或以上检查的体检者,研究纳入了其最完整的记录分析进行;此外,研究排除了年龄小于 18 岁,并且有超过 30% 的潜在预测因子缺失或有心脑血管病史的参与者。
2 研究人员采用随机森林(Random forest,RF)、弹性网络(Elastic net,EN)和极限梯度提升(XGBoost)算法从潜在预测因子中选择重要特征,将三种算法共同识别的重要特征纳入Logistic回归模型,以建立颈动脉斑块预测模型。模型性能由受试者工作特征曲线下面积(AUROC)、校准曲线、Brier评分和决策曲线分析进行评价,并通过来源于美兆健康体检中心的32682名参与者组成的数据集进行外部验证。
此外,研究人员根据Youden指数、预测概率和患病率的分布情况确定了颈动脉斑块的风险分界点,将参与者划分为高风险、中风险和低风险组。并在外部验证集对此风险分界点进行了进一步验证。
Figure:Probability distribution and risk classification plot generated by the carotid plaque prediction model in population with fatty liver disease in (A) internal validation data set and (B) external validation data set.
3 开发集中,26.23%(1421970/5420640)的研究对象被诊断为患有颈部动脉斑块,外部验证集中,21.64%(7074/32682)的研究对象被诊断为患有颈部动脉斑块。在27个预测因子中,三个ML共同识别的6个重要预测因子为年龄、收缩压、低密度脂蛋白胆固醇(LDL-C)、总胆固醇、空腹血糖和血糖脂肪变性指数(HSI)。
在消除特征之间的共线性问题后,由5个独立预测因子建立的逻辑回归模型在内部验证集中的AUROC为0.831,在外部验证集中的AUROC为0.801,并且表现出良好的校准能力。此外,该研究确定了25%和65%的预测概率值作为风险分界点,用于将个体划分为低风险、中风险和高风险组。
ML和逻辑回归的结合产生了一个简单、实用的颈动脉斑块预测模型,对于颈动脉斑块患者的早期识别和风险评估具有重要的公共卫生意义。
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
#机器学习# #脂肪肝病# #动脉颈动脉斑块#
87