重庆市科卫联合医学科研项目(2022MSXM145、2023MSXM075)
目的构建基于机器学习的妊娠地中海贫血(地贫)智能诊断模型,优化筛查策略。方法采用回顾性队列研究设计,收集2018年1月至2020年12月重庆两江新区人民医院4 715例孕产妇数据,其中α-地贫338例(7.17%),β-地贫286例(6.07%),正常对照4 091例(86.76%),包含血常规、血型及基因检测结果。通过LASSO回归筛选关键特征变量后,采用分层随机抽样按8︰2划分训练集(n=3 772)与测试集(n=943)。为了解决类别失衡问题,结合SMOTE过采样与成本敏感学习策略,使用6个关键指标来构建地贫诊断模型,并系统比较极端梯度提升(XGBoost)、决策树(DT)、K近邻算法(KNN)、线性判别分析(LDA)、朴素贝叶斯(NB)、随机森林(RF)、支持向量机(SVM)7种经典机器学习的诊断效能。模型评估采用受试者操作特征(ROC)曲线下面积(AUC)、F1-score及灵敏度和特异度等指标。结果特征选择确定红细胞(β=-0.21)、血红蛋白(β=0.28)、血细胞比容(β=-0.62)、血小板计数(β=-0.48)、平均血小板体积(β=0.36)、血小板压积(β=0.12)为关键预测因子。7种机器学习算法的AUC均大于0.88,但考虑灵敏度、特异度、阳性预测值、阴性预测值和约登指数综合判断,XGBoost模型表现最好,各项指标均为最高;RF模型次之。其余5个模型约登指数均<0.7。XGBoost模型表现最佳,AUC达0.980(95%可信区间0.967~0.993),F1-score为0.938,灵敏度为89.3%、特异度为94.0%,显著优于传统筛查指标(McNemar检验P<0.05)。结论基于血常规6项参数构建的XGBoost诊断模型具有良好临床适用性,结合合成采样与代价敏感学习策略有效解决数据失衡问题。该模型为地贫的产前筛查提供了高精度、低成本的解决方案。
张琴 ,肖爽 △,赵庆华 .基于机器学习构建妊娠地中海贫血智能诊断的算法模型[J].现代医药卫生,2025,41(10):2353-2357