临床研究中最常用的三种回归建模类型是什么?

在过去的十年中,用于构建和验证临床研究预测模型的文章数量有所增加。什么是预测模型?简而言之r语言多元回归分析案例,模型本身是一个数学公式,可以用已知参数预测未知的临床结果。即利用已知参数的所谓模型计算未知结果的概率称为预测。

临床预测模型的统计性质是回归建模分析。

回归的本质是寻找因变量Y和多个自变量X之间的数学关系。临床研究中最常用的三种回归建模类型是:多元线性回归、Logistic回归和Cox回归。

当我们在训练集中通过变量选择建立回归模型时,如何科学地评价回归模型预测的准确性?

第 6 节中给出的示例:有两个算命先生,每个人在街角都有一个摊位。王小姐想让一位算命先生告诉她她的婚姻命运。她应该问谁?张先生还是李先生?一个简单的选择方法是比较谁更准确。但是,这只能通过过去客户的口耳相传而知道。临床预测模型类似。

临床模型最基本的要求是确保准确的预测。那么如何评估预测模型是否正确呢?一般来说,可以从以下三个方面来评估预测模型的优缺点。

辨别能力

它是指回归模型区分疾病/无疾病、有效/无效和死亡/存活结果的预测能力。

比如有100人,其中50人确诊,50人未患病;我们使用预测方法预测有 45 人生病,55 人没有生病。那么,这 45 人中与真正患病的 50 人重叠的人数,直接决定了模型预测能力的准确性r语言多元回归分析案例,我们称之为“准确度”。

它通常由 ROC 曲线和 C 统计量来衡量(在逻辑回归模型中,AUC 等于 C 统计量)。当然,NRI 和 IDI 是其他指标的一部分。我们将在本专栏的未来版本中进一步解释这些内容。

C 指数是一个整体指标,尤其是在用于评估 Cox 回归模型的判别力时。C-index 范围从 0.5 到 1.0。C index = 0.5表示完全不一致,说明模型没有预测效果;C index = 1.0 表示完全一致,说明模型预测结果与实际完全吻合。C-index一般被认为在0.50到0.70之间准确度较低,在0.71到0.80之间准确度中等,在0.之间准确度中等@> >80 精度更高,0.9 精度更高。

C-Index(C-Index,全称Concordance Index)也常写为Harrell’s C-Index、Concordance C、C-statistic等,主要用于反映预测模型的判别能力,由Harrell首先引入1996 年生物统计学教授 2009 年在范德比尔特大学提出,看看该模型是否能做出准确的预测。

C-Index的定义很简单,C-Index = Consistent Pair/Available Pair。想象一下所有被试随机配对,N个被试会产生N*(N-1)/2对。如果样本量N很大,计算量大,必须通过计算机软件完成。我们首先找到共识对作为一个分子。

什么是一致对?以生存分析的Cox回归分析为例,如果实际生存时间较长,则预测的生存概率较大,或者生存时间较短的生存时间较小,即预测结果与实际结果一致,反之亦然。然后我们在许多对中找到可用对作为分母。

有哪些可用的配对?例如,在这种情况下的生存分析的 cox 回归分析中,要求两个可用对中的至少一个具有目标终点事件。也就是说,如果在整个观察期内,两个配对对象都没有端点事件,则不能将它们包含在分母中。此外,还有两种情况需要排除:

(一)如果两对中的一方有终点事件,另一方失访,这种情况不能与两人的生存时间相比较,应排除;

(二)同时死亡的两对人员也应排除在外。

C-index 与 AUC 有什么关系?我们已经说过,C-index 是一个指标,可以用来评估各种模型的判别力。对于二元逻辑回归模型,C 指数可以简化为:预测患有疾病的患者比预测疾病本身具有更大的患病概率。结果表明二元逻辑回归的C指数与AUC相当。AUC主要反映二元逻辑回归模型的预测能力,C-Index可以评价各种模型预测结果的准确性。不难理解,C-Index 是 AUC 的扩展,AUC 是 C-Index 的一个特例。

一致性和校准 R 平方 (R2)

C-Index的计算方法

在很多临床文章中,我们经常可以看到统计方法中描述的方法的判别能力是用C统计量或C-Index来衡量的。

下面我们将用R语言来说明这个COX回归中C-Index的计算方法。逻辑回归的C统计值的计算方法在之前的推文中已经说明——使用R计算逻辑回归模型的C统计量。本文主要介绍R语言的计算过程。

我们尽量避免复杂的原则。严格来说,C-Index包括以下几种,因为临床上比较常用,我们只介绍第一种。

(I) 哈雷尔 C;

(II) Begg 等人的 C 统计量。(survAUC::BeggC);

(III) Uno 等人的 C 统计量。(survC1::Inf.Cval;survAUC::UnoC);

(IV) Cox 模型的 Gonen 和 Heller 一致性指数 (survAUC::GHCI, CPE::phcpe, clinfun::coxphCPE)。

COX回归模型中常用的C-Index计算方法有两种:

(一)方法一:直接使用survival包中的coxph()函数输出结果。

R语言需要更新到2.15以上的版本。为了看到这种方法得到的C-Index(对应模型参数C),需要提前安装生存包。还可以推导出标准误(SE),在1.96*SE上加上或减去C就可以得到95%的置信区间。这种方法也适用于许多组合指标。

(二)方法二:使用rms包中的cph()函数和validate()函数,可以得到未调整和偏置调整的C-Indexes。

R 代码及其注释

模拟一组生存数据,并将其设置为数据框结构,age(年龄)和bp为自变量,os和death(死亡)为生存终点,数据集命名为“sample.data”,数据集的前6行操作如下:

(一)方法一:

使用survival包,加载survival包,coxph()函数拟合COX回归模型,summary()函数显示模型结果并赋值给对象sum.surv,模型的参数一致性为显示,即 C-Index 。在这个例子中 C-Index =0.5416, se(C)=0.02704

(二)方法二:

使用rms包建立COX回归模型,读取模型的参数Dxy,Dxy*0.5+0.5为C-Index。注意:这里的seed是用set来设置的,由于validation函数的调整结果是随机的,因此seed()函数是为了重复最终的结果。

计算校正后的 C-Index 和未校正的 C-Index,结果如下所示。

未更正的 C 指数 =0.5416,更正的 C 指数 =0.5276。

概括

C-Index是评价Cox回归模型最重要的参数之一,它反映了模型预测效果的优劣,是衡量模型判别的重要参数。但是,IBM SPSS 无法计算此参数。本节介绍 R 中的两种计算方法,掌握其中一种就足够了。作者推荐第一种方法,因为这种方法可以同时得到C-Index和它的标准误,所以很容易计算C-Index的置信区间。

参考文献:Zhi-Rui Zhou, Wei-Wei Wang, Yan Li, et al. 临床数据的深度挖掘:用R.Annals of Translational Medicine构建临床预测模型。

谢谢:一些数据的临床研究和医学统计。

研猫公众号背景

对话发送:临床模型 7

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发

请登录后发表评论