01
02
03
04
生存曲线在精算师和人口统计学中非常普遍。它特别适用于分组数据。
为了在实际示例中显示此方法,我们首先需要创建聚合数据,即将后续分组并在每个层中计算风险。
基于分组的数据,我们估计会用生存曲线。
Nelson-Aalen估计
图形比较
可以绘制不同的生存函数估计值来评估潜在的差异。
可以从估计的生存曲线导出诸如分位数的集中趋势的度量。
估计半数人的寿命超过5.4年。
第一个四分之一的人在1.3年内死亡,而前四分之三的人的寿命超过1.3岁。
前三分之三的人在13.7年内死亡,而前四分之一的人死亡时间超过13.7岁。
估计量的图形表示(基于使用KM的生存曲线)
参数估算
我们将考虑三种常见的选择:指数,Weibull和log-logistic模型。
同样,可以用非参数估计图形地比较不同的方法
生存曲线的比较
例如,肿瘤阶段是癌症存活研究中的重要预后因素。我们可以估计和绘制不同颜色的不同组(阶段)的生存曲线。
通常,与具有高阶段肿瘤的患者相比,具有较低阶段肿瘤的诊断患者具有较低的(死亡率)。可以使用survfit()函数执行生存函数的整体比较。
由于低肿瘤阶段的发病率较低,因此肿瘤分期增加的中位生存时间也会减少。可以观察到相同的行为,分别针对不同的肿瘤阶段绘制KM生存曲线。
也可以为每个阶段级别构建整个生存表。这里是每个肿瘤阶段生存表的前3行。
Mantel-Haenszel logrank测试
默认参数rho = 0实现log-rank或Mantel-Haenszel测试。
Peto&Peto Gehan-Wilcoxon测试
不同的测试使用不同的权重来比较生存函数。在实际例子中,他们给出了可比较的结果e-r图转换成关系数据模型,表明不同肿瘤阶段的生存函数是不同的。
建模生存数据
当比较因子水平的生存函数时,非参数检验特别可行。它们非常强大,高效,通常简单/直观。
然而,随着感兴趣因素的数量增加,非参数测试变得难以进行和解释。相反,回归模型对于探索生存与预测因子之间的关系更为灵活。
我们将介绍两种不同的广泛模型:半参数(即比例风险)和参数模型。
CoxPH模型
在我们的例子中,我们将考虑将死亡时间建模为性别,年龄和肿瘤阶段的函数。
可以使用coxph()功能来建立Cox比例风险模型survival。
我们可以检查数据是否与每个变量的比例风险假设分别和全局一致。
显然没有找到违反比例假设的证据。
Cox模型的结果表明性别,年龄和阶段的显着影响。特别是,每增加10年,死亡率就会增加50%。与男性和女性相比,全因死亡率的HR为1.42。此外,估计数中第一阶段和第二阶段之间未发现任何差异。因此,谨慎的做法是将这些主题从数据中排除,并将前两个阶段组合为一个。
显示和图形化比较多变量Cox模型的结果的便捷方式是通过森林图。
让我们逐步绘制预测的生存曲线,根据拟合的模型确定性别和年龄的值
AFT模型
参数模型假设生存时间的分布。
可以证明,假设指数或威布尔分布的AFT模型可以重新参数化为比例风险模型。
显示eha。
系数的(指数)具有与Cox比例模型的系数的等效解释。
通过将参数提供fn给summary或plot方法,可以汇总或绘制拟合模型的参数的任何函数。例如,Weibull模型下的中位存活率可以概括为
将结果与Cox模型的结果进行比较。
泊松回归
可以证明,Cox模型在数学上等效于对数据的特定变换的泊松回归模型。
我们首先定义观察事件(all == 1)的唯一时间,并使用包中的survSplit()函数survival来分割数据。
拟合条件泊松回归,其中时间的影响(作为因子变量)可以被边缘化(不估计来提高计算效率)。
将从条件Poisson获得的估计值与cox比例风险模型进行比较。
如果我们想要估计基线风险,我们还需要估计泊松模型中时间的影响。
基线风险包括阶梯函数,其中速率在每个时间间隔内是恒定的。
更好的方法是通过使用例如具有节点(k )的样条来灵活地模拟基线风险。
比较不同的策略
我们可以根据特定协变量模式的预测生存曲线比较之前的策略,如65岁的女性患有肿瘤I期或II期。
生存函数的图形表示便于比较。
其他分析非线性
我们假设年龄对(log)死亡率的影响是线性的。放宽这一假设的可能策略是拟合Cox模型,其中年龄用二次效应建模。
非线性(即二次项)的值很高,因此没有证据可以拒绝零假设(即线性假设是合适的)。
如果关系是非线性的,则年龄系数不再可以直接解释。我们可以将HR作为年龄的函数以图形方式呈现。我们需要指定一个指示值;我们选择65岁的中位年龄值。
时间依赖系数
该cox.zph()函数可用于绘制个体预测因子随时间的影响,因此可用于诊断和理解非比例风险。
我们可以通过拟合的阶梯函数来放宽比例风险假设,这意味着在不同的时间间隔内有不同的
包中的survSplit()函数survival将数据集划分。
虽然不显着,但男女比较的风险比在第二时期(5至15年)低于1,而在其他两个时期高于1。
模拟生存百分位数
一个不同但有趣的方法包括模拟生存时间的百分位数。
β0=2.665 是参考组中死亡概率等于0.25的时间。另一个被解释为相对度量。
该信息可以直观地比较在肿瘤阶段的水平上分别估计的生存曲线。
对Cox模型中评估生存时间百分位数的可能差异,作为诊断性别和肿瘤阶段年龄的函数。
结果包括不同百分位数下每种协变量的生存时间差异。
或者,可以针对一组特定的协方差模式预测生存时间的百分位数。
CIF累积发生率函数
在竞争风险情景中,Kaplan-Meier对特定原因生存的估计通常是不合适的。
我们将考虑事件的累积发生率函数(CIF)
CIF
mstate计算竞争事件的非参数CIF(也称为Aalen-Johansen估计)和相关的标准误差。
我们可以绘制CIF以及生存函数。
通过因子变量的水平来估计累积发生率函数。
我们可以看到,IV期口腔癌死亡的CIF高于III,甚至更高于I + II。相反e-r图转换成关系数据模型,对于其他原因死亡率,曲线似乎不随肿瘤阶段而变化。
当我们想要在竞争风险设置中对生存数据进行建模时,有两种常见的策略可以解决不同的问题:
CIF Cox模型
原因特异性Cox模型的结果与原因特异性CIF的图形表示一致,即肿瘤IV期仅是口腔癌死亡率的重要风险因素。年龄增加与两种原因的死亡率增加相关(口腔癌死亡率HR = 1.42,其他原因死亡率HR = 1.48)。仅根据其他原因死亡率观察到性别差异(HR = 1.8)。
CRR模型
crr()在cmprsk竞争风险的情况下,包中的函数可用于子分布函数的回归建模。
———END———
限 时 特 惠:本站每日持续更新海量各大内部创业教程,一年会员只需128元,全站资源免费下载点击查看详情
站 长 微 信:jiumai99
2.本站所有项目来源于投稿或购买自其他第三方,若本站侵犯了您的权益请 联系站长 进行删除处理。