前言:今年的ESMO年会已经于9月13日圆满落幕,会议期间肺癌领域有多项重磅研究向全球公布,本期文献精读,我们将结合部分研究数据,从统计学角度进行剖析。
POSEIDON研究长期随访——更新数据的探索性本质
POSEIDON研究是一项全球、随机、开放标签、多中心、III期临床研究,旨在探索对于驱动基因突变阴性的IV期初治非小细胞肺癌患者,在化疗基础上联合免疫治疗的疗效及安全性。研究分为3组:含铂双药化疗组、化疗联合针对PD-L1的免疫检查点抑制剂度伐利尤单抗(1500mg的固定剂量,每3周一次)以及在此基础上进一步联合针对CTLA-4的免疫检查点抑制剂Tremelimumab(75mg,每3周一次,上限治疗16周),研究基于PD-L1表达水平(50%)、疾病分期(IVA vs.IVB)以及组织病理类型进行分层,接受度伐利尤单抗的患者,允许进行维持治疗。研究的主要终点为三药对双药的PFS和OS以及四药对两药的PFS及OS。首次数据分析时,四药对两药获得PFS(HR=0.72,P=0.0003)和OS(HR=0.77,P=0.0003)的双阳性结果。三药对两药获得PFS的阳性结果(HR=0.74,P=0.0009),OS为统计学的阴性结果(HR=0.86,P=0.0758)。本次ESMO年会报道了其随访4年后的数据。
结果显示,四药对两药组的中位OS分别为14.0个月和11.7个月,HR=0.753(95%CI,0.63-0.88),三药对两药组的中位OS分别为13.3个月和11.7个月,HR=0.84,95%CI,0.71-0.99。四药对三药的1年、2年、3年4年的OS率分别为54.8%vs.49.1%、32.9%vs.22.0%、25.0%vs.13.6%、20.7%vs.8.3%。三药对双药的1年、2年、3年、4年的OS率分别为53.2%vs.49.1%、29.6%vs.22.0%、20.7%vs.13.6%、16.3%vs.8.3%。进一步亚组分析来看,对于非鳞癌患者,四药、三药和两药的中位OS分别为17.2个月(HR=0.68,95%CI,0.55-0.85)、14.8个月(HR=0.80,95%CI,0.64-0.98)和13.1月;而对于鳞癌患者,四药、三药和两药的中位OS分别为10.4个月(HR=0.83,955 CI,0.64-1.08)、11.5个月(HR=0.81,95%CI,0.63-1.06)和10.5个月。
有两点需要注意:首先,此次更新并没有报道P值,其次,三药对双药HR值的95%置信区间上限已经小于1。通常,对于探索性临床研究来说,可以不公布P值,因为公布P值也并没有太大的临床意义。对于一项确证性临床研究来说,相应的终点应当参与I类错误控制以及α分配,即其显著性水准是预设的,实际计算出的P值与预设的显著性水准进行比较,若小于预设的显著性水准,则为统计学的阳性结果,得到的为确证性结论。但是对于探索性研究终点而言,其并不参与I类错误校正以及α的分配,因此此时即使算出P值,由于没有预先设定的显著性水准,并不知道此时的P值需要与那个显著性水准进行比较,因此可以不公布。POSEIDON研究4年数据分析时的PFS和OS为数据的更新,本质是探索性的,无法得到确认信结论。
另一个类似的例子是阿替利珠单抗单药一线治疗PD-L1选择人群的IMPower-110研究,该研究的主要研究终点为OS,且采用传递的方法进行I类错误校正:先检验PD-L1高表达人群,阳性以后检验PD-L1中高表达人群。由于在第2步统计分析时,P=0.04超过其预设的显著性水准,为阴性结果,因此阿替利珠单抗单药仅获批了PD-L1≥50%的人群适应症。随后该研究于JTO杂志公布了随访更新后的数据,结果显示,两组中位OS分别为20.2个月和14.7个月,HR=0.76,95%CI,0.54~1.09,95%置信区间上限超过了1.0。虽然在此没有公布P值,但通常来说,95%置信区间超过1.0的情况下,P值大概率是大于0.05的。但是,由于这次只是数据的更新,对于一项III期临床研究而言,如果基于中期分析已经达到了预设的显著性水准,则后续所有的数据更新会被认为是探索性的。因此,阿替利珠单抗此次的数据更新并未公布P值,只能认为是探索性的,并不影响其适应症的维持。
对于一项III期临床研究而言,结论是否是确证性的,主要取决于研究终点是否参与了I类错误控制及α分配,探索性分析多数并未并与I类错误校正,因此,难以得出确证性结论。
CANOPY-A研究——基于亚组分析开展确证性临床研究的风险
CANOPY-A研究探索了对于完全切除的非小细胞肺癌患者,在给予标准术后化疗后的基础上,进一步给予卡那奴单抗维持治疗的疗效及安全性。研究设计与IMPower-010研究设计类似。纳入了完全切除的II-IIIa非小细胞肺癌患者,患者接受含铂双药辅助治疗,未出现疾病进展的患者按照1:1的比例随机分为卡那奴单抗200mg,每三周治疗一次或安慰剂治疗,上限为一年,主要研究终点为DFS。申办方之所以进行此项研究,原因是在进行心血管系统疾病的研究中,发现了该药物可降低肺癌的死亡风险。如果以安慰剂的HR=1作为参照系,接受卡那奴单抗50 mg、150 mg和300 mg治疗的患者,其HR值分别为0.67,0.64和0.23。因此,研究者认为接受卡那奴单抗可能会降低肺癌的全因死亡风险,并分别在一线、后线和术后辅助治疗领域设计了卡纳奴单抗的应用。CANOPY-A研究则旨在探索该药在术后辅助治疗中的应用研究。
研究中,两组分别入组693例和689例患者,基线特点均衡可比,从人群分布来看,两组分别有99%和100%的患者接受了相关的治疗。数据分析时,分别有21.4%和19.9%的患者治疗继续,48.6%和50.7%的患者治疗终止,而治疗终止的原因中,分别有18.9%和19.2%的患者因为疾病进展而导致治疗终止,从数据而言,两组中位DFS分别为35.0个月和29.7个月,HR=0.939,95%CI,0.776-1.137,P=0.258,且亚组分析未发现任何有获益趋势的亚组,两组中位OS未进行正式的统计学分析,分别有6.3%和8.1%的患者出现死亡事件,OS的HR=0.772,95%CI,0.482-1.081。
进行亚组分析是临床试验过程中常见的分析流程,其主要目的是当研究为阳性结果时,判断疗效在某些人群中是否更好;当研究为阴性时,判断是否存在获益的特殊人群。
对于一项临床研究,其研究设计、样本含量计算等均是围绕主要研究终点进行,亚组分析的本质是探索性的,只能提供提示性的结论。由于多数亚组并不进行一类错误校正,因此基于亚组分析,需开展确证性临床研究需要非常谨慎。既往有学者分析了基于阳性亚组开展的III期临床研究,结果发现,80~85%的临床试验并不能重复前期的阳性亚组结果。因此,亚组分析的本质是探索性的,其数据的解读需要格外谨慎。
以下几个因素可辅助判断亚组分析结论的可靠性。
(1)是否存在合理的生物学机制解释这一亚组分析结果。对于一个生物标志物,如果没有合理的理论解释,那么这种差异只能是统计学的差异,可信度会打折扣;
(2)主要研究终点和次要研究终点是否稳定存在于这一亚组效应,如果主要研究终点和次要研究终点结果互相支持和印证,那么结果的可信度会大大提高;
(3)亚组分析的发现能否在不同的研究中重现,如果亚组分析的结果能稳定的在不同的研究中重复出现,同样提示这一结果的可信度高;
(4)亚组分析是否是预设的或分层变量,如果是分层变量,就意味着两组之间的基线特点均衡可比,由此排除其他因素引入的偏倚,结果自然更可信;
(5)亚组分析数目是否有限。过多的亚组分析,由于多重性比较的问题,会使得假阳性结果的可能大大增加。