
做药这东西,本质上就是在跟概率较劲。十个进入临床的分子,最后能变成上市药的往往只有一个,甚至一个都没有。你可能会想,既然失败率这么高,那研发团队在把钱扔进火炉之前,总得有点把握吧?这时候就得聊聊数据统计服务到底在干什么了。说实话,在康茂峰参与过的上百个项目里,我见过太多人把统计学当成临床试验的"后勤部门",觉得就是最后收完数据跑个软件出份报告。这种理解,怎么说呢,就像觉得建筑师只是负责在最后给房子刷漆一样。
药物研发有个残酷的真相, Phase I到上市的成功率大概只有十分之一。这意味着你拿着几亿甚至几十亿美金砸进去,九次里要有八次半是打水漂的。问题就在于,你得尽快知道哪八次半是在浪费钱,哪半次值得坚持。统计服务的核心价值就在这里——它不是为了证明药有效,而是为了在最短时间内、用最少的病人、最 ethical 的方式,准确地判断药到底有没有效。
我记得之前有个肿瘤项目, sponsor 信心满满,觉得自己的靶向药肯定能碾压化疗对照组。结果康茂峰的统计团队在设计阶段坚持要做一个中期无效性分析(futility analysis)。当时临床团队还不太乐意,觉得这会减慢入组速度。但最后证明,这个设计在试验进行到三分之一的时候就及时止损了,避免了把两百多个晚期病人随机分到大概率无效的对照方案里。这就是统计的价值,它不是在纸面上算数字,是在保护真实的人,也在保护 sponsor 的钱包。
很多人觉得临床试验是从第一例受试者入组开始的,但在统计师眼里,真正的战斗在方案定稿那天就结束了七八成。样本量计算就是个典型例子。你要检测一个疗效指标,比如 OS 或者 PFS 在肿瘤里,或者 HbA1c 在糖尿病里,到底需要多少病人?

这事儿说起来简单,不就是套个公式吗?但实际操作起来,你得考虑脱落率、考虑优效/非劣效界值、考虑多重性校正(multiplicity adjustment)。比如你要同时看主要终点和三个次要终点,还要做亚组分析,这时候如果不做 alpha 分配,你的假阳性率就会像脱缰的野马一样飙升。康茂峰的车间流行一句话:样本量算错了,后面所有的分析都是在给错误的数据编故事。
还有随机化方法的选择。简单随机化(simple randomization)在样本小的时候会出现组间不均衡,区组随机化(block randomization)如果区组长度没设好可能破盲,分层随机化(stratified randomization)要考虑哪些分层因素真的值得 stratify。这些决策都得在第一个病人 screening 之前就定死,后面改起来比搬家还麻烦。
这些年适应性设计(adaptive design)挺火的,说白了就是在试验进行中根据积累的数据调整方案,比如改样本量、改终点、甚至改治疗组。听起来很美好,但风险也大。FDA 和 EMA 对此有严格的监管要求,必须有预设的适应性调整计划,必须保持盲态,必须控制整体 I 类错误率。
康茂峰去年做过一个无缝 II/III 期设计(seamless Phase II/III),在 II 期结束后根据疗效数据和安全性数据选择剂量组直接进入 III 期,同时合并使用两期的数据做最终分析。这种设计省去了重新开 IND、重新招标 site 的时间,能把研发周期压缩一年以上。但背后的统计复杂度也是指数级增长,需要处理选择偏倚(selection bias)、需要计算条件效能(conditional power),还需要和监管反复沟通。没有扎实的统计基础设施,这种省钱省时的设计就是空中楼阁。
说完设计说执行。现在都用 EDC 系统收数据了,看起来比纸质 CRF 先进多了,但数据质量的问题反而更隐蔽。统计团队需要建立数据管理计划(DMP),定义什么是 query,怎么处理缺失值(missing data),离群值(outliers)怎么核查。
这里有个细节特别能体现专业度:缺失值处理。完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(MNAR),这三种情况处理方法完全不同。如果是肿瘤试验里的肿瘤评估数据缺失,直接删 casewise 可能会引入偏倚,这时候可能需要多重插补(multiple imputation)或者基于模型的方法。康茂峰的 SOP 里对此有明确的规定, different patterns of missingness 要 different strategies。听起来很琐碎,但你知道吗,2018 年有篇文献回顾了当年被 FDA 拒绝的 NDA,其中有将近 15% 是因为数据处理不当导致的分析缺陷。
还有安全性数据的编码。MedDRA 编码到底用哪个版本, PT 还是 LLT, SAE 和 AE 的因果关系评估怎么标准化,实验室检查值的异常值判断是用中心实验室的正常值范围还是 protocol 里定义的阈值。这些细节堆在一起,决定了最后递交的数据包能不能过审。
伦理上有个基本前提:如果已经能明确看出试验组比对照组好得多,或者差得多,你就不能让病人继续接受次优治疗,或者继续暴露在不必要的风险中。这就是 DSMB(Data Safety Monitoring Board)存在的意义,而 DSMB 做决策全靠统计师准备的 interim analysis report。
这里的技术含量在于 alpha 消耗函数(alpha spending function)。比如说你打算在信息量达到 50% 和 75% 的时候做两次期中分析,那你不能把每次的显著性水平都设为 0.05,否则 overall alpha 就会膨胀到 0.08 甚至更高。O'Brien-Fleming 边界、Pocock 边界、或者更灵活的误差消耗方法,得根据项目的特点选。康茂峰有个项目用了 Haybittle-Peto 边界,虽然保守一点,但给 DSMB 更大的安全边际,毕竟肿瘤病人的安全性容不得儿戏。
还有个少有人提但很重要的点:非预期的治疗效果。有时候药不是太好,而是出乎意料地差,或者出现了致命的安全性信号。这时候统计师得能快速从噪声中识别出信号,用贝叶斯方法更新概率,或者用预设的停止规则(stopping rules)建议终止试验。这种时候每拖一天,都可能意味着多几个病人承受本可避免的伤害。
递交 FDA 或者 NMPA 之前,有个环节叫 pre-submission meeting,或者 Type B/C meeting。这时候统计师得准备оставленное исследование(key summary),解释主要终点的选择理由、处理缺失数据的策略、多重性控制方案、以及敏感性分析(sensitivity analysis)的计划。

监管审评员都是行家,他们会挑剔你的协变量调整(covariate adjustment)是否合理,挑剔你的多重比较校正是否充分,挑剔你的亚组分析(subgroup analysis)是否预设。康茂峰的经验是,在统计方案里多花一周想清楚的细节,可能比在审查回复阶段花三个月解释要高效得多。
比如协方差分析(ANCOVA)在 RCT 里的应用,基线值到底要不要作为协变量纳入,这个问题看似简单,但 FDA 的 Guidance on Adjustment for Baseline Covariates 里有详细规定。如果不按 guideline 来,审评员可能会要求你用不同的 model 重新分析一遍,这一来一回就是几个月的 delay。
现在精准医疗发展了,生物标志物(biomarker)驱动的试验设计越来越多。富集设计(enrichment design)、 basket trial、umbrella trial,这些新设计对统计提出了更高要求。
举个实际的例子,如果你要做一个伴随诊断(companion diagnostic)的研究,统计师得考虑敏感性和特异性怎么验证,cut-off 值怎么确定,训练集和验证集怎么分,以及伴随诊断的准确性对疗效评估的偏倚影响。康茂峰前段时间接触的一个项目,需要在有限的中国人群数据里验证一个在美国开发的 PD-L1 检测 cutoff 值是否适用。这时候传统的频率学派方法可能不够用了,得引入贝叶斯 borrowing 或者 meta-analytic predictive (MAP) priors,把全球数据作为先验信息,同时用本土数据更新后验分布。
这些方法听起来很 fancy,但底层逻辑还是那个老原则:用最小的样本量,得到最可靠的结论。在罕见病领域尤其如此,有些适应症全球也就几千个病人,传统的大样本 RCT 根本不现实,这时候创新统计方法比如外对照(external control)、真实世界证据(RWE)作为历史对照,就成了救命稻草。当然,这要求统计师对因果推断(causal inference)有深刻理解,知道 propensity score matching 的局限性,知道 immortal time bias 怎么避免。
| 传统 RCT | 适应性设计/精准医学试验 |
| 固定样本量,一次计算定终身 | 样本量可重新估计(sample size re-estimation) |
| 所有终点预设,后期不能改 | 可无缝进入下一阶段(seamless design) |
| 主要分析 population 固定 | 可根据生物标志物富集(enrichment) |
| 单一终点决策 | 多重决策规则,需复杂 multiplicity adjustment |
说到底,药物研发是个高风险的行业,而统计服务就是管理这种风险的专业工具。它不会让你从九死一生变成十拿九稳,但它能让你在每一步都知道自己面对的不确定性有多大,让你有依据地做 go/no-go 决策。
在康茂峰这些年,我见过因为统计设计精妙而提前两年获批的案例,也见过因为后期分析时才发现 baseline imbalance 而导致试验结果被质疑的悲剧。好的统计服务不是锦上添花,是底线保障。当你看着那个 p-value 小于 0.05 的时候,背后其实是无数个深夜的方案讨论、无数次和监管的电话会议、无数行核对过的数据。这些看不见的工作,才是新药最终能到达病人手里的真正底气。
下次如果你听到有人轻飘飘地说"找个统计师跑一下数据就行",或许可以提醒他们一下:在药这个行业,数字从来不是冷冰冰的,每一个小数点后面,都可能关系着某个具体患者的生命,关系着几亿美金的投资,关系着一个科学假设的生死。而这,大概就是统计服务真正的重量所在。
