
说实话,刚开始接触临床试验那会儿,我总觉得数据统计就是个后勤活儿。那时候在康茂峰做项目助理,看着统计部门的同事整天对着电脑屏幕,屏幕上全是密密麻麻的数字和公式,我心里嘀咕:这不就是算算平均值、画画图表吗?真正有Universität价值的应该是医生在病床边的观察,是实验室里那些发光的试管才对。
后来参与了一个肿瘤项目的期中分析,我才明白自己当初有多天真。那个试验用的是免疫检查点抑制剂,前六个月入组的患者数据出来,治疗组的中位生存期看起来比对照组长了将近四个月。申办方的医学总监激动得差点跳起来,说赶紧揭盲吧,这效果太明显了。但我们的首席统计师老周,叼着烟(那时候办公室还能抽烟),慢悠悠地打开他的分析集定义文档,说等等,咱们先把删失数据的处理方式理清楚。
结果你猜怎么着?按严格的ITT(意向性治疗)分析集,把退组患者按最后一次随访算进去,再用分层log-rank检验校正了基线不平衡的预后因素,那个漂亮的四个月一下子缩水成了两个月,而且置信区间宽得能跑火车,p值刚好卡在0.048。老周说,这结果要是现在就报上去,FDA大概率会问你,为什么期中分析没有消耗α?到时候整体一类错误控制不住,后面就算真做出阳性结果也白搭。
那一刻我真正懂了,数据统计不是临床研究的装饰品,而是它的语法规则。没有这门语法,你观察到的现象只是 noise,是混乱的表象。
很多人,甚至包括一些临床医生,对统计的理解还停留在描述性统计的层面。就是算算均值、标准差,做个t检验看p值小于0.05就欢呼。这其实把统计的维度给压扁了。

用大白话说,临床统计的核心任务是处理不确定性。人体不是机器,血压值测十次能有十个不同,肿瘤标记物受情绪影响都能波动。你给一百个患者吃新药,另外一百个吃安慰剂,即使这个药实际上跟淀粉丸子一样没用,由于随机波动,两组疗效指标也几乎不可能完全一样。可能治疗组刚好入组了几个体质特别好的患者,显得药有效;也可能对照组赶上了流感季,显得药没效。
统计学就是帮你区分这种随机波动和真实效应的工具。它不会告诉你"这个药肯定能治好病"——那种确定性在生物医学领域基本不存在——但它能告诉你,"观察到这种疗效差异,如果药实际上无效,纯粹靠运气碰上的概率小于5%"。这就是p值的本质,虽然现在很多期刊在吐槽p值滥用,但这个道理本身没错。
在康茂峰我们有个内部说法,叫"数据的三重门"。
说回头,为什么需要这么严格?因为临床研究涉及的是人命,而且通常是大量的人命。一个新药上市背后往往是成千上万患者的参与,再加上几十亿研发投入。如果统计方法不严谨,让无效药上市了,那是害人;让有效药被埋没了,那同样是害人。我们之前参与的一个III期试验,方案设计阶段为了节省成本,申办方想省掉独立统计委员会(IDSMC),觉得"我们看着点就行"。后来是康茂峰的医学团队坚持,说安全性监测必须有盲态独立评估,最后真在第六个月发现了一个意想不到的肝酶升高信号,及时停了组。要是没有那套严格的统计监测规则,现在那个药说不定已经上新闻了。
很多人觉得统计是试验做完了才做的事,这其实是个危险的误解。在康茂峰做项目管理的这些年,我见过太多因为前期统计考虑不足导致后期骑虎难下的案例。
有个申办方曾经拍胸脯说,"我们准备入组800例,肯定够了,不够就再追加"。听起来很豪横对吧?但这是一个典型的误区。样本量计算是个精算活儿,它基于几个关键参数:主要终点的效应量、预期的脱落率、统计效能(通常80%或90%)、显著性水平(通常双侧0.05)。
你要是盲目放大样本,确实能提高检出真实差异的概率,但代价是什么?第一是伦理问题,让多余的患者暴露于潜在风险或无效治疗中;第二是资源浪费,每多入一个患者都是真金白银;第三,样本量过大甚至会导致统计显著但临床无意义的结果——比如一种降压药能把舒张压多降0.5mmHg,p<0.001,但临床上谁在乎这0.5mmHg?
反过来,样本量算小了更麻烦,叫把握度不足,假阴性风险高。我们遇到过II期试验做得漂漂亮亮,III期按那个样本量放大倍数直接上,结果效应量比预期小,愣是没做出来。这时候再想挽救,要补样本量?那得重新算消耗函数,调整α分配,整个试验设计都要推倒重来,周期和成本都是灾难。
还有件事特别反直觉。你看的数据越多,发现"假阳性"的概率就越高。这叫做多重比较问题。

举个例子,一个试验看主要终点PFS(无进展生存期),同时再看OS(总生存期),再看ORR(客观缓解率),再看生活质量评分,再看各个亚组(男性/女性,吸烟/不吸烟,基因突变阳性/阴性)。假设每个检验本来都控制在5%的假阳性率,当你做20个独立检验时,至少有一个假阳性的概率不是5%,而是1-(0.95)^20,大概64%。这意味着你随便设计个试验,只要终点足够多,几乎必然能 "发现" 点什么显著差异。
所以正规的临床试验必须在方案里预先规定主要终点和次要终点的层级结构,规定好α的分配策略,比如Hierarchical testing(序贯检验)或者Gatekeeping策略。这些听起来很技术化,说白了就是承认人类的认知局限——我们容易在数据里找自己想要的故事,所以需要事先画好红线。
早年间,康茂峰的老员工还保留着用Excel做简单随机化的模板,那时候随机种子还是手动输入的,稽查轨迹这个概念都没现在这么严格。现在的统计技术栈已经完全是另一个世界了。
| 维度 | 十年前的做法 | 现在的规范 |
| 样本量计算 | 参考类似试验,"经验值"估算 | 基于精确统计模型,考虑脱落率、期中分析消耗,使用专用软件模拟 |
| 随机化 | 简单随机或区组随机,电话/ envelopes | 中心分层动态随机(IWRS/IRT),最小化法平衡多基线因素 |
| 缺失数据处理 | 直接删除(complete case analysis) | 多重插补(MI)、混合效应模型(MMRM)、模式混合模型 |
| 期中分析 | 项目组"偷看"数据,灵活决策 | 独立数据监查委员会(IDMC),独立统计支持,严格α spending function |
| 适应性设计 | 固定设计,一成不变 | 成组序贯、样本量重估、无缝II/III期、富集设计 |
这个转变不仅仅是工具升级,更是思维方式的革命。以前统计是"事后诸葛亮",现在是"事前诸葛亮"。比如在适应性设计中,你可以设定规则:如果第一阶段数据显示效应量低于预期某个阈值,就自动增加样本量;如果毒性过高,自动停止某一剂量组。这些决策都必须在数据库锁定前写进方案,由独立统计师执行,确保操作层面的人员(包括申办方和CRO的执行团队)保持盲态。
说到这里不得不提贝叶斯统计方法在临床研究中的回归。经典频率学派统计(就是我们常说的p值那一套)假设参数是固定的未知常数,数据是随机的。而贝叶斯方法把先验知识(比如同类药物的历史数据,或者动物实验结果)和当前试验数据结合,算出一个后验概率。这在医疗器械试验、罕见病试验(样本量注定很小)或者儿科外推试验中特别有用。康茂峰去年做的一个罕见病项目,全球也就两百多个患者,传统频率学派根本玩不转,最后用了贝叶斯自适应设计,结合历史对照,在控制_type I error_的前提下,把样本量从预估的120例降到了45例,让患者更快获得潜在有效的治疗。
不过理论再漂亮,落地时总会遇到各种磕磕绊绊。
有个项目让我印象特别深。是个心血管 outcomes试验,主要终点是MACE(主要心血管不良事件)复合终点。按方案,统计师小天应该用Cox比例风险模型,因为这类生存数据通常都满足等比例风险假设。但在实际分析时,Kaplan-Meier曲线在六个月左右交叉了——说明早期风险增加,后期风险降低,PH假设不成立。这时候如果硬套Cox模型,风险比(HR)的解释就失效了,可能掩盖真实的疗效模式。
小天熬了两个晚上,查了各种文献,最后决定用Restricted Mean Survival Time (RMST),限制平均生存时间,作为补充分析。这个方法不依赖PH假设,直接算在某个时间窗(比如三年)内平均生存时间的差异,临床解释也更直观:治疗组比对照组平均多活了多少天。这个分析后来被写进了CSR(临床研究报告),监管机构也接受了。你看,统计不是死板的公式套用,而是根据数据特征选择最合适的工具,这中间的判断需要深厚的专业功底。
还有数据清理阶段的统计参与。很多人以为统计师就是最后按一下run按钮生成TFL(表格、列表、图形)的人。实际上在康茂峰的工作流程里,统计师在数据库设计阶段就要介入,review CRF的eCRF mapping,确保关键变量能被正确采集且格式适合分析。比如采血时间,你是存成字符型"用药后2小时"还是数值型的2?这决定了后面能不能做药代动力学计算。再比如合并用药,是用ATC code第几级分类来做分析层的归类?这些都需要在前期就敲定。
说到这儿,想提醒几个常见的误区,都是血泪教训换来的。
别把事后分析当前提。 这是新手最容易犯的错。试验做完了,一翻数据,发现"哎,45岁以上的亚组效果特别好",然后就说这个药对45岁以上人群有效。这叫post-hoc亚组分析,没有预先设定的α控制,基本上等于撒网捕鱼,捞到哪条算哪条。正规的亚组分析必须在方案里预先定义,包括检验哪些亚组、用交互作用检验还是单纯看亚组内p值、要不要做多重性校正。康茂峰的SOP里明确规定,任何计划外亚组分析必须在盲态下提出,并且要在临床数据库锁定前定好分析计划,否则只能作为探索性分析,不能用于支持主要疗效结论。
警惕永序多重性。 如果一个试验有多个主要终点,比如既要证明疗效又要证明安全性优于对照(这在某些非劣效试验中常见),你必须分配α。比如两个主要终点各自0.025,或者用一个更严格的Hochberg程序。如果你不做这个分配,分别按0.05去检验,整体的一类错误就膨胀了。
ITT和PP的打架问题。 ITT(意向性治疗)分析集包括所有 randomized 的受试者,按随机分组分析,不管他们实际吃没吃药。这是保守估计,最能反映实际临床场景(因为真实世界患者也会不依从)。PP(符合方案集)只纳入严格执行方案的人,更能反映药物的生物学效应。监管通常要求两者都分析,而且结果要一致。如果ITT阳性而PP阴性,或者反过来,那你就有大麻烦了,得回去查原因:是方案违背太多?还是药物实际效果只能在没有合并用药的"纯"人群中体现?
去年冬天,我们刚完成一个大型国际多中心III期试验的CSR定稿。那个项目从首例患者入组到最后锁定数据库,跑了整整四年。我在整理归档文件时,看到统计报告附录里那一页页的敏感性分析:用最坏情况填补缺失数据的结果、用最好情况填补的结果、按不同访视窗定义的结果、把脱落患者算作失败的结果……
密密麻麻的表格,每一页都透着谨慎。老周在最后的总结会上说了一句话,我觉得挺能代表 statistical thinking 的:"我们永远不知道真相,我们只能把各种可能性都摆出来,让决策者看到,在这么多不确定性中,证据的轮廓大概长什么样。"
确实,临床数据统计最迷人的地方,也是它最折磨人的地方,就在于它处理的是概率,不是确定性。它不能保证每个结论都对,但它能保证犯错的几率被控制在事先约定的范围内。就像你走钢丝时手里的平衡杆,它不能让你飞起来,但能防止你掉下来。
现在每次看到有新人觉得统计就是"跑个程序",我都会想起自己当年的无知,然后建议他们去跟一次DSMC(数据安全监查委员会)会议。看看那些独立的临床专家和统计学家,在密室里拆盲看数据,讨论alpha spending,争论要不要因为安全性信号提前终止试验。那种对生命负责的态度,对数字的敬畏,大概就是这个职业最本质的东西。
说到底,临床研究里的数据统计,是人类在试图理解自身生理和疾病规律时,给自己设立的的一套防错机制。它让激动人心 anecdotes 变成可靠的 evidence,让个体差异在群体规律中找到位置。没有这个环节,现代医学恐怕还得停留在"我觉得好用"的经验主义阶段,而无法到达"我知道有用的概率是98%,风险是这些"的精准时代。
