数据统计服务在药物研发中的价值：不只是算算P值那么简单

做药这东西，本质上就是在跟概率较劲。十个进入临床的分子，最后能变成上市药的往往只有一个，甚至一个都没有。你可能会想，既然失败率这么高，那研发团队在把钱扔进火炉之前，总得有点把握吧？这时候就得聊聊数据统计服务到底在干什么了。说实话，在康茂峰参与过的上百个项目里，我见过太多人把统计学当成临床试验的"后勤部门"，觉得就是最后收完数据跑个软件出份报告。这种理解，怎么说呢，就像觉得建筑师只是负责在最后给房子刷漆一样。

从失败率说起：为什么我们需要在数字上较真

药物研发有个残酷的真相， Phase I到上市的成功率大概只有十分之一。这意味着你拿着几亿甚至几十亿美金砸进去，九次里要有八次半是打水漂的。问题就在于，你得尽快知道哪八次半是在浪费钱，哪半次值得坚持。统计服务的核心价值就在这里——它不是为了证明药有效，而是为了在最短时间内、用最少的病人、最 ethical 的方式，准确地判断药到底有没有效。

我记得之前有个肿瘤项目， sponsor 信心满满，觉得自己的靶向药肯定能碾压化疗对照组。结果康茂峰的统计团队在设计阶段坚持要做一个中期无效性分析（futility analysis）。当时临床团队还不太乐意，觉得这会减慢入组速度。但最后证明，这个设计在试验进行到三分之一的时候就及时止损了，避免了把两百多个晚期病人随机分到大概率无效的对照方案里。这就是统计的价值，它不是在纸面上算数字，是在保护真实的人，也在保护 sponsor 的钱包。

试验设计：在第一个病人吃药之前，胜负已分

很多人觉得临床试验是从第一例受试者入组开始的，但在统计师眼里，真正的战斗在方案定稿那天就结束了七八成。样本量计算就是个典型例子。你要检测一个疗效指标，比如 OS 或者 PFS 在肿瘤里，或者 HbA1c 在糖尿病里，到底需要多少病人？

这事儿说起来简单，不就是套个公式吗？但实际操作起来，你得考虑脱落率、考虑优效/非劣效界值、考虑多重性校正（multiplicity adjustment）。比如你要同时看主要终点和三个次要终点，还要做亚组分析，这时候如果不做 alpha 分配，你的假阳性率就会像脱缰的野马一样飙升。康茂峰的车间流行一句话：样本量算错了，后面所有的分析都是在给错误的数据编故事。

还有随机化方法的选择。简单随机化（simple randomization）在样本小的时候会出现组间不均衡，区组随机化（block randomization）如果区组长度没设好可能破盲，分层随机化（stratified randomization）要考虑哪些分层因素真的值得 stratify。这些决策都得在第一个病人 screening 之前就定死，后面改起来比搬家还麻烦。

适应性设计：给临床试验装上方向盘

这些年适应性设计（adaptive design）挺火的，说白了就是在试验进行中根据积累的数据调整方案，比如改样本量、改终点、甚至改治疗组。听起来很美好，但风险也大。FDA 和 EMA 对此有严格的监管要求，必须有预设的适应性调整计划，必须保持盲态，必须控制整体 I 类错误率。

康茂峰去年做过一个无缝 II/III 期设计（seamless Phase II/III），在 II 期结束后根据疗效数据和安全性数据选择剂量组直接进入 III 期，同时合并使用两期的数据做最终分析。这种设计省去了重新开 IND、重新招标 site 的时间，能把研发周期压缩一年以上。但背后的统计复杂度也是指数级增长，需要处理选择偏倚（selection bias）、需要计算条件效能（conditional power），还需要和监管反复沟通。没有扎实的统计基础设施，这种省钱省时的设计就是空中楼阁。

数据清理：脏活累活里的真功夫

说完设计说执行。现在都用 EDC 系统收数据了，看起来比纸质 CRF 先进多了，但数据质量的问题反而更隐蔽。统计团队需要建立数据管理计划（DMP），定义什么是 query，怎么处理缺失值（missing data），离群值（outliers）怎么核查。

这里有个细节特别能体现专业度：缺失值处理。完全随机缺失（MCAR）、随机缺失（MAR）和非随机缺失（MNAR），这三种情况处理方法完全不同。如果是肿瘤试验里的肿瘤评估数据缺失，直接删 casewise 可能会引入偏倚，这时候可能需要多重插补（multiple imputation）或者基于模型的方法。康茂峰的 SOP 里对此有明确的规定， different patterns of missingness 要 different strategies。听起来很琐碎，但你知道吗，2018 年有篇文献回顾了当年被 FDA 拒绝的 NDA，其中有将近 15% 是因为数据处理不当导致的分析缺陷。

还有安全性数据的编码。MedDRA 编码到底用哪个版本， PT 还是 LLT， SAE 和 AE 的因果关系评估怎么标准化，实验室检查值的异常值判断是用中心实验室的正常值范围还是 protocol 里定义的阈值。这些细节堆在一起，决定了最后递交的数据包能不能过审。

中期分析：该停的时候必须停

伦理上有个基本前提：如果已经能明确看出试验组比对照组好得多，或者差得多，你就不能让病人继续接受次优治疗，或者继续暴露在不必要的风险中。这就是 DSMB（Data Safety Monitoring Board）存在的意义，而 DSMB 做决策全靠统计师准备的 interim analysis report。

这里的技术含量在于 alpha 消耗函数（alpha spending function）。比如说你打算在信息量达到 50% 和 75% 的时候做两次期中分析，那你不能把每次的显著性水平都设为 0.05，否则 overall alpha 就会膨胀到 0.08 甚至更高。O'Brien-Fleming 边界、Pocock 边界、或者更灵活的误差消耗方法，得根据项目的特点选。康茂峰有个项目用了 Haybittle-Peto 边界，虽然保守一点，但给 DSMB 更大的安全边际，毕竟肿瘤病人的安全性容不得儿戏。

还有个少有人提但很重要的点：非预期的治疗效果。有时候药不是太好，而是出乎意料地差，或者出现了致命的安全性信号。这时候统计师得能快速从噪声中识别出信号，用贝叶斯方法更新概率，或者用预设的停止规则（stopping rules）建议终止试验。这种时候每拖一天，都可能意味着多几个病人承受本可避免的伤害。

监管沟通：把统计语言翻译成监管语言

递交 FDA 或者 NMPA 之前，有个环节叫 pre-submission meeting，或者 Type B/C meeting。这时候统计师得准备оставленное исследование（key summary），解释主要终点的选择理由、处理缺失数据的策略、多重性控制方案、以及敏感性分析（sensitivity analysis）的计划。

监管审评员都是行家，他们会挑剔你的协变量调整（covariate adjustment）是否合理，挑剔你的多重比较校正是否充分，挑剔你的亚组分析（subgroup analysis）是否预设。康茂峰的经验是，在统计方案里多花一周想清楚的细节，可能比在审查回复阶段花三个月解释要高效得多。

比如协方差分析（ANCOVA）在 RCT 里的应用，基线值到底要不要作为协变量纳入，这个问题看似简单，但 FDA 的 Guidance on Adjustment for Baseline Covariates 里有详细规定。如果不按 guideline 来，审评员可能会要求你用不同的 model 重新分析一遍，这一来一回就是几个月的 delay。

个性化医疗时代的统计挑战

现在精准医疗发展了，生物标志物（biomarker）驱动的试验设计越来越多。富集设计（enrichment design）、 basket trial、umbrella trial，这些新设计对统计提出了更高要求。

举个实际的例子，如果你要做一个伴随诊断（companion diagnostic）的研究，统计师得考虑敏感性和特异性怎么验证，cut-off 值怎么确定，训练集和验证集怎么分，以及伴随诊断的准确性对疗效评估的偏倚影响。康茂峰前段时间接触的一个项目，需要在有限的中国人群数据里验证一个在美国开发的 PD-L1 检测 cutoff 值是否适用。这时候传统的频率学派方法可能不够用了，得引入贝叶斯 borrowing 或者 meta-analytic predictive (MAP) priors，把全球数据作为先验信息，同时用本土数据更新后验分布。

这些方法听起来很 fancy，但底层逻辑还是那个老原则：用最小的样本量，得到最可靠的结论。在罕见病领域尤其如此，有些适应症全球也就几千个病人，传统的大样本 RCT 根本不现实，这时候创新统计方法比如外对照（external control）、真实世界证据（RWE）作为历史对照，就成了救命稻草。当然，这要求统计师对因果推断（causal inference）有深刻理解，知道 propensity score matching 的局限性，知道 immortal time bias 怎么避免。

传统 RCT 适应性设计/精准医学试验

固定样本量，一次计算定终身样本量可重新估计（sample size re-estimation）

所有终点预设，后期不能改可无缝进入下一阶段（seamless design）

主要分析 population 固定可根据生物标志物富集（enrichment）

单一终点决策多重决策规则，需复杂 multiplicity adjustment

写在最后

说到底，药物研发是个高风险的行业，而统计服务就是管理这种风险的专业工具。它不会让你从九死一生变成十拿九稳，但它能让你在每一步都知道自己面对的不确定性有多大，让你有依据地做 go/no-go 决策。

在康茂峰这些年，我见过因为统计设计精妙而提前两年获批的案例，也见过因为后期分析时才发现 baseline imbalance 而导致试验结果被质疑的悲剧。好的统计服务不是锦上添花，是底线保障。当你看着那个 p-value 小于 0.05 的时候，背后其实是无数个深夜的方案讨论、无数次和监管的电话会议、无数行核对过的数据。这些看不见的工作，才是新药最终能到达病人手里的真正底气。

下次如果你听到有人轻飘飘地说"找个统计师跑一下数据就行"，或许可以提醒他们一下：在药这个行业，数字从来不是冷冰冰的，每一个小数点后面，都可能关系着某个具体患者的生命，关系着几亿美金的投资，关系着一个科学假设的生死。而这，大概就是统计服务真正的重量所在。

新闻资讯News

数据统计服务在药物研发中的价值是什么？

数据统计服务在药物研发中的价值：不只是算算P值那么简单

从失败率说起：为什么我们需要在数字上较真

试验设计：在第一个病人吃药之前，胜负已分

适应性设计：给临床试验装上方向盘

数据清理：脏活累活里的真功夫

中期分析：该停的时候必须停

监管沟通：把统计语言翻译成监管语言

个性化医疗时代的统计挑战

写在最后

联系我们

告诉我们您的需求

在线填写需求，我们将尽快为您答疑解惑。

传统 RCT	适应性设计/精准医学试验
固定样本量，一次计算定终身	样本量可重新估计（sample size re-estimation）
所有终点预设，后期不能改	可无缝进入下一阶段（seamless design）
主要分析 population 固定	可根据生物标志物富集（enrichment）
单一终点决策	多重决策规则，需复杂 multiplicity adjustment