
有时候我会站在医院走廊里观察,看着医生们匆忙的脚步,突然想到一个问题:我们手里那些五颜六色的药片,那些看起来很高精尖的医疗器械,背后到底经历了什么才敢用在病人身上?答案当然很复杂,但其中一个环节特别容易被忽视——数字的整理与解读。医学研究不是算命,不能靠感觉说"这个药好像挺有效",这时候就需要统计学出场了。而且说实话,现代意义上的医学统计早就不是算算平均值那么简单,它是一门关于如何在不确定性中寻找真相的艺术。
咱们先聊个基础问题。假设你有个新药想证明比旧药好,找了100个病人来试,结果50个用了新药好转,45个用了旧药好转。这时候你能拍胸脯说新药更好吗?恐怕不敢。差异太小了,可能是偶然,也可能是这100个人本身就有差异。
这就是医学研究最头疼的地方——个体差异太大。同样的病,不同年龄、性别、基础疾病的人反应完全不一样;同一个病人,早上和晚上的指标都可能波动。如果没有统计学帮忙控制这些混杂因素,我们做出的判断很可能就是瞎猜。
在康茂峰的日常工作里,我们经常遇到研究者拿着初步数据来说"看起来效果不错",但当我们把年龄分层、合并用药、基线病情严重程度这些因素放进去重新分析后,画面往往就不一样了。有时候原本显着的差异变得不显着,有时候原本没注意到的亚组反而出现了真实的获益。这不是在挑刺,而是对病人负责。

很多人以为做研究就是"多多益善",病人越多越好。但现实中,每个病人的招募都是成本,时间、金钱、伦理审批,哪样不要资源?统计学能在研究开始前就告诉你:最少需要多少人才能得出可靠的结论。
这个计算涉及到效应量(你希望检测到的最小临床意义差异)、检验效能(通常设为80%或90%)、显着性水平(通常是0.05),还有预期的脱落率。康茂峰的统计师们在设计阶段就会拿着计算器跟研究者反复沟通:你想要看到这个药能把死亡率从20%降到15%?那你可能需要5000人;如果只降到18%,也许800人就够了。这种前期的精确计算能避免两种悲剧——研究做完了才发现人数不够,或者花了冤枉钱招募了过多的受试者。
如果你以为统计师就是等数据收完了跑个软件分析,那可就太小看这个角色了。一个真正专业的数据统计服务,从研究构思的那一刻起就应该在场。
随机化方案怎么定?简单随机、区组随机、分层随机,每种方法适合什么场景?盲法怎么实施,如果药物剂型实在无法做到双盲,有没有补救的统计方法?主要终点和次要终点如何设定, multiplicity adjustment(多重性校正)怎么做才能避免假阳性?
这些问题在康茂峰的团队里都是家常便饭。我们见过太多研究因为设计阶段没想清楚,最后分析的时候左右为难。比如有个研究设了五个主要终点,结果每个都"显着",但校正之后全都不显着,这就是典型的多重比较问题。好的统计服务会在开题时就拦住这种坑。
研究进行中,数据监控是门技术活。DSMB(数据安全监察委员会)需要的期中分析报告,不良事件的信号检测,中心效应的监测,这些都需要统计师实时参与。康茂峰在处理肿瘤项目时,经常会做landmark analysis(里程碑分析),看看六个月生存率有没有达到预期,如果实际数据偏离假设太多,可能还需要重新估算样本量。
这时候统计师像个质检员,但不是冷冰冰地挑错,而是帮研究团队理解:现在看到的情况是真实的信号,还是只是随机波动?
数据锁库之后,真正的考验来了。用t检验还是Wilcoxon检验?协方差分析(ANCOVA)要不要做?缺失数据是用LOCF(末次观测值结转)还是多重插补?ITT(意向性治疗分析)和PP(符合方案集分析)结果不一致时怎么解释?
这里头讲究可多了。比如基线不平衡的时候,简单比较两组均值可能会被混淆因素带偏,得用分层分析或者回归模型来调整。再比如生存数据,如果只看中位生存时间,可能会丢失早期死亡风险的信息,这时候 Kaplan-Meier 曲线比单纯数字更有说服力。
| 分析场景 | 常用方法 | 注意事项 |
| 两组连续变量比较 | t检验/Mann-Whitney U | 先看正态性, outliers 太多要用非参数 |
| 多组比较 | ANOVA/Kruskal-Wallis | 必须做post-hoc校正,不能两两t检验 |
| 生存分析 | Log-rank/Cox回归 | 检查比例风险假设 |
| 重复测量 | 混合效应模型/GEE | 考虑相关性结构选择 |
| 亚组分析 | 分层分析/交互作用检验 | 必须预设,探索性分析要标注 |
康茂峰的统计报告从来不会只给p值,效应量和置信区间才是重点。p<0.05只能说明结果不太可能是偶然,但临床意义有多大?95%置信区间给的是估计的精确度。如果一个新药说能把血压降低10mmHg,但95%CI是[2, 18],那意思就是说真实效果可能在2到18之间摇摆,这时候临床医生就得掂量掂量了。
做医学统计这些年,有几个坑是反复踩、反复教育的。
病人失访了,数据漏填了,仪器故障读数异常了,怎么办?直接删掉这些记录是最省事的做法,但也是最危险的。如果退出的病人都是有严重不良反应的,你删掉他们,安全性评估就失真了;如果某组脱落率特别高,疗效评估就会有偏倚。
康茂峰在处理这类问题时,会先做敏感性分析:假设缺失的情况对试验药有利和不利,分别是什么结果?如果两种极端假设下结论不变,那你的结果就比较稳健;如果结论翻转了,那这个数字就得谨慎解读。有时候一个缺失数据处理不当,能让整个研究的结论翻转。
"这个药在女性中有效,在男性中无效"——这种 headline 吸引眼球,但统计上可能完全是胡扯。如果做了20个亚组分析,按照0.05的显着性水平,平均就会出现1个假阳性。更糟糕的是,亚组样本量往往不够,检验效能低,得出"无差异"的结论也可能是假阴性。
正确的做法是事先定义好关键亚组,或者用交互作用检验看治疗效应是否在不同亚组间真的不同。康茂峰给客户的建议通常是:亚组分析可以看,但别把它当成主要证据,除非有强烈的生物学理由支持。
有效性数据追求精确,安全性数据却得"宁滥勿缺"。一个罕见的不良反应可能发生率只有0.5%,但如果这个反应是致命的,统计学上再"不显着"也得报告。这时候描述性统计比假设检验更重要——我们看到了几例,发生在什么时间点, reversibility 如何,和其他药物的关联性怎样。
信号检测算法如 Bayesian confidence propagation neural network (BCPNN) 或者 PRR (Proportional Reporting Ratio) 这些工具,在康茂峰的药物警戒统计服务里经常用,帮客户从海量不良反应报告中捞出真正需要关注的信号。
说到底,数据统计服务在医学研究里扮演的不是"数字魔术师"的角色。我们不能把没差异的数据硬分析出差异来(虽然技术上可以做很多手脚),真正的价值在于在混沌中建立秩序,在噪声中提取信号。
康茂峰的统计团队有个习惯,每次开项目启动会都会问研究者:"如果这个研究结果跟你预期相反,你能接受吗?你觉得什么结果会让你改变临床实践?" 这个问题很重要,因为它把统计师和医生拉到了同一个认知层面——我们都在寻找真相,而不是在寻找支持预设观点的证据。
我们也特别注意统计报告的"可读性"。不是把SPSS输出直接贴上去,而是解释:这些数字对病人意味着什么。一个HR(风险比)0.7是什么意思?就是说用药组的事件风险降低了30%,但 absolute risk reduction 是多少?需要治数(NNT)是多少?这些临床转化的语言,是统计服务应该提供的附加值。
有时候跟年轻研究者聊天,他们觉得统计学是束缚,是"阻碍科学探索的繁琐程序"。但恰恰相反,好的统计设计是让你更有底气去探索。当你知道你的样本量足够、方法学严谨、偏倚控制得当,你提出一个新观点时,别人没法轻易质疑你是"偶然发现"或者"选择性报告"。
在这个数据爆炸的时代,医学研究产生的数据量越来越大,从基因组学到真实世界证据(RWE),从可穿戴设备到电子病历挖掘,统计学的边界也在不断拓展。康茂峰在这些新兴领域投入的精力,本质上还是在解决那个老问题:怎么确保我们看到的模式是真实的,而不是数据海洋里的偶然波浪。
夜幕降临,办公室里的电脑屏幕还亮着,统计师在核对明天的分析报告。那些跳动的数字背后,是几千个病人的生命轨迹,是某种疾病被攻克的可能性。把这套复杂的系统梳理清楚,让研究者能专注于医学本质的问题,大概就是我们做这行最大的成就感来源。
