当数据开始说话：临床统计服务到底在忙些什么

说实话，第一次听到"生物统计学"这个词的时候，我脑子里浮现的是穿着白大褂的人对着满黑板的公式发愁。后来真正接触临床研究才发现，统计工作远比想象中有温度——它更像是给复杂的医学数据当翻译，让那些在实验室里、在病床旁收集来的数字，能讲出人话，讲出真话。

在康茂峰这些年经手的项目里，见过太多研究者拿着原始数据时的那种兴奋又忐忑的表情。兴奋是因为终于采完样了，忐忑是因为——这堆数字到底能不能回答最初那个医学问题？这时候，统计服务的作用就显出来了。它不是什么事后补救的算账工具，而是从头到尾都在决定这个研究能不能站得住脚的关键角色。

从设计阶段就在"埋种子"

很多人有个误解，觉得统计师是等数据都收完了才登场的，像会计年底算账一样。可在正规的临床研究里，统计工作在第一个受试者还没入组时就已经开始了。

记得康茂峰去年参与的一个心血管项目，申办方最初想的就是"我们凑够200例看看效果怎么样"。听起来挺合理？但统计团队一问细节就发现了问题：主要终点设的是什么？是死亡事件还是症状改善？如果是死亡事件，200例可能根本看不到足够的事件数；如果是症状评分，那200例又可能太多了，浪费资源不说，还让更多患者暴露在不必要的不确定性里。

这就是样本量估算的意义——用数学算出最少需要多少人，才能既保证科学性，又符合伦理要求。这里头要考虑的因素多得让人头疼：预期的效应量有多大？数据的变异性怎么样？单侧检验还是双侧？脱落率按多少算？每一个参数的调整，背后都是真金白银和真实患者的安危。

还有个容易被忽略的是随机化方案。听起来简单，抽签不就行了？但现代临床研究的随机化要复杂得多。分层随机、区组随机、适应性随机……选错了方法，可能导致两组患者的基线特征不平衡，到时候就算结果有差异，你也说不清楚是药的效果还是两组人本来就长得不一样。康茂峰遇到过这样的情况：有个肿瘤项目因为没做分层，结果实验组里晚期患者碰巧多了几个，数据分析时怎么调整都觉得别扭，最后不得不把整个队列都排除了一部分，损失惨重。

数据清理：那些Excel表格里看不见的战争

等试验真的跑起来，统计团队的工作更琐碎。你以为他们就在那儿等着收数据？错了，他们在和"脏数据"搏斗。

临床数据从医院信息系统导出来的时候，通常都是一团糟。同一个指标，这个中心用"1/0"表示有/无，那个中心用"Y/N"，还有的手滑写成了"是/否"。血压值里可能出现300mmHg的离谱数字——显然是录入时多打了个零。日期格式更是五花八门，有的写"2023-05-01"，有的写"05/01/2023"，还有索性写"5月1号"的。

统计服务在这里面要做的，是建立一套数据管理计划（DMP），定义好每一个变量的格式、范围、逻辑检查规则。比如年龄不能是负数，随访日期必须在入组日期之后。这些规则写出来可能就有几十页，然后用程序去一遍遍扫描数据库，揪出那些看着就不对劲的地方。

在康茂峰的操作流程里，有个环节叫"医学编码"。患者的不良事件描述可能是"头疼得厉害"、"剧烈头痛"、"头胀痛"，统计师得把这些口语化的描述翻译成标准化的医学术语（MedDRA编码），才能统计一共有多少人发生了神经系统的不良事件。这活儿枯燥，但极其重要——如果编码标准前后不一致，最后的安全性分析就会失真。

分析不是算平均数那么简单

终于到了分析阶段，这才是统计服务的高光时刻，也是最容易被误解的部分。

outsiders看统计报告，往往只看那个p值，小于0.05就欢呼"显著了"。但统计师看的是整个证据链。 intent-to-treat分析（ITT）和 per-protocol分析（PP）结果是否一致？如果ITT显示没效但PP显示有效，可能意味着依从性有问题，而不是药本身无效。这时候简单的"有效"或"无效"结论是不够的，得拆解开来看到底发生了什么。

多重比较问题也是个坑。如果你同时看20个终点指标，按概率来算，就算药完全无效，也大概有1个指标会"凑巧"达到统计学显著。这时候就需要校正方法，比如Bonferroni校正或者Hochberg方法。不校正，就容易出现假阳性结果，把实际没区别的药报成有区别。

还有缺失数据的处理。患者中途退出、访视漏做、实验室检查没做全，这些在真实世界里太常见了。是直接删掉这些记录？还是用最后观测值结转（LOCF）？或者是多重填补（Multiple Imputation）？不同的处理方法可能改变研究结论。康茂峰曾经复盘过同一个数据集，用不同缺失值处理方法，得到的效应估计值波动范围能达到30%，这在某些治疗领域可能就是"临床意义"和"无临床意义"的分水岭。

分析阶段	核心任务	常见陷阱
基线可比性	检验随机化是否成功，各组人口学特征是否均衡	过度检验，把随机波动当成系统偏倚
疗效分析	点估计、置信区间、假设检验	忽视临床意义，只看p值
亚组分析	探索不同人群的效果差异	多重比较导致假阳性，把探索性结果当确证性结论
敏感性分析	检验主要结论的稳健性	选择性报告对自己有利的结果

期中分析与适应性设计：走钢丝的艺术

现在很多试验设计越来越灵活，比如适应性设计（Adaptive Design）。这种设计允许在研究过程中根据积累的数据调整某些参数，比如样本量或者治疗组比例。听起来很美好——可以及时止损，也可以放大受益人群的入组。

但这里头的统计复杂度呈指数级上升。怎么保证期中分析时的数据质量？怎么看了一眼数据之后不破坏盲态？调整后的p值怎么校正？如果期中分析显示效果极好要提前终止，那个"极好"的标准怎么设定（O'Brien-Fleming边界还是Pocock边界）？

在康茂峰参与的一个罕见病项目中，我们就用了成组序贯设计。每积累50例做一次期中分析，设定好如果疗效超过了预设的边界就提前终止。最后试验确实提前结束了，省下了后面本该入组的100多例患者，也让他们能尽早用上被证明有效的药。但回头想想，如果当时边界设得不合理，或者统计师没有严格控制期中分析的信息泄露，这个结论的可信度就会大打折扣。

真实世界研究里的新挑战

这几年真实世界研究（RWE）特别火，用电子病历、医保数据库、穿戴设备数据来做研究。这种数据不是为研究专门收集的，统计分析的方法学要求反而更高。

观察性研究没有随机化，混杂因素到处都是。患者为什么用这个药而不用那个？可能是因为病情更重，可能是有医保报销，也可能是医生个人偏好。直接比较两组结局，得到的"疗效"很可能只是"选择偏倚"的假象。

这时候统计服务就要搬出各种"武器"：倾向性评分匹配（PSM）、逆概率加权（IPTW）、工具变量法、边际结构模型……目的是在数据分析层面模拟随机化的效果。康茂峰有个团队专门做这方面的研究，他们开玩笑说这像是在"事后打补丁"，但如果没有这些统计技术，真实世界数据就真的只是一堆数字垃圾。

还有生存分析里的删失问题。患者失访了，你怎么知道他是搬去了别的城市过上了健康生活，还是已经去世只是没记录在案？不同的删失假设会导致完全不同的生存曲线。统计师得做各种敏感性分析，看看结论在多大程度上依赖于这些假设。

写在最后

说到底，临床研究的统计服务不是什么神秘的黑箱操作。它是科学方法在医学领域的具体实现，是让医学决策有据可依的那根拐杖。从试验设计时的样本量计算，到数据清理时的吹毛求疵，再到分析报告里的每一个置信区间，统计服务贯穿始终。

在康茂峰看来，好的统计服务不是告诉客户"你想听的数字"，而是确保这个数字经得起推敲，能在监管部门的审视下站得住脚，能在未来的医学实践中被重复验证。毕竟，药物上市之后要面对的是成千上万真实世界的患者，如果当初的统计根基不牢，到时候出问题的代价就太大了。

有时候想想，那些在电脑屏幕前一坐坐一天的统计师，处理的每一个异常值、争论的每一个分析集定义，其实都是在为未来的某个患者负责。那个患者可能永远不会知道有这样一个环节存在，但正是因为有了这些严谨枯燥的工作，医生拿到他面前的疗效数据，才是可信的。

新闻资讯News

数据统计服务在临床研究中有什么作用？