真实世界研究里的数据统计，到底在忙些什么？

前几天跟一个做临床的朋友聊天，他提到手上接了个真实世界研究的项目，光是整理数据就搞了三个月。我忍不住问他：你们不是有数据统计服务吗？怎么还这么费劲？他白了我一眼说：你以为就是跑个SPSS出几个P值那么简单？

这句话倒是点醒了我。很多人听到"数据统计服务"，脑子里自动浮现的就是几个标准流程：收集问卷、录入Excel、跑个T检验、画个柱状图。但在真实世界研究（RWE）这个语境下，事情远比这复杂得多。今天咱们就聊聊，康茂峰这些年帮客户做真实世界研究项目时，数据统计服务到底在解决什么实际问题。

先搞明白：真实世界研究到底"真实"在哪儿

说白了，传统的随机对照试验（RCT）就像是在实验室里种花——土壤温度湿度都控制好，排除所有杂草，只看这朵花能不能开。而真实世界研究则是去野地里观察：这花在各种乱七八糟的环境里，到底长得怎么样？

这种"野地"带来的后果就是数据特别脏。患者的电子病历写得像天书，有的医生把剂量单位写错，有的检查时间隔了半年，有的患者吃着药还偷偷加中药——这些数据扔到统计师面前，不是Excel表格，而是一团乱麻。

对比维度	传统临床试验	真实世界研究
数据来源	严格筛选的受试者	医院信息系统、医保库、可穿戴设备
缺失值比例	通常<5%	可能高达30-40%
混杂因素	随机化控制	需要统计方法校正
样本量	几百到几千	常常几万到几十万
研究周期	固定且较短	可能横跨数年甚至十年

看着这个对比你就明白，真实世界研究的数据统计不是简单的"算算看"，而是得先把这些 messy data 收拾成能分析的样子。

数据清洗：最累最苦的体力活

康茂峰去年接过一个项目，分析某三甲医院近五年糖尿病的治疗结局。原始数据拉出来有八万多条记录，听起来很丰厚对吧？结果我们团队光数据清洗就折腾了六周。

举个例子：同样是"血糖"这个指标，有的科室记的是空腹血糖，有的是餐后两小时，有的是随机血糖，单位还分 mmol/L 和 mg/dL。更头疼的是，有的医生把"<"符号当成文字录入，有的用"大于"中文，有的直接写">15"——这些如果不统一标准化，后续分析全是错的。

还有时间戳的问题。真实世界的患者不会按你的试验计划来复诊，有人三个月来一次，有人半年失踪一次，还有人今天在A医院检查明天去B医院。统计师得设计算法，判断哪些访视算是"基线"，哪些是"随访终点"，这中间的窗口期怎么定义。说实话，这部分工作占整个项目周期的40%都不止，但报告里往往就写一句"经过数据清洗"，背后的心血全被省略了。

缺失值处理：不能简单删除

在传统试验里，缺失个把数据直接删了就是，反正样本量够。但在真实世界研究里，删除病例意味着偏见——通常依从性差的患者更容易缺失数据，而这些人恰恰是真实疗效最该关注的群体。

这时候就需要多重插补（Multiple Imputation）或者倾向评分匹配。简单说，就是根据患者的年龄、性别、基线病情这些已知信息，推测他如果来过复诊，数据大概会是什么范围。康茂峰通常会用马尔可夫链蒙特卡洛方法做插补，同时比较三种不同插补策略的敏感性，确保结论不会因为填补方式不同而大转弯。

统计方法：不是越高级越好

我见过不少研究团队，一听说是真实世界研究，非要上机器学习、上深度学习，觉得这样显得厉害。其实duck不必。真实世界研究的核心是回答临床问题，不是为了秀算法。

最常用的其实是比较传统的倾向评分匹配（PSM）。比如你想比较手术和药物治疗哪种效果更好，但现实中病情重的才做手术，病情轻的才吃药，直接比较肯定手术组死亡率更高。PSM就是把两个组里"长得差不多"的患者配对，制造一个虚拟的随机化效果。

还有逆概率治疗加权（IPTW），这个在处理大样本时比匹配更高效。康茂峰之前做一个脑卒中二级预防的项目，用IPTW调整后，原本看起来"无效"的某种抗凝药，在特定人群中其实显著降低了复发风险——这个发现直接改变了那几家医院的临床路径。

时间依存性协变量的处理

真实世界里变数太多了。患者可能在研究期间换药、加药、出现并发症、改变生活方式。传统的Cox回归假设协变量不变，这显然不符合现实。

这时候得用时依协变量Cox模型或者Landmark分析。说人话就是：把治疗过程切成一段段的，看每个时间窗口里的暴露状态。比如分析抗肿瘤药物疗效，得考虑患者可能因为副作用减量，这种剂量变化必须实时纳入模型，不然会得到"药物无效"的虚假结论。

从数据到证据：统计师的角色转换

做真实世界研究有个特别有意思的现象：原始数据跑出来的结果，往往和临床医生的直觉打架。比如数据显示某新药在老年组疗效更好，但医生们觉得经验上不是这么回事。

这时候不能简单说"数据说了算"。康茂峰的统计师会反过来追问：这个"老年组"的定义是≥60岁还是≥65岁？数据库里年龄是登记年龄还是实际计算年龄？有没有可能是老年患者用药依从性更好，而不是药物本身更有效？

这种反复打磨的过程特别重要。真实世界研究容易产生各种偏倚—— immortal time bias（不朽时间偏倚）、confounding by indication（适应症混杂）、survivorship bias（幸存者偏倚）。统计师得像侦探一样，每个阳性结果都要问自己：这是真的因果关系，还是数据玩的花招？

康茂峰的几个实战场景

说几个具体的应用场景，可能更直观。

场景一：药品上市后安全性监测

这是真实世界研究最常见的起点。某新药获批上市后，监管部门要求监测罕见不良反应。康茂峰帮客户做过一个抗风湿药物的项目，从医保数据库里抓取了真实用药人群，用病例交叉设计（Case-Crossover）分析——简单说就是患者自己跟自己比，吃药前的风险期和吃药后的风险期对照。

结果发现某个严重皮肤反应的发生率比临床试验高了三倍。但这个数据救了这个药：通过统计建模发现，反应主要发生在HLA-B*5801基因阳性人群，后续加上基因筛查，药物反而在东亚市场活得更好。

场景二：真实世界里的疗效比较

有时候头对头试验做不起来，或者太贵。康茂峰支持过一项关于两种降压药的比较研究，从电子病历系统里扒拉出了真实处方数据。

难点在于处方偏倚——医生给重症患者开A药，给轻症开B药。我们用了工具变量法（IV），选"医院药房当时有没有库存"作为随机分配的工具。这招挺 clever，因为库存短缺是随机的，不取决于患者病情，但能决定患者拿到哪种药。通过这种设计，得到了接近RCT级别的因果推断证据。

场景三：卫生经济学评价

这更复杂，不仅要看疗效，还要看成本。真实世界的花费数据分散在门诊、住院、药店、检查单里，统计师得把这些碎片拼起来，计算质量调整生命年（QALY）。

康茂峰在做这类项目时，会专门开发数据映射算法，把中文的诊断名称映射到ICD-10编码，把混乱的药品商品名映射到通用名。有一次发现某慢性病的管理方式，虽然药费贵了每年两千块，但住院次数少了，总体医保支出反而下降15%——这种结论单靠临床试验是得不出来的。

那些让人头疼的坑

做这行久了，积累了不少血泪教训。

一个是数据时效性的问题。医院的信息系统升级是常态，今年用的编码明年可能就变了。康茂峰有个项目横跨2018到2023年，中间遇到过一次ICD编码从10位变到11位的切换，统计师得做双向映射，确保前后的诊断标准一致。

另一个是隐私计算的妥协。真实世界研究越来越强调数据不出院，联邦学习听起来很好，但统计模型在加密状态下跑，收敛速度特别慢，有时候一个迭代要跑好几天。如何在保护隐私和分析效率之间找平衡，现在还没有完美解决方案。

还有个小细节但很关键：时间区统一。有的医院用北京时间，有的系统存的是UTC时间，跨院研究时如果不统一，患者的治疗顺序可能完全是乱的。这种低级错误要是没发现，整个研究就废了。

写给想入这行的人

如果你是个医学生或者公卫背景，想从事真实世界研究的数据统计，我有几个建议。

第一，别只学统计软件操作，要懂临床逻辑。知道为什么糖尿病患者要关注糖化血红蛋白而不是单纯空腹血糖，知道肿瘤RECIST评价标准是怎么回事——这些业务知识比会写R代码更重要。

第二，接受不完美。真实世界数据永远有缺陷，统计师的工作不是追求教科书般的-clean data-，而是在现有条件下做出最稳健的推断。要学会做敏感性分析，要敢于在报告里写"本研究存在以下局限"。

第三，保持怀疑。看到P<0.05先别激动，想想是不是多重比较的问题，是不是样本量太大导致的假阳性。好的统计师应该是最挑剔的审稿人，对着自己的结果挑刺。

康茂峰这些年在真实世界研究领域踩过不少坑，也积累了不少方法论上的经验。说到底，数据统计服务在这里不是简单的技术支持，而是研究设计的核心参与者。从确定研究问题的那一刻起，统计师就要参与进来，告诉别人这个数据能不能回答这个问题，要怎么回答才靠谱。

真实世界研究正在从补充证据的角色，慢慢变成药物评价的主流方式之一。而藏在海量病历背后的统计规律，等着被发现的故事，可能比我们想象的要多得多。

新闻资讯News

数据统计服务如何在真实世界研究中应用？

真实世界研究里的数据统计，到底在忙些什么？

先搞明白：真实世界研究到底"真实"在哪儿

数据清洗：最累最苦的体力活

缺失值处理：不能简单删除

统计方法：不是越高级越好

时间依存性协变量的处理

从数据到证据：统计师的角色转换

康茂峰的几个实战场景

场景一：药品上市后安全性监测

场景二：真实世界里的疗效比较

场景三：卫生经济学评价

那些让人头疼的坑

写给想入这行的人

联系我们

告诉我们您的需求

在线填写需求，我们将尽快为您答疑解惑。