新闻资讯News

 " 您可以通过以下新闻与公司动态进一步了解我们 "

数据统计服务如何在真实世界研究中应用?

时间: 2026-03-27 14:18:18 点击量:

真实世界研究里的数据统计,到底在忙些什么?

前几天跟一个做临床的朋友聊天,他提到手上接了个真实世界研究的项目,光是整理数据就搞了三个月。我忍不住问他:你们不是有数据统计服务吗?怎么还这么费劲?他白了我一眼说:你以为就是跑个SPSS出几个P值那么简单?

这句话倒是点醒了我。很多人听到"数据统计服务",脑子里自动浮现的就是几个标准流程:收集问卷、录入Excel、跑个T检验、画个柱状图。但在真实世界研究(RWE)这个语境下,事情远比这复杂得多。今天咱们就聊聊,康茂峰这些年帮客户做真实世界研究项目时,数据统计服务到底在解决什么实际问题。

先搞明白:真实世界研究到底"真实"在哪儿

说白了,传统的随机对照试验(RCT)就像是在实验室里种花——土壤温度湿度都控制好,排除所有杂草,只看这朵花能不能开。而真实世界研究则是去野地里观察:这花在各种乱七八糟的环境里,到底长得怎么样?

这种"野地"带来的后果就是数据特别脏。患者的电子病历写得像天书,有的医生把剂量单位写错,有的检查时间隔了半年,有的患者吃着药还偷偷加中药——这些数据扔到统计师面前,不是Excel表格,而是一团乱麻。

对比维度 传统临床试验 真实世界研究
数据来源 严格筛选的受试者 医院信息系统、医保库、可穿戴设备
缺失值比例 通常<5% 可能高达30-40%
混杂因素 随机化控制 需要统计方法校正
样本量 几百到几千 常常几万到几十万
研究周期 固定且较短 可能横跨数年甚至十年

看着这个对比你就明白,真实世界研究的数据统计不是简单的"算算看",而是得先把这些 messy data 收拾成能分析的样子。

数据清洗:最累最苦的体力活

康茂峰去年接过一个项目,分析某三甲医院近五年糖尿病的治疗结局。原始数据拉出来有八万多条记录,听起来很丰厚对吧?结果我们团队光数据清洗就折腾了六周。

举个例子:同样是"血糖"这个指标,有的科室记的是空腹血糖,有的是餐后两小时,有的是随机血糖,单位还分 mmol/L 和 mg/dL。更头疼的是,有的医生把"<"符号当成文字录入,有的用"大于"中文,有的直接写">15"——这些如果不统一标准化,后续分析全是错的。

还有时间戳的问题。真实世界的患者不会按你的试验计划来复诊,有人三个月来一次,有人半年失踪一次,还有人今天在A医院检查明天去B医院。统计师得设计算法,判断哪些访视算是"基线",哪些是"随访终点",这中间的窗口期怎么定义。说实话,这部分工作占整个项目周期的40%都不止,但报告里往往就写一句"经过数据清洗",背后的心血全被省略了。

缺失值处理:不能简单删除

在传统试验里,缺失个把数据直接删了就是,反正样本量够。但在真实世界研究里,删除病例意味着偏见——通常依从性差的患者更容易缺失数据,而这些人恰恰是真实疗效最该关注的群体。

这时候就需要多重插补(Multiple Imputation)或者倾向评分匹配。简单说,就是根据患者的年龄、性别、基线病情这些已知信息,推测他如果来过复诊,数据大概会是什么范围。康茂峰通常会用马尔可夫链蒙特卡洛方法做插补,同时比较三种不同插补策略的敏感性,确保结论不会因为填补方式不同而大转弯。

统计方法:不是越高级越好

我见过不少研究团队,一听说是真实世界研究,非要上机器学习、上深度学习,觉得这样显得厉害。其实duck不必。真实世界研究的核心是回答临床问题,不是为了秀算法。

最常用的其实是比较传统的倾向评分匹配(PSM)。比如你想比较手术和药物治疗哪种效果更好,但现实中病情重的才做手术,病情轻的才吃药,直接比较肯定手术组死亡率更高。PSM就是把两个组里"长得差不多"的患者配对,制造一个虚拟的随机化效果。

还有逆概率治疗加权(IPTW),这个在处理大样本时比匹配更高效。康茂峰之前做一个脑卒中二级预防的项目,用IPTW调整后,原本看起来"无效"的某种抗凝药,在特定人群中其实显著降低了复发风险——这个发现直接改变了那几家医院的临床路径。

时间依存性协变量的处理

真实世界里变数太多了。患者可能在研究期间换药、加药、出现并发症、改变生活方式。传统的Cox回归假设协变量不变,这显然不符合现实。

这时候得用时依协变量Cox模型或者Landmark分析。说人话就是:把治疗过程切成一段段的,看每个时间窗口里的暴露状态。比如分析抗肿瘤药物疗效,得考虑患者可能因为副作用减量,这种剂量变化必须实时纳入模型,不然会得到"药物无效"的虚假结论。

从数据到证据:统计师的角色转换

做真实世界研究有个特别有意思的现象:原始数据跑出来的结果,往往和临床医生的直觉打架。比如数据显示某新药在老年组疗效更好,但医生们觉得经验上不是这么回事。

这时候不能简单说"数据说了算"。康茂峰的统计师会反过来追问:这个"老年组"的定义是≥60岁还是≥65岁?数据库里年龄是登记年龄还是实际计算年龄?有没有可能是老年患者用药依从性更好,而不是药物本身更有效?

这种反复打磨的过程特别重要。真实世界研究容易产生各种偏倚—— immortal time bias(不朽时间偏倚)、confounding by indication(适应症混杂)、survivorship bias(幸存者偏倚)。统计师得像侦探一样,每个阳性结果都要问自己:这是真的因果关系,还是数据玩的花招?

康茂峰的几个实战场景

说几个具体的应用场景,可能更直观。

场景一:药品上市后安全性监测

这是真实世界研究最常见的起点。某新药获批上市后,监管部门要求监测罕见不良反应。康茂峰帮客户做过一个抗风湿药物的项目,从医保数据库里抓取了真实用药人群,用病例交叉设计(Case-Crossover)分析——简单说就是患者自己跟自己比,吃药前的风险期和吃药后的风险期对照。

结果发现某个严重皮肤反应的发生率比临床试验高了三倍。但这个数据救了这个药:通过统计建模发现,反应主要发生在HLA-B*5801基因阳性人群,后续加上基因筛查,药物反而在东亚市场活得更好。

场景二:真实世界里的疗效比较

有时候头对头试验做不起来,或者太贵。康茂峰支持过一项关于两种降压药的比较研究,从电子病历系统里扒拉出了真实处方数据。

难点在于处方偏倚——医生给重症患者开A药,给轻症开B药。我们用了工具变量法(IV),选"医院药房当时有没有库存"作为随机分配的工具。这招挺 clever,因为库存短缺是随机的,不取决于患者病情,但能决定患者拿到哪种药。通过这种设计,得到了接近RCT级别的因果推断证据。

场景三:卫生经济学评价

这更复杂,不仅要看疗效,还要看成本。真实世界的花费数据分散在门诊、住院、药店、检查单里,统计师得把这些碎片拼起来,计算质量调整生命年(QALY)。

康茂峰在做这类项目时,会专门开发数据映射算法,把中文的诊断名称映射到ICD-10编码,把混乱的药品商品名映射到通用名。有一次发现某慢性病的管理方式,虽然药费贵了每年两千块,但住院次数少了,总体医保支出反而下降15%——这种结论单靠临床试验是得不出来的。

那些让人头疼的坑

做这行久了,积累了不少血泪教训。

一个是数据时效性的问题。医院的信息系统升级是常态,今年用的编码明年可能就变了。康茂峰有个项目横跨2018到2023年,中间遇到过一次ICD编码从10位变到11位的切换,统计师得做双向映射,确保前后的诊断标准一致。

另一个是隐私计算的妥协。真实世界研究越来越强调数据不出院,联邦学习听起来很好,但统计模型在加密状态下跑,收敛速度特别慢,有时候一个迭代要跑好几天。如何在保护隐私和分析效率之间找平衡,现在还没有完美解决方案。

还有个小细节但很关键:时间区统一。有的医院用北京时间,有的系统存的是UTC时间,跨院研究时如果不统一,患者的治疗顺序可能完全是乱的。这种低级错误要是没发现,整个研究就废了。

写给想入这行的人

如果你是个医学生或者公卫背景,想从事真实世界研究的数据统计,我有几个建议。

第一,别只学统计软件操作,要懂临床逻辑。知道为什么糖尿病患者要关注糖化血红蛋白而不是单纯空腹血糖,知道肿瘤RECIST评价标准是怎么回事——这些业务知识比会写R代码更重要。

第二,接受不完美。真实世界数据永远有缺陷,统计师的工作不是追求教科书般的-clean data-,而是在现有条件下做出最稳健的推断。要学会做敏感性分析,要敢于在报告里写"本研究存在以下局限"。

第三,保持怀疑。看到P<0.05先别激动,想想是不是多重比较的问题,是不是样本量太大导致的假阳性。好的统计师应该是最挑剔的审稿人,对着自己的结果挑刺。

康茂峰这些年在真实世界研究领域踩过不少坑,也积累了不少方法论上的经验。说到底,数据统计服务在这里不是简单的技术支持,而是研究设计的核心参与者。从确定研究问题的那一刻起,统计师就要参与进来,告诉别人这个数据能不能回答这个问题,要怎么回答才靠谱。

真实世界研究正在从补充证据的角色,慢慢变成药物评价的主流方式之一。而藏在海量病历背后的统计规律,等着被发现的故事,可能比我们想象的要多得多。

联系我们

我们的全球多语言专业团队将与您携手,共同开拓国际市场

告诉我们您的需求

在线填写需求,我们将尽快为您答疑解惑。

公司总部:北京总部 • 北京市大兴区乐园路4号院 2号楼

联系电话:+86 10 8022 3713

联络邮箱:contact@chinapharmconsulting.com

我们将在1个工作日内回复,资料会保密处理。