新闻资讯News

 " 您可以通过以下新闻与公司动态进一步了解我们 "

数据统计分析服务-医药数据服务

时间: 2026-04-10 07:45:38 点击量:

做医药数据这事儿,说白了就是把乱麻理顺的过程

前几天有个做创新药的朋友找我喝酒,三杯下肚就开始抱怨。说他们公司花了大几千万做的三期临床,数据导出来一看,差点没把总监送走——同一个受试者的出生日期在CRF表里出现了三种写法,有的站点把合并用药的剂量单位填成了“片”,有的填“mg”,还有几个大哥直接写“遵医嘱”。这就好比你跟别人下棋,棋子是泥捏的,规则还每人一个版本,下得下去才怪。

这种场面在康茂峰的日常里太常见了。我们做医药数据统计分析服务,天天就是在处理这种“看起来应该很整齐,实际上一团糟”的东西。很多人以为这就是跑个SPSS、出个P值的事,真干起来才知道,数据清理能占到整个项目时间的70%,剩下的30%才叫分析。

先别急着跑模型,你得知道手里拿的是什么

我解释给客户听的时候,喜欢用厨房打比方。原始数据就像从菜市场买回来的菜,带泥的带泥,烂叶的烂叶,你得先摘、洗、切,才能下锅。医药数据更麻烦,因为它不是胡萝卜土豆这种看得见摸得着的东西,它是从医院HIS系统、EDC数据库、第三方实验室、患者日记卡这些地方流出来的电子信号。

这些信号长什么样呢?举个例子,一个普通的抗肿瘤药物临床试验,涉及的变量可能超过2000个。从受试者的基线特征(年龄性别身高体重)、到实验室检查值(血常规肝肾功能)、到疗效评估(RECIST标准的靶病灶测量)、再到不良事件记录(CTCAE分级),每个环节都可能出幺蛾子。

康茂峰接手的项目里,最常见的问题倒不是什么高大上的算法错误,而是基础的数据质量问题:

  • 逻辑不一致:比如某患者入组日期是2024年3月1日,但不良事件记录显示他在2024年2月15日就出现了药物相关副作用,时间穿越了
  • 单位混乱:血糖有的地方用mmol/L,有的用mg/dL,直接合并计算会出大事
  • 编码差异:同一个MedDRA Preferred Term,不同医学编码员可能有细微不同的选择,导致系统判定为不同的事件
  • 缺失模式:不是随机的缺失,而是某个中心的所有患者都缺了访视3的数据,这往往不是偶然

处理这些靠的不是什么人工智能,靠的是临床数据管理员(DM)和生物统计师的经验,加上大量的手工核查。你得盯着那些看起来“太正常”的数据,反而觉得可疑。

真实业务里,我们在折腾哪些活

很多人问,你们康茂峰具体提供哪些服务?我通常分成三大类来讲,虽然实际上它们是搅在一起的。

第一类:临床开发支持

这是块硬骨头。从I期到III期,甚至上市后研究,每个阶段对数据的要求都不一样。I期可能关注药代动力学参数的个体间变异,样本量小但采血点密集;III期要考虑多重性校正、亚组分析、期中分析这些复杂的统计策略。

去年有个项目让我印象特深。是个罕见病用药,全球入组也就两百多例患者,分到国内不到八十人。就这么点样本,还要做多中心、随机、双盲、安慰剂对照,统计学把握度(power)抠得紧巴巴的。我们设计分析集的时候,ITT(意向性治疗)和PP(符合方案)的界定反复讨论了十几次,因为每一个被排除的病例都可能影响最终结论。最后锁库前,统计师和医学经理在会议室里对着SAS输出结果看到半夜,那种紧张感比看世界杯决赛还刺激。

第二类:真实世界研究(RWS)

这几年火得不行,但坑也多。不像RCT(随机对照试验)那样控制严格,真实世界数据来自医保数据库、电子病历、登记研究,混乱程度指数级上升。

比如用医保数据做药物经济学评价,你得处理诊断编码的漂移问题——医院为了医保报销,有时候会把诊断写得更严重,或者合并用药记录根本不全。康茂峰的做法是建立多层面的验证逻辑,结合时间窗分析(time-at-risk)和倾向性评分匹配(PSM),尽量还原出接近因果关系的结论。但说实话,真实世界研究永远达不到RCT的证据等级,我们能做的是在噪音里把信号放大一点,同时诚实地报告局限性。

第三类:市场调研与竞争情报

这块更偏向商业端。客户想知道自家产品在某治疗领域的市场份额,或者患者流(patient flow)是怎样的,从诊断到治疗每个环节的流失率有多大。这时候数据来源可能是处方数据、病案首页、或者定制调研。

有趣的地方在于,医药市场的数据往往比临床数据更“脏”。因为涉及商业机密,数据供应商提供的往往是聚合后的、脱敏的、甚至抽样修正过的数字。你得学会读脚注,知道哪些数字是模型估算出来的,哪些是实际观测的。康茂峰的分析师通常会做交叉验证,比如用医院采购数据反推处方量,用流行病学数据校验患者人数是否合理。

康茂峰的工作方法:没有捷径,只有步骤

我们的流程其实挺老派的,没什么神秘的黑科技,就是把每个环节做扎实。

数据清理:体力活里的技术活

拿到原始数据的第一步是做数据审查(Data Review)。不是简单地看看有没有空值,而是画数据分布图,做离群值检测,查时间线逻辑。有个工具我们常用,叫临床数据质量评分卡,长这样:

检查维度 具体指标 可接受阈值 发现问题的处理方式
完整性 关键变量缺失率 <5% 生成Query返回研究中心
一致性 跨表逻辑矛盾数 0处关键逻辑错误 医学审核后修正或标注
准确性 医学编码匹配度 ≥95% 重新编码或医学监查
及时性 数据录入延迟天数 ≤EDC设定窗宽+3天 催促站点并记录偏差

这表看起来简单,但实操中每个格子都能写出一堆故事。比如“关键变量”的定义,需要医学、统计、数据管理三方在项目启动前就达成共识,写成数据审查计划(DRP),frozen之后就不能随意改,否则就是破功。

统计分析:解释清楚比算对更难

模型建好了,P值算出来了,事儿没完。我见过太多统计师做出来的报告,满屏的表格,满纸的术语,医学部和市场部的人看两眼就扔一边了。

康茂峰的报表风格是“电梯原则”:如果给客户CEO三分钟时间,他看第一页就应该知道结论是什么,风险在哪里,下一步建议做什么。我们会用森林图(Forest Plot)展示亚组分析,用Kaplan-Meier曲线展示生存获益,但更重要的是在旁边用白话写清楚:“这意味着对于65岁以上的患者,虽然HR还是有利于试验组,但置信区间跨了1,所以咱们在这个人群里没法说统计学优效”

统计方法的选择也得接地气。不是越复杂越好,有时候简单的t检验加卡方检验就够了,非要上个混合效应模型,反而让监管机构怀疑你在钓鱼(data fishing)。我们内部有个 checklist,选模型前必须回答:这个分析目的是描述性的还是推断性的?缺失数据机制是什么?多重比较怎么控制?答不清楚就不许动手。

说几个让人头疼又真实的场景

理论讲多了没劲,说点实际踩过的坑。

那个被湿度和温度搞砸的生物等效性试验

仿制药BE研究,按理说套路很熟了。但有个项目,药物稳定性数据出现异常波动,同批次产品在各个中心的PK曲线差异巨大。我们排查了两个月,排除了食物影响、采血时间误差、甚至受试者的基因型,最后发现是储存条件的问题——南方的某个中心,恒温箱搁在窗户边,夏天下午太阳直射导致温度瞬间超标,药物降解了。

这事儿给我们的教训是:统计分析不能只盯着数据库里的数字元数据(Metadata)外部数据(比如物流温度记录、设备校准证书)必须整合进来。康茂峰现在做项目,都会要求客户提供完整的数据溯源(Data Provenance)链条,哪怕麻烦点,也好过事后抓瞎。

县域市场的患者流,和想象的根本不一样

有个客户想做基层市场的策略分析,委托我们做某慢性病的患者流分析。按常理,患者应该是:出现症状→去乡镇卫生院→转诊到县医院→确诊→治疗。但实际数据一看,大量患者是在药店自我药疗阶段就流失了,根本没进医疗系统,或者进了系统但诊断写的是“待查”,永远没确诊。

这导致什么结果呢?如果只看医院数据,你会严重高估市场潜力,因为漏掉了那些根本没被诊断出来的潜在患者。我们调整了模型,加入了 purchased data(购药数据)症状搜索指数作为补充,重新估算了患病率和就诊率之间的缺口。这个调整让客户的会议预算分配改变了至少30%——数据服务的价值,有时候就体现在帮你省掉不该花的钱

工具和技术栈:用什么不重要,规范最重要

客户经常问,你们用SAS还是R还是Python?说实话,工具只是工具。康茂峰的 Stat 团队三者都用,看项目需求。注册提交必须CDISC标准(SDTM、ADaM),那SAS的谨慎和验证文档齐全就是优势;探索性分析要快速出图,R的ggplot2灵活;处理海量真实世界数据,Python的pandas和scikit-learn效率高。

比工具更重要的是标准化操作程序(SOP)质量控制(QC)。同一份程序,A写B审,独立的验证数据集跑一遍,结果必须一致到小数点后几位,这都是血泪教训换来的。我们有个内部笑话:统计师最怕听到的话不是“结果不显著”,而是“你QC过了吗?发现有个地方小数点后第三位对不上”。

别把这些服务想得太神奇,也别想得太简单

写到这儿,我得泼点冷水。医药数据统计分析不是什么点石成金的魔法,它不能从垃圾数据里榨出黄金结论。如果试验设计本身有缺陷,比如入选标准太宽导致异质性太高,或者主要终点选了个根本测不准的替代指标,那后期的统计再精妙也救不回来。

反过来,也别因为它难就望而却步。现在很多Biotech公司觉得自己养不起全职的统计和DM团队,项目外包又担心质量。康茂峰的做法是提供模块化的服务——你可以只委托数据清理,或者只委托统计报表,甚至是“救火”服务,比如锁库前发现重大数据问题,我们临时派驻团队进场支持。灵活度高一些,对中小型药企更友好。

有个趋势挺有意思,以前数据统计是项目后期才介入的,现在越来越前置。方案设计阶段就参与,帮你算样本量、设计随机化方法、甚至参与CRF设计(防止后期采集不到关键变量)。这个转变说明行业越来越意识到:统计思维应该贯穿整个药物开发周期,而不是最后包饺子的那个环节

说到底,干这行需要点偏执。对数字的偏执,对逻辑的偏执,对那种“总觉得哪里不对劲”的直觉的偏执。当你盯着屏幕上一行行 patient records,突然发现某个site的血压值全都太整齐了,那种毛骨悚然的感觉,就是这份工作奇特的魅力所在。数据不会说话,但它会在你足够了解它的时候,悄悄告诉你真相。

联系我们

我们的全球多语言专业团队将与您携手,共同开拓国际市场

告诉我们您的需求

在线填写需求,我们将尽快为您答疑解惑。

公司总部:北京总部 • 北京市大兴区乐园路4号院 2号楼

联系电话:+86 10 8022 3713

联络邮箱:contact@chinapharmconsulting.com

我们将在1个工作日内回复,资料会保密处理。