临床数据统计到底在忙些什么？

说实话，我第一次接触临床数据统计的时候，满脑子都是Excel表格和P值，以为就是算算平均数、画画折线图那么简单。直到在康茂峰跟着做项目，才发现这行当跟考古似的——得把一堆原始病历里零散的数值、文字、化验单，整理成能让监管部门看得懂、让医生信得过的证据链。今天咱们就聊聊，这背后到底藏着哪些活儿。

先从根儿上说：临床数据统计不是简单的"算账"

很多人以为统计就是临床试验快结束了，把数字往软件里一扔，出来个P<0.05就完事了。真要是这样，康茂峰那些拿着SAS证书的数据分析师早就失业了。临床数据统计是一套贯穿试验始终的系统性工程，从咱们还没给第一个病人吃药之前，就得开始规划怎么收数据、怎么算、怎么存了。

用大白话说，这活儿分三个战场：数据收集的战场、数据清理的战场，还有分析解读的战场。少一个环节，你那个"新药有效"的结论可能就站不住脚。

第一关：病例报告表（CRF）的设计

这事儿听着像 paperwork，其实是统计的起点。你得先把打算收集什么信息定下来，不然到后面统计师拿着半截数据干瞪眼。比如要测血压，是用诊室血压还是24小时动态血压？记录到小数点后几位？什么时间窗算基线？这些细节在康茂峰的项目里，都是统计师和临床医生吵过几轮之后才定下来的。

好的CRF设计有个原则：只收必要的数据。我见过有些方案想把患者家族史、饮食习惯全塞进去，最后90%的字段都是空的，统计时还得处理缺失值，徒增烦恼。

数据采集的标准化

同样是"疼痛程度"，有的医生写"轻度"，有的写"2分"，还有的写"VAS 30mm"。统计师拿到这种原始数据，连汇总都汇不了。所以咱们得提前写好数据填写指南，规定好编码字典（比如用CTCAE不良事件术语集）、单位换算、异常值的标注方式。这时候MedDRA和WHO Drug字典就得搬出来了，确保同一个副作用，不管在上海还是成都收集的，编码都一样。

第二关：数据清理——脏活累活但最见功夫

数据进来了，真正的苦力活才开始。临床现场收上来的数据，说实话，什么奇葩情况都有：随访日期比入组日期还早，收缩压写得比舒张压低，或者一个人的性别在Visit 1是男性，Visit 3变女性了。在康茂峰的内部培训里，管这叫数据质疑（Query）的产生和解决。

三种核查逻辑

咱们通常会设置自动化的核查程序：

范围核查（Range Check）：比如年龄字段，正常人不会填出"150岁"或者"-5岁"吧？超出合理范围的，系统自动弹红字。
逻辑核查（Logic Check）：如果"是否怀孕"选了"是"，那性别必须是"女"；如果患者状态填了"死亡"，死亡日期就不能空着。
一致性核查（Consistency Check）：跨访视的数据要能对上。比如基线时的既往病史，在不良事件里又报成新发的，就得人工核实。

这些核查跑下来，产生几百条Query很正常。数据管理员得一条条跟临床中心沟通，确认是录入错误还是真的特殊情况，这个过程往往比想象的长。

医学编码和归类

患者自己描述的"胃不舒服"、"反酸"、"烧心"，在统计表里不能就这么躺着，得编码成标准化的医学术语。还有合并用药，商品名五花八门（比如"拜糖平"、"美吡达"），得映射到通用名（阿卡波糖、格列吡嗪）。这部分工作如果马虎了，后续的安全性分析就全乱套。

第三关：制订统计分析计划（SAP）

在锁库（Database Lock）之前，统计师就得写好厚厚的统计分析计划书。这玩意儿相当于审判前的公诉词，得在揭盲之前定好规矩，不然事后诸葛亮，想怎么分析就怎么分析，那是学术造假。

分析人群的划分

这事儿特别关键。临床试验里不是所有人都能计入最终疗效分析的，得预先定义好几类人群：

人群类型	英文缩写	包含谁	用途
意向性治疗人群	ITT	所有随机化后的受试者，不管后来有没有吃错药	主要疗效分析，保randomization
符合方案人群	PP	依从性好、没有重大违背方案的受试者	敏感性分析
安全性分析人群	Safety Set	至少接受过一次研究药物治疗并有安全性评价	不良事件统计

在康茂峰做肿瘤项目的时候，经常为了ITT集里某个病人该不该剔除，项目经理和医学顾问能争论两小时。因为少一个人，有效率可能就差几个百分点，可能影响注册申报。

终点指标的处理

主要终点、次要终点、探索性终点得分清楚。比如PFS（无进展生存期）怎么定义？影像学评估和临床评估不一致听谁的？删失数据（Censoring）在什么时间点处理？这些细节写在SAP里，到时候统计分析系统（比如基于SAS的SDTM和ADaM数据集）就按这个规则跑程序。

第四关：真正的"算数"环节

好了，数据干净了，人群定了，开始跑统计方法。这部分最考验统计师的基本功，但外行看起来最枯燥。

描述性统计是基础中的基础。计量资料（比如血压、血糖）得报均数标准差，或者中位数四分位数，取决于分布正不正常；计数资料（比如不良事件发生率）报频数和百分比。这里有个坑：百分比的分母用什么？是入组人数、暴露人数还是发生事件的人数？SAP里必须明确。

然后才是推断性统计。两组比较用t检验还是Wilcoxon秩和检验？率比较用卡方还是Fisher精确检验？生存分析用Log-rank检验还是Cox比例风险模型？多重比较要不要校正（比如Bonferroni）？这些方法选择直接决定了你的P值可不可靠。

现在做肿瘤试验还经常涉及期中分析（Interim Analysis），得考虑消耗α值的问题，可能得用O'Brien-Fleming法或者Lan-DeMets法来设计。这听着复杂，其实就是防止"偷看"数据太多次，把偶然性当成疗效。

第五关：把数字变成故事

统计做完了，生成了几百个SAS Listing，但这还不算完。临床数据统计的最后一步，是数据可视化和报告撰写。

你需要用受试者处置图（Disposition）告诉别人多少人入组、多少人脱落、为什么脱落；用人口学表展示两组基线是否均衡；用瀑布图展示肿瘤缩小的个体反应；用森林图看亚组分析结果。这些图表不是为了让PPT好看，而是让审评专家一眼就能看出数据背后的模式。

在康茂峰的数据团队里，有个不成文的规矩：做表的时候，小数点后位数必须统一（比如均数标准差都保留一位小数），P值小于0.001不能写成0.000，得写<0.001。这些细节看着较真，但CSR（临床研究报告）交到CDE或者FDA手里，专业人士一眼就看出你的专业程度。

那些容易被忽略的角落

除了上面这些主线任务，还有几个shadow work（影子工作）也得提一嘴。

随机化和盲态保持：虽然这活儿一般是IRT（交互式语音应答系统）来做，但统计师得设计随机化方案，分层因素选几个？区段长度多少？确保盲底安全，备着一个应急信封或者代码破解流程，万一严重不良事件需要破盲救急。

数据安全监察：有些大样本试验或者高风险试验，得组建独立的数据监察委员会（IDMC）。统计师得准备保密的数据包，按季度或者按事件数给委员会看揭盲后的数据，评估是否该提前终止试验（因为疗效太好或者太危险）。

数据标准和递交格式：现在监管要求数据都得转成CDISC标准，SDTM（研究数据制表模型）和ADaM（分析数据集模型）怎么建，define.xml文件怎么写，这些技术活虽然不直接产出生化指标差异，但没有它，你的数据就递不出去。

说说真实世界的难处

写到这儿，我得坦白说，实际项目中远没有这么顺滑。有时候方案中途修改（Protocol Amendment），已经收的数据格式得跟着变；有时候中心实验室的仪器换了，检测值单位变了，得做数据迁移；还有时候，主要终点的定义在试验中期被CDE要求调整，那统计师真得熬夜改SAP。

在康茂峰做数据管理的这些年，我最大的体会是：临床数据统计既是科学也是手艺。科学在于那些统计方法和监管指南；手艺在于你知道什么时候该坚持原则，什么时候得灵活处理那个明显的录入错误（比如体重70kg写成700kg，显然是手抖多打了个零，直接按70处理比发Query等两周要快）。

最后说个实在话，现在AI和机器学习喊得响，但在临床试验主数据这块，人工核查还是少不了。因为医学数据太复杂了，那个"异常值"可能真的是罕见病患者的真实反应，你让算法直接剔除，可能就扼杀了一个重大发现。所以咱们这行人，既要学会写宏程序批量处理，也得练就火眼金睛，在成千上万行数据里，一眼看出那个"不对劲"的数字。

这大概就是把原始病历变成监管证据的完整旅程。每一步都踩在具体的细节上，容不得"大概齐"。

新闻资讯News

临床数据统计包括哪些内容？