eCTD发布中那些让人头疼又不得不面对的格式要求

说实话，第一次接触eCTD的时候，我以为就是把Word文档转成PDF打包发过去而已。结果呢？光是文件命名这个问题，就让我在电脑前坐了一整天。后来才明白，这玩意儿就像是你搬家时必须按照特定方式打包箱子——箱子大小要统一，标签要贴在指定位置，里面的东西还得按顺序码放。药监部门每天要审几百个申报资料，如果你的"箱子"乱七八糟，人家连打开的欲望都没有。

先搞清楚eCTD到底是个啥

用最直白的话说，eCTD就是给药品注册资料设定的一套"电子版收纳规则"。它把成千上万页的研究报告、实验数据、生产工艺说明，按照固定的逻辑塞进五个大抽屉里。这五个抽屉在业界被称为Module 1到Module 5，其中Module 1是地区行政信息，Module 2是总结概述，Module 3到Module 5则是质量、非临床和临床研究的详细数据。

很多人容易混淆PDF标准和eCTD标准。PDF只是文件格式，而eCTD是一套完整的提交体系。在康茂峰处理过的申报案例中，最常见的初级错误就是把eCTD当成简单的PDF合集。实际上，它要求的是一个结构化的XML主干，把所有PDF像树叶一样挂在特定的树枝上。没有这个XML骨架，再多PDF也是一盘散沙。

PDF不是你想怎么转就怎么转

先说说最基础的PDF要求。你可能觉得，不就是把Word另存为PDF吗？这里面的坑可多了去了。

首先是版本兼容性。FDA和EMA要求的是PDF 1.4到1.7版本，而国内NMPA（国家药监局）通常接受1.4及以上。这意味着你不能用最新版Adobe随便导出一个PDF/A-3就交上去。我遇到过最尴尬的情况是，客户用某款国产办公软件导出的PDF，在审评老师的系统里打开全是乱码——因为字体嵌入出了问题。

说到字体，这又是一个老大难。所有非标准字体必须嵌入，这是铁律。宋体、Times New Roman这些常用字体还好，但要是你的报告里用了什么特殊的化学结构符号字体，或者日文韩文生僻字，忘记嵌入的话，到了对方电脑上就会变成一个个小方块。康茂峰的技术团队通常会建议客户：宁可统一用标准字体重新排版，也别冒险用那些花里胡哨的字体。

还有安全性设置。eCTD要求的PDF必须是"Unsecured"状态，也就是不能设密码，不能禁止打印，不能禁止复制文本。很多公司出于保密习惯会给PDF加权限密码，这在eCTD提交里是行不通的。你需要的是"裸奔"的PDF，透明可读。

那个让人又爱又怕的XML backbone

如果说PDF是血肉，XML就是骨骼。eCTD的XML不是随便写写的，它必须严格符合ICH的DTD（文档类型定义）或Schema验证。

具体来说，XML文件要包含几个关键节点：申请编号（application number）、提交序列号（sequence number）、提交描述、以及每个文件的元数据（metadata）。这些元数据包括文件标题、版本号、文件路径、交叉引用关系等等。在康茂峰的实践中，常见错误是路径大小写不一致——Windows系统不区分大小写，但Linux服务器区分，所以"Module1"和"module1"在你电脑上看起来一样，上传到审评系统里就会报错说找不到文件。

还有Checksum校验值。每个PDF都要在XML里记录MD5或SHA-1的哈希值，这是为了防止文件在传输过程中被篡改或损坏。如果 somebody（某人）偷偷替换了文件哪怕一个标点符号，校验值对不上，系统就会报警。

表格：常见文件格式要求速查

文件类型	格式要求	常见错误
文本报告	PDF 1.4-1.7，字体嵌入	未嵌入字体、安全权限限制
数据集	SAS XPT V5或V8	变量名长度超标、字符编码错误
结构元数据	XML 1.0，DTD验证	节点嵌套错误、路径大小写混乱
电子签名	符合21 CFR Part 11标准	签名证书过期、时间戳缺失
图像文件	TIFF或JPEG，300dpi以上	分辨率不足、压缩格式不兼容

书签和超链接：导航的艺术

你有没有想过，审评老师面对一个几万个文件的提交包，是怎么找到他需要的那一页的？答案就是书签（Bookmarks）和超链接（Hyperlinks）。

ICH要求eCTD的PDF必须具备层级书签，对应CTD的目录结构。Module 2的总结报告尤其重要，里面要有指向Module 3、4、5详细数据的交叉引用链接。这些链接不能是死链，也不能指向外部的网址（对，这就是为什么不能有外链），必须是相对路径，指向提交包内的其他PDF。

这里有个细节很多人忽略：链接的矩形框。在Adobe Acrobat里创建链接时，那个可点击的矩形区域不能太敷衍地覆盖整页，也不能小到难以点击。而且，链接的目标页面要精确到具体段落，不能笼统地指到某份报告的第一页就完事。康茂峰的QC流程里，专门有一步是"点击测试"——每个链接都要手工点一遍，确认能跳到正确的位置。

还有书签的命名规范。不能用"第1节"这种模糊的名字，必须是像"2.3.1 质量概述"这样包含章节编号和标题的完整描述。层级缩进也要准确，子章节要缩进在父章节下面，不能平铺直叙。

文件命名：没有商量余地的强迫症

这可能是eCTD里最反人类但又最合理的规定了。每个文件名必须遵循严格的8.3格式或者长文件名规范，不能有空格，不能有特殊字符（除了下划线和连字符），必须全部小写（或者全部大写，取决于具体申报地区，但通常建议小写）。

比如说，一份放在Module 3的质量研究报告，命名可能是：m3-3-2-p-0001.pdf。这里面的"m3"表示Module 3，"3-2"表示CTD章节3.2，"p"表示生产部分，"0001"是序列号。在康茂峰的内部培训中，我们会让新人反复练习这个命名逻辑，因为一旦命名错误，整个提交包的索引就会乱套。

特别要注意的是序列号的管理。同一个提交序列中，每个文件都要有唯一的序列号。如果你删掉了某个旧文件，这个序列号通常要留空，不能复用，以保证历史版本的追溯性。这就像是给每个文件发了一个永久身份证，哪怕是撤销的文件，它的"身份证号"也要保留在档案里。

那些藏在细节里的魔鬼

除了上面这些大框架，还有一些细碎但致命的格式要求。

页眉页脚：每一页都要有页码，位置通常在右下角。页码格式要统一，不能前面用阿拉伯数字，后面突然用罗马数字。而且，页眉通常要包含文档标题和版本号，这样打印出来的纸质版（虽然现在是电子提交，但审评老师有时会打印查阅）不会和别的文件搞混。

目录页：长文档必须要有书签式的目录（Table of Contents），而且这些目录项必须是可点击的超链接，不能只是静态文本。这听起来理所当然，但实际操作中，很多自动生成的PDF目录只是"看起来像链接"，实际上点不了。

扫描件的处理：如果是扫描的纸质文件（比如老式的批记录或者签名页），分辨率必须达到300dpi以上，黑白扫描通常比彩色更保险，因为文件体积会小很多。eCTD对提交包的总大小有限制，单个文件通常不能超过一定MB数（不同地区规定不同，但一般建议控制在50MB以内），太大的PDF要分割。但分割也有讲究，不能从表格中间劈开，要保证逻辑完整性。

交叉引用的维护：当你在Module 2里引用了Module 3的某个数据时，不仅要建立超链接，还要在XML的leaf元素里正确使用标签的属性。如果引用的目标文件在后续的提交序列中被更新了，你的引用关系也要同步更新。这就像是维护一个复杂的蜘蛛网，动一根线，相关的节点都要检查。

校验工具是你的救命稻草

没人能光靠肉眼检查出所有格式错误。业内有几个标准的校验工具（这里不提具体名字，但你知道的，就是那种能生成红色错误报告的工具），它们会按照ICH的官方Schema对你的XML和PDF进行体检。

常见的报错包括："Invalid PDF version"（PDF版本不对）、"Font not embedded"（字体没嵌入）、"Broken hyperlink"（链接断裂）、"Invalid sequence number"（序列号重复）等等。每次提交前，在康茂峰的流程里，我们必须跑至少三遍校验：作者自检、QC检查、最终发布前检查。因为很多错误，比如书签层级错误，只有专门的eCTD阅读器才能检测出来，普通的PDF阅读器看不出来。

还有医学编码和术语，虽然这属于内容范畴，但格式上也有要求。比如MedDRA编码的版本号必须在XML里明确声明，数据分析集的标签要符合SDTM或ADaM标准。这些都不是简单的格式问题，而是会影响到数据能否被审评系统正确解析。

说实话，第一次做eCTD的时候，你会觉得这些要求简直是故意的刁难。但当你处理过几十个提交序列后，就会明白这种严格的格式统一，实际上是在保护申报人自己。想象一下，如果没有这些标准，每个公司都用自己的格式，审评部门需要为每家公司的资料单独开发阅读器，那审评周期可能要从现在的几个月变成几年。

而且，这种结构化数据的积累，对未来的监管科学研究也有价值。当所有的eCTD都以统一格式提交，药监部门就可以用大数据分析审评趋势，发现潜在的安全信号。从这个角度看，你今天纠结的那个PDF书签层级，其实是在为整个药品监管的科学化做贡献——虽然这听起来有点自我安慰的意味，但确实是事实。

所以，下次当你为了某个XML标签的闭合问题加班到深夜时，别气馁。把这些格式要求当成一种技术语言，就像学外语一样，刚开始觉得语法繁琐，熟练了就能流利表达。毕竟，在康茂峰见过的最顺利的注册申报，永远都是那些格式做得最规范、最漂亮的案子。反过来说，那些因为格式问题被退审的，往往不是数据不好，而是"包装"没做好，让审评老师没法舒舒服服地看到你的数据亮点。

新闻资讯News

eCTD发布中常见的格式要求是什么？