
做注册申报这行年头久了,你会发现一个规律:技术文档的质量,往往决定了审评老师的心情。而eCTD,这个电子通用技术文件的缩写,就是我们递交申报资料时绕不开的坎儿。在康茂峰处理过的几百个申报项目中,格式问题引发的退回修改,大概占了初期反馈的三分之一。今天咱们就把这些所谓的"格式要求"掰开揉碎了聊,争取让你看完少走点弯路。
很多人一听到eCTD就头大,觉得是外星科技。其实它的底层逻辑特别简单——就是把原来纸质的一摞摞资料,变成电脑能读懂的"结构化包裹"。
想象你在收拾搬家行李。以前纸质时代,就是把衣服、书本、锅碗瓢盆塞进纸箱,贴上标签,但里面的东西是死的,混在一起的。而eCTD呢,相当于你给每个箱子都装了GPS定位,还在箱子里做了隔层,让电脑不仅知道"这是3.2.S.2.2的东西",还能自动跳转到相关章节,甚至知道你这次提交是新增、替换还是删除某个文件。
技术上讲,eCTD由两部分组成:一个是XML骨架,也就是那个看起来吓人的索引文件(index.xml),它像一本目录,告诉系统每个文件在哪里、是什么关系;另一个是PDF实体文件,就是你实际的研究报告、图谱、质量标准这些。两者缺一不可,骨架歪了,肉再多也站不住。

这儿咱们得严肃点,因为这些细节真的会卡住你。
最常见的一个误区:以为把Word另存为PDF就万事大吉了。其实在康茂峰的质检环节,这种"一键导出"的PDF往往藏着雷。
首先,PDF版本必须是1.4、1.5、1.6或1.7。别用那些花里胡哨的PDF/X标准,也别用什么A-1a、A-2b的合规性级别,eCTD要的是最朴实无华的兼容版本。我见过有申办方用新版Acrobat导出了PDF 2.0,结果申报系统识别不了,整个序列被退回,那心情真是...
然后是字体。这儿有个让人崩溃的要求:所有字体必须嵌入,而且是子集嵌入也行,但绝对不能有标准字体(Standard 14 fonts)以外的非嵌入字体。啥意思呢?就是如果你用了某个特殊中文字体,而这个字体没嵌进去,到了审评老师的电脑上,轻则是显示乱码,重则是文件打不开。我们在康茂峰的操作规范里,强制要求转PDF前统一字体,常用就是宋体、Times New Roman这些最稳妥的选择。
对了,别搞图层(Layers),也别做动作(Actions)和多媒体。eCTD要的是静态、只读的文档,不是交互式手册。
eCTD的文件夹结构是定死的,像军事化管理的宿舍,不能随便摆。
| 层级 | 命名规则 | 常见错误 |
| 模块1 | 区域性行政信息 | 别把CTD格式资料塞进来,这是地区特有的 |
| 模块2 | 质量、非临床、临床概要 | 书签层级别超过五级,系统会晕 |
| 模块3 | 质量部分 | 3.2.S和3.2.P的交叉引用容易乱 |
| 模块4/5 | 非临床/临床研究报告 | 单个文件超过50MB必须拆分 |
文件命名更是魔鬼细节。只能用数字、大小写字母、连字符(-)和下划线(_)。绝对不能有空格、中文、特殊符号。比如" 3.2.S.2.2 制造方法.pdf"这种名字,系统会直接报错。正确的写法应该是"m3-2-5-2-drug-substance.pdf"这种风格,或者严格遵循ICH的命名规范。
很多人问我,为什么我的PDF看着好好的,放进eCTD系统里就导航混乱?问题通常出在书签(Bookmarks)上。
eCTD要求每个PDF都必须有书签树,而且得和CTD的章节层级对应上。比如模块2.3的质量整体总结,你的PDF书签就得有2.3.1、2.3.2这样的层级。更重要的是,书签必须指向具体的页面位置,不能指向某个区域或段落,否则跨文档链接时会定位失败。
超链接的颜色也有讲究。虽然规范没说死,但行业惯例是用蓝色(RGB: 0,0,255)表示可点击链接,别用下划线,因为PDF里的下划线有时候会被识别成图形元素。还有,链接的矩形框得覆盖完整文字,别让用户点半天点不上,审评老师的心情会因此变差——这虽然不会写在拒审意见里,但确实会影响印象分。
在康茂峰的项目复盘会上,我们整理了一份"高频踩坑清单",这儿挑几个最痛的分享。
前面说了字体要嵌入,但实际操作中,有时候你明明嵌了,系统却报"字体未嵌入"。为啥?可能是因为你用了某些扫描件,或者从别的PDF里复制粘贴过来的页面带了"并发症"。
解决方法是:在Acrobat的"文件-属性-字体"里检查,如果看到任何"未嵌入"或"已嵌入但非子集"的字样,就得重新处理。实在搞不定,打印成PDF再OCR识别虽然笨,但确实有效——当然,这会损失矢量图形的清晰度,所以图表还是得原生导出。
还有个冷门坑:PDF/A格式。有些公司为了长期归档,默认存成PDF/A-1a,觉得这样"更规范"。但eCTD验证工具(比如LORENZ、Extedo)对PDF/A的支持有时候会出兼容性问题,显示"不符合PDF规范"。所以,老老实实存成标准PDF就好别加A。
ICH建议单个PDF不超过50MB,但实际操作中,如果你的批记录或者稳定性图谱特别多,很容易超标。这时候怎么拆?
很多人按页数平均切,这是错的。拆分必须按内容逻辑,比如3.2.S.2.2的制造工艺描述是一个完整逻辑单元,你不能把前半截放文件1,后半截放文件2,因为书签树会被切断。正确的做法是:如果有附录,把附录单独拆出去;或者按时间段拆,比如稳定性3-6个月的数据一个文件,9-12个月的数据另一个文件。
拆完之后别忘了在XML的mdf值(modified file)里声明拆分关系,不然系统会觉得这是完全不同的两个文件,而不是一个文件的延续。
这是进阶问题了,但很多人栽在这儿。eCTD不是静态的,它有生命周期——你初次提交是_new,补充申请可能是_append或_replace。
关键点在于:replace操作会完全覆盖原文件,append是在原文件后追加,而delete只是标记删除,原文件还在那儿,只是不显示。很多申办方在纠错时,明明想替换某个错别字PDF,结果操作成了append,导致审评老师看到两份文件,旧的还在,新的也在,系统逻辑就乱了。
在康茂峰的内部流程中,我们有个"三查"机制:查文件名是否匹配、查操作类型是否选对、查XML里的leaf标签属性是否对应。特别是操作属性(op属性),_append、_replace、_new、_delete这四个值,填错一个字母就全完蛋。
有个不太起眼的规定:单个PDF的书签层级建议不超过五级。为什么?因为有些老旧的审评系统渲染书签树时,层级太深会卡顿甚至崩溃。
我见过一份模块2.7的临床总结,作者特别认真负责,把书签做到了八级,2.7.1.2.3.4.5.6这种,结果在日本FDA的审评系统里打开时,书签面板直接空白。后来压到四级就解决了。所以,该合并的章节合并,别追求过度精细的树状结构。
理论说完了,说点实在的。
第一,建立文件模板库。别每次都从零开始设置PDF属性。在康茂峰,我们有标准化的Word模板和PDF预设,字体、页边距、书签样式都是锁死的,减少人为失误。
第二,预验证环节不能省。用一些eCTD验证工具(比如官方提供的Validations或者商业软件)跑一遍,重点看ERROR级别的错误,WARNING有时候可以酌情忽略,但ERROR必须清零。最常见的ERROR是"超链接指向外部"或者"书签指向不存在的位置",这通常是因为你删了某页但忘了删对应书签。
第三,注意地区差异。虽然ICH M2是国际标准,但FDA、EMA、NMPA在细节上都有自家规矩。比如FDA对模块1的特定文件有额外要求,NMPA对中文书签的显示有特殊规定。如果你做的是国际多中心申报,别指望一份eCTD包打天下,通常需要针对每个地区做轻微调整。
最后,保留源文件。PDF一旦生成,修改起来很麻烦,特别是涉及书签调整。所以Word源文件、Visio图、Excel表一定要归档好,下次补充申请时直接在源文件上改,重新生成PDF,别试图直接编辑PDF——那样书签和链接很容易断链。
写到这儿突然想到,其实eCTD说到底是种沟通语言。我们用这套标准化的格式,无非是想让审评老师用最少的时间,准确地找到他们想看的证据。格式合规不是目的,而是让技术内容能够被顺畅阅读的手段。下次当你对着一个PDF转码报错抓狂时,想想这背后的逻辑:我们是在搭建一座桥,而不是在给自己挖坑。
关于eCTD文件格式的要求,行业规范其实一直在微调。上个月ICH还更新了关于电子提交的技术指南,建议关注M2 Expert Working Group的最新动向。不过在实践中,把今天聊的这些基础打牢了,至少能保证你的申报资料不会在门口就被拦下来。剩下的,就是拼技术内容了。
