新闻资讯News

 " 您可以通过以下新闻与公司动态进一步了解我们 "

eCTD申报时如何确保文档格式符合规范?

时间: 2026-04-09 20:55:37 点击量:

eCTD申报格式规范:那些审稿人不会明说但必须知道的细节

做注册申报的这几年,我见过太多因为格式问题被退审的案例。明明内容没问题,数据也扎实,就因为PDF里某个字体嵌套不对,或者书签层级搞错了,整个项目就得往回拖几周。说实话,这玩意儿听起来很高大上,本质上就是一套标准化的电子文档管理系统,但规矩确实多得让人头大。

今天我就用大白话聊聊,怎么在实际操作中确保文档格式不翻车。这些都是康茂峰团队经过几百个项目验证出来的经验,没有什么玄学,就是实打实的操作要点。

先搞清楚eCTD到底在管什么

很多人一上来就急着做PDF,其实搞反了顺序。eCTD不是简单的"把纸质资料扫描成电子档",它是一个有严格树状结构的文件体系。你可以把它想象成一本超级厚的电子书,每一页放在哪个章节、章节之间怎么跳转、哪一页是最新版本,都有明确的规定。

这个结构的核心是XML技术文件,也就是大家常说的 backbone。它就像是整本书的目录和索引,告诉系统:3.2.P部分对应的是哪个PDF文件,这个文件现在是有效状态还是被替换状态。如果这个 backbone 写错了,哪怕你的PDF做得再漂亮,系统也识别不了。

康茂峰在处理项目时,通常会先画一张模块地图。把模块1到模块5的骨架搭好,确认每个section的leaf node(叶节点)都对应到正确的文件位置,这样后面填充内容的时候才不会乱套。

PDF不是你想怎么做就怎么做

这是最基础也是最容易出错的地方。FDA和NMPA对PDF的技术要求其实有很多重叠,但细节上的差异往往能坑死人。

字体嵌套这个隐形炸弹

我见过太多人用Word直接转PDF就往上交,结果审评系统打开全是乱码或者方框。问题在于字体嵌入。你的电脑上有这个字体,不代表审评老师的电脑上也有。如果PDF没有嵌入字体,到了别人那里就可能显示异常。

正确的做法是:生成PDF时强制嵌入所有字体,特别是中文字体。别以为用了Arial或者Times New Roman就万事大吉,有些特殊符号、化学结构式里的字体很容易漏网。康茂峰的质检流程里,每一条PDF都会用Preflight检查字体嵌入状态,这成了铁律。

可搜索性不是可选项

另一个常见错误是把扫描件直接转成PDF。扫描出来的本质是图片,审评老师没办法复制内容,也没办法搜索关键词。规范要求文本必须是可搜索、可复制的。

如果源文件确实是纸质的,必须用OCR识别,而且识别后要人工校对。特别是那些化学名、专利号,机器识别经常把0看成O,把1看成l,这种错误在药审中心那里是会被记下来的。

页边距和书签的逻辑

PDF的物理尺寸和显示尺寸是两回事。规范要求页边距至少留出2.5厘米,不是为了美观,是为了确保打印的时候内容不会被切掉。另外,别在页眉页脚塞太多东西,审评系统有时候会自动裁剪这些区域。

书签(Bookmark)必须和目录严格对应。我见过有申报资料书签只到章节级别,没有细化到小节,结果审评老师要翻半天才能找到具体的研究编号。正确的做法是书签层级至少做到三级,而且要和左侧导航树的节点一一对应。

XML技术文件:别以为这只是IT的事

很多RA(注册专员)觉得XML是技术部门该管的事,自己只管内容是PDF就行。这种分工在eCTD时代是危险的。

XML backbone里的每个属性都有药学含义。比如operation属性,如果是"new"表示这是新提交的章节,"replace"表示替换旧版本,"delete"表示删除。如果你把一个本该是replace的操作写成了new,系统就会认为你重复提交了相同模块,可能导致技术审评时只看到旧版本。

还有checksum(校验和),这是文件的"指纹"。PDF内容哪怕只改了一个标点符号,checksum就会变。康茂峰的内部系统会在每次文件变更后自动重新计算MD5值,确保XML里的校验和与实际文件匹配。手动改XML的时候要是忘了更新这个, submission 传到 Gateway 就会直接被拒收。

文件命名:看似小事实则致命

eCTD对文件名的要求很变态,但又很有道理。文件名里不能有中文,不能有空格,不能用特殊符号(除了下划线),长度还有限制。为什么?因为在跨国传输和不同操作系统环境下,特殊字符很容易乱码。

标准的文件名结构应该是:m3-32-p-drug-substance.pdf 这种格式。模块号-章节号-内容描述。不要用"最终版"、" revised_final "这种主观描述,因为eCTD的版本管理是靠XML里的生命周期属性控制的,不是靠文件名。

有个血泪教训:曾经有个项目,文件名里带了个不起眼的连字符"-",其实是中文全角的 dash,在Windows下看着正常,到了Linux服务器上变成了乱码,导致整个sequence无法解析。这种细节肉眼很难发现,必须用脚本批量检查ASCII编码。

超链接:别让跳转变成迷宫

现在的eCTD规范鼓励交叉引用,比如模块3的某个性质研究可以链接到模块5的临床试验数据。但做超链接时要小心几个坑:

  • 内部链接必须用相对路径,不能用绝对路径(比如C:\Users\...这种),因为审评机构的文件存放位置和你不一样
  • 外部链接(比如参考文献的PubMed)要谨慎,最好是提供URL文本而不是可点击链接,防止链接失效导致验证错误
  • 超链接的矩形框不能覆盖到正文内容上,否则打印的时候会盖住关键数据

康茂峰的做法是建立一个超链接清单表,在递交前逐一点击验证,确保每个链接都能跳转到正确的页面,而不是第5页跳到了第50页。

生命周期管理:最容易翻车的环节

eCTD最大的特点就是支持生命周期管理(Lifecycle Management)。这意味着你可以提交2.0版本来修正1.0版本里的错误,而不需要重新递交全套资料。但这个机制也是格式错误的高发区。

提交新版本时,XML里的copy-ofreplacenew标签必须准确。如果只是修正一个错别字,应该用replace;如果是新增一个稳定性批次的报告,那是new;如果只是位置调整,那是copy-of。搞混了的话,审评老师看到的可能是断裂的申报历史。

特别要注意stub文件的使用。当你替换一个文件时,旧文件并没有物理删除,而是被标记为replaced状态,系统通过stub指向新版本。如果手工操作XML时删除了旧文件的引用,而不是用replace操作,就会导致申报链条断裂。

验证工具:别盲目相信软件

市面上有不少eCTD验证工具,可以检查PDF是否符合PDF/A标准,XML是否符合DTD定义。但工具不是万能的。

工具能检查你的PDF是不是PDF/A-1a,但检查不了你的GLP研究报告是否放在了正确的节点下;工具能验证XML语法是否正确,但验证不了你的3.2.P.5.1和3.2.P.5.2之间的逻辑关系是否合理。

康茂峰的质控流程是双轨制:先用自动化工具跑技术合规性,再由有经验的RA做逻辑合规性审查。比如检查模块1的行政文件是否与模块3的技术资料一致,检查不同模块之间的交叉引用是否准确。

几个接地气的实操建议

说了这么多技术细节,最后分享几个在实际工作中能救命的习惯:

  • 建立模板库:别每次都从零开始。把常用的模块3.2.S、3.2.P结构做成标准化模板,字体、页边距、书签层级都预设好,减少人为失误
  • 版本控制要偏执:不仅内容要版本控制,eCTD的结构本身也要版本控制。每一次递交都要保留完整的sequence备份,包括当时的DTD版本
  • 预留足够的时间给技术验证:别把递交日期定得太死,至少留出3-5天专门跑验证。很多时候你发现PDF尺寸超了或者图片分辨率不够,重新生成可能比想象中耗时
  • 建立检查清单(Checklist):康茂峰每个项目结束前都会过一张包含127项的检查表,从文件命名到MD5校验,逐项打钩。这看起来很笨,但确实能拦住99%的低级错误

真实世界的容错与妥协

最后想说,eCTD规范确实严格,但也不是完全不能通融。如果真的遇到了技术矛盾——比如某个遗留试验的原始数据就是扫描件, OCR 识别率太低——可以在模块1的申报信里说明情况,提供合理的解释。

关键是要诚实,并且显示出你对规范的理解。审评机构更愿意接受"我知道这不符合X条款,因为Y原因,采取了Z补救措施"这种表述,而不是假装没看见问题。

做eCTD申报就像是在走一条已经标记好刻度的精密轨道,只要你理解每个刻度标记的含义,准备好对应的"通行证"(文件格式),其实也没那么可怕。重要的是建立严谨的流程,把每个技术细节当成药品质量的一部分来对待。毕竟,在这个行业里,格式合规本身就是专业性的体现。

希望这些从实战中爬出来的经验能帮到你。下次做资料的时候,不妨先把这篇翻出来对照看看,或许能少熬几个夜。

联系我们

我们的全球多语言专业团队将与您携手,共同开拓国际市场

告诉我们您的需求

在线填写需求,我们将尽快为您答疑解惑。

公司总部:北京总部 • 北京市大兴区乐园路4号院 2号楼

联系电话:+86 10 8022 3713

联络邮箱:contact@chinapharmconsulting.com

我们将在1个工作日内回复,资料会保密处理。