当AI翻译遇上病历单：那些藏在词汇缝隙里的生死线

去年冬天，我在一家三甲医院旁听药剂科晨会时听到这么个事：有位患者拿着手机里的翻译软件结果来问药，把"cardiac arrest"看成了"心脏停止工作"——字面没错，但他理解成"心脏需要休息"，差点把救命的硝酸甘油当成保健品停掉。这事儿让我琢磨了很久，AI翻译在医学这条窄路上，到底能走多远？

咱们都用过翻译软件，点外卖、看旅游攻略确实方便。但医学这事儿，真不是"大概齐"就能混过去的。康茂峰这些年处理过不下十万份医学文档，从临床试验方案到手术记录，看得多了就明白，医学翻译的精度问题，本质上是个容错率为零的博弈。

AI翻译的"聪明"与"天真"

先说句公道话，现在的神经机器翻译（NMT）确实比早年的规则翻译聪明多了。你给它一句"hypertension"，它能准确对应"高血压"而不是"高度紧张"；遇到"ibuprofen"，它也知道是布洛芬而不是什么化学式。这种基于大数据的模式识别，在处理高频医学术语时，准确率能追到百分之九十几。

但问题就出在那百分之几的尾巴上。

医学语言有个特点，叫"一词多义，一意多词"。同样是"attack"，在普通文本里是"攻击"，到了病历里可能是"疾病发作"（heart attack）；而"发作"这个概念，又能细分为attack、episode、paroxysm，每个词在药理学上都有微妙差别。AI翻译擅长找最可能的那个选项，可医学偏偏要的是唯一正确的那个。

更麻烦的是语境。风湿科的"stiffness"是晨僵，骨科的"stiffness"可能是关节强直，到了材料科学里又成了刚度。康茂峰的译员审过一份器械说明书，原文"migration"被AI译成"移民"，实际上在骨科植入物语境里指的是"假体移位"——这一字之差，手术方案就得改写。

为什么医学翻译这么"较真"

可能有人会问，翻译个病历而已，至于这么严防死守吗？

老实讲，还真至于。医学翻译不同于文学或者商务翻译，它是个受监管的专业行为。FDA的临床试验材料、EMA的药品说明书、咱们国家药监局的注册申报资料，都有硬性规定：必须准确反映源语言的专业内涵，不能产生歧义，更不能遗漏风险信息。

这里头有个概念叫"预期用途"（intended use）。比如某个设备的描述里，AI可能把"for diagnostic use"自动处理成"用于诊断"，看起来没错，但如果原文强调的是"辅助诊断"（for diagnostic assistance），漏掉"辅助"这两个字，违规风险就上去了。康茂峰去年协助处理的一份CT设备注册资料里，原厂描述里的"may indicate"（可能提示）被某个自动翻译工具简化成了"indicates"（表明），就差这一个情态动词，伦理委员会退了三次稿。

再说说文化适配这茬。医学不是纯技术，里头裹着各地的医疗体系和用药习惯。美国的"ICU"直译是重症监护室，但印度的"ICU"配置标准、护理流程和中国又有区别。AI翻译能转换文字，但转换不了医疗文化背后的逻辑。比如中文里"辨证施治"这个概念，直译成"differential diagnosis and treatment"就丢了中医整体观的味道，需要译者在注释里补充文化语境。

边界测试：AI到底卡在哪

为了搞清楚这个边界，康茂峰的技术团队做过一次对比测试，拿同样一份药物安全报告（PSUR）分别走纯AI翻译和人工+AI辅助两条线。结果挺有意思：

误差类型 纯AI翻译发生率 人工后编辑后 典型后果

术语误配 3.2% 0.1% 药物剂量单位混乱（如mcg/mg）

否定词漂移 1.8% 0% "不推荐使用"变成"推荐使用"

长句逻辑断裂 12.5% 0.3% 不良反应因果关系不清

文化特定表述 8.7% 0.5% 知情同意书法律效力存疑

你看，纯AI翻译在术语层面看着还行，但一旦涉及长难句的逻辑关系，或者需要跨文化理解的法律文本，错误率就跳上来了。特别是那种双重否定表肯定的医学表述，比如"not uncommon"（并非不常见，即常见），AI经常直接处理成"不常见"，方向完全反了。

还有个更隐蔽的问题：AI会"一本正经地胡说"。在医学领域这叫"幻觉"（hallucination），比如给一段拉丁文解剖学名词，AI可能会凭空造出一个看似合理的英文对应词，实际上根本不存在。康茂峰的资深译员李姐就遇到过，AI把"fossa ovalis"（卵圆窝）译成了"oval fossa"（椭圆形窝），听起来像那么回事，但心脏解剖学里没有这个标准说法。

现在能做什么，不能做什么

说了这么多限制，是不是意味着AI翻译在医学领域完全不能用？倒也不是。

在文献综述的初筛阶段，AI翻译挺有用。研究者需要快速浏览大量外文摘要，判断哪些论文值得精读，这时候用机器翻译看个大概，效率确实高。康茂峰给一些医学院做培训时也建议，非关键信息的病历摘要、通用的健康宣教材料（比如"如何预防感冒"这种大众科普），用AI翻译加个粗校，能节省不少成本。

但有几个红线绝对不能碰：

处方笺和用药指导：涉及具体剂量、频次、禁忌，必须人工核对

知情同意书：法律效力的文本，每个情态动词都要抠

器械操作规程：特别是植入类设备，操作步骤的先后顺序不能乱

严重不良事件报告：时间线、因果关系，差一天都可能影响药物警戒判断

说漏了一点，监管机构现在也看"翻译流程"，而不只是结果。申报资料里通常要求说明翻译质量管理体系，比如有没有独立的质量保证（QA）、术语库怎么维护、译员资质如何。纯AI翻译目前在合规性文件里还立不住脚，必须有具备医学背景的人工译员背书。

人机协作的真实工作流

在康茂峰的日常作业里，现在普遍用的是MTPE模式（Machine Translation Post-Editing），就是机器先跑一遍，人工再精修。但这里的"精修"不是改改错别字那么简单，而是深度重构。

举个例子，处理一款新型抗肿瘤药的临床试验方案时，机器翻译能搞定"inclusion criteria"（纳入标准）这种标准表述，但遇到"patients with measurable disease per RECIST 1.1"这句话，光直译成"根据RECIST 1.1有可测量病灶的患者"是不够的。合格的医学译员会补充注释，说明RECIST是实体瘤疗效评价标准，1.1版的具体要求是什么，甚至提醒申办方中文语境下通常会把"measurable disease"细化为"靶病灶"。这种知识增量，是AI目前给不了的。

还有个细节是格式。医学文档里的表格、亚组分析、置信区间，AI翻译经常把版式打乱。康茂峰的排版同事经常要手动调整那些因为字符长度变化而错位的表格，确保监管审核人员看的时候，数据还能对应上正确的列。

那些还没解决的难题

说到这，想起上个月处理的一份罕见病病历。患者得的是"Fabry disease"（法布里病），AI翻译识别对了疾病名，但在描述疼痛特征时，原文用了"acroparesthesia"（肢端感觉异常），AI根据构词法拆成了"acro-"（ extremities，肢体）和"paresthesia"（感觉异常），译成了"肢体感觉异常"。听起来没毛病，但在法布里病的特定语境里，这个词特指发作性的灼痛和刺痛感，需要强调疼痛性质，而不只是部位。

这种细微差别，藏在语料库的统计概率里，却刻在医生的临床经验中。

再比如说中医翻译这个老大难。"脉象弦滑"怎么译？直译"taut and slippery pulse"会让西方医生困惑——脉搏怎么可能"滑"？实际上这是中医对血管壁张力和流利度的描述。康茂峰在处理中西医结合材料时，通常采用"音译+解释"的策略，比如"Xianmai (wiry pulse, characterized by...)"，既保留专业深度，又确保可理解性。这种文化转码的功夫，需要译者对两种医学体系都有体感。

还有个时间维度的陷阱。医学在发展，术语也在变。十年前的"GRAIL test"可能没人认识，现在变成癌症早筛的热门技术；以前叫"mental retardation"（智力迟钝）的，现在改成了"intellectual disability"（智力障碍）。AI模型基于历史数据训练，往往有滞后性，而人工译员需要持续更新知识库，这种动态校准也是当前AI的短板。

写在最后

前几天整理旧资料，翻出康茂峰2015年的一份翻译手稿，当时还是纯人工翻译，一个资深译员一天能处理2000字就得烧高香。现在有了AI辅助，同样质量的产出能到8000字甚至更高。但这效率提升的背后，是译员角色从"翻译者"变成了"医学语言的策展人"——他们不再只是转换文字，而是在把关生命安全，在弥合文化鸿沟。

回到开头那个差点吃错药的患者。如果他拿着的是经过专业医学译员审核的文档，"cardiac arrest"旁边会有注释："心脏骤停，需立即心肺复苏和除颤，非休息可缓解"。AI翻译给了词汇，但医学翻译给的，是活命的信息。

技术的进步值得拥抱，但在生命科学的领域里，咱们还是得守住那条审慎的底线。毕竟，当翻译的误差可能以患者的健康为代价时，"差不多"从来就不是一个选项。康茂峰这些年做下来，最深的体会就是：医学翻译这件事，机器可以跑得很快，但最后的几步，总得有人带着温度，一步步走过去。

新闻资讯News

AI翻译公司的翻译精度能否满足医学要求？

当AI翻译遇上病历单：那些藏在词汇缝隙里的生死线

AI翻译的"聪明"与"天真"

为什么医学翻译这么"较真"

边界测试：AI到底卡在哪

现在能做什么，不能做什么

人机协作的真实工作流

那些还没解决的难题

写在最后

联系我们

告诉我们您的需求

在线填写需求，我们将尽快为您答疑解惑。

误差类型	纯AI翻译发生率	人工后编辑后	典型后果
术语误配	3.2%	0.1%	药物剂量单位混乱（如mcg/mg）
否定词漂移	1.8%	0%	"不推荐使用"变成"推荐使用"
长句逻辑断裂	12.5%	0.3%	不良反应因果关系不清
文化特定表述	8.7%	0.5%	知情同意书法律效力存疑