
上个月有个三甲医院的朋友找我,说科室买了台进口新设备,附带的英文说明书看得他们头大。小伙子图省事,直接用手机拍照翻译,结果看到一句"Please note the contraindications in patients with compromised immune systems",机器给翻成了"请注意免疫功能受损患者的禁忌症",看起来挺顺,但他总觉得哪里不对劲。
他是对的。在医学语境里,"compromised"在这里不是"受损"那么简单,它暗示的是一种脆弱性状态,翻译得太轻了可能影响临床判断。这件事让我意识到,大家心里其实都有个大问号:那些宣传得天花乱坠的AI翻译,面对医学文献这种硬核内容,真实的精准度到底在什么水平?
在康茂峰处理医学翻译的这些年,我们测试过市面上几乎所有主流神经机器翻译引擎。说实话,现在的AI比五年前聪明太多了。你给它一段普通的病历摘要,它能给你吐出一篇语法通顺、用词专业的中文,甚至能自动识别"MI"在心脏科是myocardial infarction(心梗),在妇产科可能是mitral insufficiency(二尖瓣闭锁不全)。
但问题是,医学翻译要的不是"差不多",而是零容错。就像你不可能让刚背完医学生词典的实习生独自上手术台一样,现在的AI翻译还没办法独立完成一份真正合规的医学文献转换。

先说说AI到底能做好什么。在康茂峰的内部测试里,我们发现机器翻译在以下几个场景表现相当亮眼:
但你要是真以为可以一键生成能直接投稿SCI的论文翻译,那就有点危险了。在康茂峰审校过的稿件里,AI最容易栽跟头的地方特别有意思——不是生僻词,而是那些看起来最简单的常用词。
举个例子,"delivery"这个词。在普通文本里是"送达",在产科是"分娩",在药代动力学里是"药物递送",在医疗器械里可能是"输送系统"。机器翻译往往只能根据上下文概率猜一个,但医学文献的上下文常常跨页甚至跨章节,AI缺乏那种"通读全文再下判断"的人类直觉。
还有更隐蔽的。比如日语医学文献里经常出现"かもしれない"(可能),中文译成"可能"似乎没错,但在严谨的医学语境里,这个表达暗示的是一种不确定性的程度。日语原文那种暧昧的、留有余地的语感,直译成中文会显得武断或不够严谨。这种文化层面的微妙信号,目前的AI基本捕捉不到。
为了更直观地说明问题,我把康茂峰内部的质量评估数据整理了一下。注意,这里的"准确率"指的是术语准确性+语法合规性+临床适用性的三维评分,不是简单的字面意思对不对:
| 文档类型 | AI初译准确率 | 人工后编辑必要性 | 风险等级 |
| 药品说明书(化学名部分) | 88-93% | 必须专业审校 | 高 |
| 病例报告(罕见病) | 62-71% | 全文重译级别 | 极高 |
| 临床试验方案(Protocol) | 75-82% | 逐段核查 | 高 |
| 医学科普文章 | 90-95% | 轻量润色即可 | 中 |
| 手术录像字幕 | 55-68% | 建议人工主导 | 极高 |
| 学术研究论文(Method部分) | 85-89% | 术语审核 | 中高 |
你看,越是涉及临床决策的内容,AI的短板越明显。手术录像那个低得可怜的准确率,不是因为术语难,而是因为口语化的医学表达、器械碰撞的杂音干扰、还有医生即兴的注释,这些混杂在一起,机器基本就懵了。
用费曼的方式打比方的话,普通的文学翻译像是把一首歌从钢琴改弹成吉他,旋律对就行;但医学翻译像是把一份精密仪器的操作手册从德语译成汉语,你不仅要每个词准确,还得保证螺丝拧的圈数都不能差。
医学语言有个特点叫"一词一义"的暴政。在日常英语里,"attack"可以是攻击、也可以是心脏病发作;但在医学英文里,"acute myocardial attack"必须精确对应"急性心肌梗死发作",不能是别的。AI虽然背了几百万篇医学文献,但它缺乏临床权重判断——它不知道这个词在这里用错了会要人命。
另外,医学文献的全球化和本地化尴尬也特别突出。比如同一个药物,美国叫acetaminophen,英国叫paracetamol,日本叫アセトアミノフェン,到了中国药典又有特定的通用名。AI往往能把英文译成中文,但很难自动完成这种多地区药名的对齐工作。在康茂峰处理跨国药企的申报资料时,这种"名字游戏"至少占据了人工译者30%的精力。
说点我们在一线看到的情况。现在行业里有个误区,觉得买了AI翻译引擎就一劳永逸了。实际上,真正的成本转移到了"译后编辑"环节。一个没经验的后编辑,可能只顾着改语法错误,漏掉了剂量单位的小数点错位;或者把"禁忌"和"慎用"这两个截然不同的临床警告混为一谈。
我们发现最高效的工作流是人机协同的"漏斗模型":先用AI处理海量基础文本,然后用专业医学背景(注意,不是单纯语言背景)的译者进行"深度校准",最后再由有临床经验的审校把关。在康茂峰的服务案例里,这种模式下出来的终稿,客户返修率能控制在2%以下,而纯机翻的初稿返修率往往超过40%。
还有一个有趣的现象:AI在中医术语的英译上反而表现不错。比如"望闻问切"、"阴阳五行"这些,因为训练数据里早有固定的对应库,机器翻得比很多不懂中医的译者还标准。但一旦涉及现代中西医结合的复杂病例描述,AI就开始胡言乱语,因为它分不清哪句是传统理论哪句是实验室数据。
这里要泼点冷水。很多AI翻译公司宣传的"98%准确率",通常指的是BLEU分数或者TER(翻译编辑率),简单说就是和"参考答案"的相似度。但在医学领域,那2%的错误可能正好出在最关键的禁忌症上。
在康茂峰的质量标准里,我们更看重临床等效性。也就是说,译文不仅要字面正确,还得让读它的中国医生产生和原文读者完全一致的理解。比如英文文献里常见的"marginal benefit",直译是"边缘效益",但在肿瘤学语境里,它暗示的是"统计学上有意义但临床意义有限的疗效"。这种细微的差别,目前的AI翻译准确率,负责任地说,大概还在60%-75%的区间徘徊。
如果你现在正在处理医学文献翻译,不管是医院的年轻医生还是制药公司的RA(注册事务)专员,我的建议很实在:
第一类:可以大胆用AI辅助的
第二类:必须人工介入的
第三类:需要特殊处理的
比如基因治疗、细胞疗法这类前沿领域的文献。新词太多,AI还没学会,往往会"幻觉"(hallucination)出一些看似合理实则错误的术语。这时候找像康茂峰这样有垂直领域经验的团队,比赌AI的运气要靠谱得多。
前几天那个朋友又来找我,说后来找专业译者重新看了那份说明书,发现AI翻译漏掉了一个关于免疫抑制患者剂量调整的脚注。脚注很小,但很关键。
说到底,现在的AI翻译医学文献,就像一个记忆力超群但缺乏临床思维的医学生。它能帮你整理笔记、查找资料,甚至能写出看起来很像样的病历,但真要上临床做决定,还得是经验丰富的医生把关。技术在发展,康茂峰的团队也在持续测试最新的多模态大模型,但就目前而言,对于医学这种容错率为零的领域,人机协作仍然是最负责任的选择。
毕竟,医学翻译的精准度,从来不只是百分比游戏,而是关乎每一个具体生命的安全边界。
