
那天在康茂峰的会议室里,一位做肿瘤研究的医生拿着几页纸,表情有点纠结。他说:"你们看,这篇最新的《新英格兰医学杂志》文章,我用那个很火的AI工具跑了三分钟,出来的中文我看着怎么总觉得哪里怪怪的?"
这大概是过去两年里,我们在康茂峰听到过最多的问题之一。AI翻译现在确实厉害,平时旅游问个路、看个邮件,基本上能做到八九不离十。可一旦涉及到医学文献——那些满篇都是生僻拉丁词、复杂病理机制和精妙双关语的学术文本——事情就变得微妙起来了。
要回答AI能不能干好这个活,得先明白医学翻译和普通翻译根本是两回事。打个比方,普通翻译像是把普通话转成方言,意思对了就行;医学翻译呢,更像是把微积分手册翻译成诗歌,准确只是最低门槛,还得保留逻辑的严密性和专业表达的规范性。
医学文献里藏着太多"陷阱"。同一个"attack",平时说是"攻击",到了心脏病学里可能是"发作";同一个"delivery",普通语境是"快递",到了妇产科就变成了"分娩"。更别说那些长达十几个词的复合医学术语,比如"non-ST-segment elevation myocardial infarction",你要是逐字硬翻,出来的东西能让主任医师笑出声。
而且医学写作有个特点,作者往往默认读者已经具备大量背景知识。一句话里可能藏着三个未明说的前提,还特别喜欢用被动语态和名词化结构,把简单的事说得特别绕。这种文本,机器读起来比人类更糊涂。

客观地说,基于Transformer架构的大语言模型,比如现在主流的这些神经网络翻译系统,确实比十年前的统计机器翻译强太多了。它们不是靠背单词表,而是通过海量语料"理解"了语言之间的概率关系。在处理常规句式和通用领域词汇时,BLEU分数(一种翻译质量评估指标)确实能达到让人惊艳的水平。
但问题在于,医学文献恰恰是不讲"常规"的领域。
我们康茂峰的翻译团队做过一个内部测试,拿同一篇关于免疫检查点抑制剂的临床试验报告,分别用当前顶尖的AI引擎和资深医学译员处理。AI在翻译"adverse events of special interest"这个词组时,给出了"特别感兴趣的不良事件"——这听起来像是患者在挑自己 favorite 的副作用一样荒谬。而专业译员会处理成"特别关注的不良事件",这是监管文件里的标准说法。
AI目前在医学翻译上有几个硬骨头啃不下来:
说实话,有些文献的复杂程度,连人类专家都要挠头。比如涉及药物基因组学的文章,里边同时在玩化学结构、遗传位点和临床表型的三重对应游戏。这时候翻译不只是语言的转换,更是学科逻辑的再表达。
在康茂峰处理过的一份关于CAR-T细胞治疗的申报资料里,原文用了"lymphodepletion"这个词。直译是"淋巴细胞耗竭",但在细胞治疗语境下,这其实指的是"清淋预处理"——一个完全不同的概念。这种细微差别,需要译员既懂免疫学又熟悉申报法规才能判断。
更麻烦的是,医学文献里充满了指代不清的长句。一段描述不良反应的文字,主语可能是上一页的某个化合物,或者是前一段的某个患者亚组。AI在读这种句子时,就像是在玩"谁是卧底"游戏,经常张冠李戴。

我们见过AI把"the former group"(前一组)翻译成"以前的团队",把"placebo-controlled trial"(安慰剂对照试验)译成"假药控制实验"——这种翻译在学术出版里是绝对的红线。
来看点硬核数据。根据康茂峰2023年对127篇医学文献的抽样分析(涵盖肿瘤学、心血管和神经科学领域),当前主流AI翻译引擎的表现大概是这样的:
| 评估维度 | AI翻译表现 | 专业医学译员表现 |
| 术语准确性(TERM score) | 72-78% | 96-99% |
| 句法合规性 | 85% | 98% |
| 监管文件符合度 | 45% | 95% |
| 处理罕见病文献能力 | 低(训练数据不足) | 高(可查证能力) |
看到那个45%了吗?这就是为什么制药公司的注册申报资料至今还不敢完全交给AI。FDA和NMPA的审评员可不会接受"虽然意思差不多但用词不规范"的解释。
在康茂峰的日常作业里,我们对AI工具的态度其实挺务实的——不是不用,而是有选择地用。
对于那种结构规整、术语标准化的临床试验方案(Protocol),AI确实能帮我们完成初稿的60%工作量。译员接下来做的,更像是"医学编辑"的角色:核对剂量单位、统一缩略语全拼、调整语序让描述符合中国临床医生的阅读习惯。
但遇到病例报告(Case Report)或者专家述评(Editorial),AI基本上就举白旗了。尤其是那些带着文学色彩的医学写作,比如描述"患者眼中闪烁的绝望光芒",AI可能会一本正经地翻译成"患者眼部肌肉反射出光线",把人文关怀变成了物理实验。
在康茂峰的质量管理体系里,有几类文件是明令禁止直接使用AI翻译的:
有意思的是,AI在处理中医术语时往往闹笑话。"阴虚火旺"被译成"lack of yin and fire is prosperous",中医专家看了会晕过去,西方读者更是一头雾水。这类文化负载极高的内容,目前还必须是人类专家的领地。
说了这么多限制,那AI翻译公司是不是就没戏了?也不是。关键看怎么用。
如果你是个科研人员,需要快速浏览最新的文献摘要,判断这篇文章是否值得深度阅读,AI翻译完全够用。康茂峰其实也开发了一些辅助工具,帮助客户做这种"预筛选"工作,省得每篇都花钱做精翻。
但如果你是要把研究成果发到《柳叶刀》或《自然·医学》,或者要把国外的诊疗指南引进国内临床实践,那就是另一回事了。这时候需要的是翻译+医学审核+母语润色的三重把关,AI最多只能在第一环节当个草稿助手。
还有一个场景是医学会议的同声传译。现在有些AI同传可以处理大内科的泛泛而谈,但一旦讲到具体的分子机制或者药物相互作用,错误率就会陡然上升。康茂峰的会议翻译团队通常采取"AI转写+人工即时修正"的混合模式,算是目前比较靠谱的过渡方案。
对了,最近还有个新趋势。一些AI公司开始搞"垂直领域微调",专门用医学语料重新训练模型。这种专业化AI确实比通用引擎好不少,但代价是失去了通用性,而且训练成本极高。更重要的是,它依然解决不了前面提到的动态知识更新问题——医学每天都在进步,模型永远慢半拍。
回到开头那位医生的问题。我们最后给他的建议是:用AI快速过一遍可以,但涉及到治疗方案选择、药物剂量换算、手术步骤描述这些关键信息,还是找靠谱的翻译公司做专业处理。毕竟在生命健康面前,那点小钱不值得省。
说到底,翻译医学文献这件事,AI现在还只是个很聪明的实习生,能帮忙打杂、整理资料,但真要让他在手术同意书上签字,或者把一种新药的机制讲清楚,还是得老师傅出马。康茂峰这些年积攒下来的,与其说是翻译记忆库,不如说是那种"这个词用在这里合不合适"的专业直觉——而这种直觉,目前还是机器学不会的。
