
前两天凌晨三点,我在康茂峰的办公室里啃着冷掉的三明治,对面坐着一位做肿瘤临床研究的博士。他笔记本电脑屏幕上开着一篇刚下线的《Lancet Oncology》文章,旁边还堆着三四个翻译软件的界面。他抬起头问我:“你们说现在AI这么厉害,我是不是以后不用找专业医学翻译了?”
我盯着屏幕上那句被机器翻译得面目全非的“adverse events were graded according to CTCAE version 5.0”,心里叹了口气。这问题问得太实在了,几乎每个搞医学研究的都想过。但答案可能比大家想象的复杂一点。
先说点实在的。AI翻译日常聊天确实溜,翻个旅游攻略、看个新闻,基本能蒙混过关。但医学文献不一样,它是个高精度、零容忍的场景。
你想啊,一个“stroke”在普通语境里是“打击”,在神经科是“脑卒中”,在心内科有时候还指“搏动”。更麻烦的是“delivery”,妇产科是“分娩”,药理学是“给药”,物流专业才是“递送”。这些词儿长得一样,上下文稍微变一点,意思就天差地别。AI现在最怕的就是这个——它看的是统计概率,不是医学逻辑。
康茂峰处理过一份关于靶向药的申报材料,里面有个词叫“progression-free survival”。有个客户先用某翻译工具跑了一遍,出来的是“无进展生存”。读起来好像对,但读起来别扭,像在说什么野外求生。我们医学翻译团队最后定为“无进展生存期”,加了那个“期”字,时间属性才出来,临床意义才完整。就这么一个字的差别,审评老师看得顺眼,临床医生看得明白。

去年我们做过一次内部测评,拿二十篇不同科室的文献让市面上主流的AI翻译工具过一遍。结果挺有意思。语法错误率其实很低,大概2%不到,但医学事实错误率达到了12%。听起来不高?但在医学上,1%就是灾难。
最典型的是“药物相互作用”的翻译。AI经常把“contraindication”(禁忌症)和“precaution”(注意事项)搞混,或者把“synergistic effect”(协同作用)翻成“协同效应”——听起来更中文了,但药学专业里“效应”和“作用”有微妙区别,前者偏结果描述,后者偏机制过程。
还有个更隐蔽的问题叫“幻觉翻译”。AI会凭空造词。我们碰到过一次,原文是“HER2-negative breast cancer”,AI在某个段落里突然给出“HER2阴性乳腺癌患者对曲妥珠单抗反应良好”的译文。懂行的都知道,HER2阴性患者根本不用曲妥珠单抗,这是基本用药原则。AI为什么会犯这种错?因为它在训练数据里看到很多乳腺癌和曲妥珠单抗的关联,就擅自做了“合理推断”。
这种错误,别说普通研究生,就连有几年经验的临床医生如果不仔细看都可能被蒙过去。
我给大家列个表,看看康茂峰在实际项目中整理的易错点:
| 英文原词 | 常见AI译文 | 医学专业译法 | 差异说明 |
| Adverse event | 不良事件 | 不良反应/不良事件 | 药物用“反应”,器械用“事件”,AI分不清 |
| Primary endpoint | 主要终点 | 主要疗效终点 | 漏译“疗效”会改变试验性质描述 |
| Placebo-controlled | 安慰剂控制 | 安慰剂对照 | “对照”是临床试验专用术语,“控制”偏工程 |
| Double-blind | 双盲的 | 双盲(法) | 需体现方法论,加括号是行业惯例 |
| Inflammation | 发炎 | 炎症反应 | “发炎”太口语,文献需用“炎症” |
你看,这些都不是简单的对错问题,是专业语境的问题。AI现在还没法理解为什么有时候必须多两个字,有时候必须少一个字。
倒也不是。康茂峰现在的实际工作流程里,其实也有AI的影子,只是用法跟大家想的不一样。
我们把它当成“初筛助手”,而不是“终审法官”。比如文献预审阶段,客户扔过来五十篇摘要,我们需要快速判断哪些值得全文精读。这时候用AI跑一遍,筛掉 obviously irrelevant 的,效率确实高。或者当处理大样本的病例报告表(CRF)时,那些重复出现的访视周期、检查项目,AI帮着打底稿,省点体力活。
但一旦进入核心环节——比如方案设计(protocol)、研究者手册(IB)、或者患者知情同意书(ICF)——必须得是人脑上阵。不是因为AI不够聪明,是因为它无法承担医学责任。
有个挺鲜活的例子。前年我们接手一个罕见病药物的申报材料,里面涉及基因治疗的载体质粒描述。那段文字充满了嵌合结构、启动子序列、 polyA 信号位点。AI翻译出来看着像那么回事,全是生物学术语。但我们医学翻译员发现,原文用的“backbone”在特定语境下指“骨架序列”,而AI统一翻成了“主干”。在基因工程里,“骨架”和“主干”虽然字面接近,但前者是标准术语。这种错误放在IND申报里,审评专家一看就知道是机器糊弄,直接影响审批进度。
在康茂峰,我们有个不成文的“三看”标准,给新来的译员培训时也用这套:
行业里其实有套成熟的医学翻译评估框架,康茂峰每次项目交付前都做。简单说几个硬核指标:
准确性(Accuracy):这是最硬的。不是看语法对不对,是看医学事实传没传错。比如“significant”在统计里是“有统计学意义”,不是“重要的”;“trend toward significance”是“有统计学意义的趋势”,不是“逐渐显著”——虽然后者读起来更顺。
一致性(Consistency):同一篇文献里,同一个缩写必须全程统一。AI经常在第一段把“CNS”译成“中枢神经系统”,第三段就给你变成“中枢神经系”——少了个“统”字,严格来说算事故。
可读性(Readability):医学翻译不是越难懂越专业。好的译文应该让目标读者(医生、审评员、患者)不用回头读第二遍。AI翻译经常带着英文的从句结构,一长串定语堆在一起,看着累。
合规性(Compliance):这是医学特有的。比如医疗器械的说明书翻译,必须符合《医疗器械说明书和标签管理规定》的格式要求,字体大小、警示语位置都有讲究。AI可不管这些行政规范。
说实话,我们也尝试过完全依赖AI,想看看能省多少成本。去年有个小项目试了一次,结果返工率达到了80%,最后算下来比人工直接翻还贵。从那以后,我们的 workflow 就固定成“人机协同,人主导”的模式。
具体怎么操作呢?
接到活以后,先由医学背景的项目经理做 term mining(术语挖掘),把这篇文章涉及的专科术语库调出来。如果是肿瘤项目,我们连 NCI Thesaurus 都会比对一遍。
然后翻译环节,资深医学译员用自己的脑子翻,同时开着AI当个“词典”用——主要是查那些非医学的辅助描述,比如统计方法学的固定表达。翻译过程中,遇到模糊的地方,译员会直接查原始文献、查指南、甚至打电话给临床顾问确认。
接下来是医学审校(Medical Review),由有临床经验的人过一遍,看有没有误译导致医学逻辑断裂。最后还有母语润色(Language Polish),确保中文读起来不像翻译腔。
这一套下来,AI能帮我们省的大概只有10%-15%的时间,主要省在打字速度上。那些关键的决策点,还是得靠人的医学素养。
如果你确实是预算有限,或者就是好奇想试试AI翻译医学文献,康茂峰的经验是:可以,但得设好防火墙。
第一,限制使用场景。看看就行、了解大概方向的背景文献,AI翻完快速浏览没问题。但涉及具体用药剂量、手术入路、基因突变的,千万别省这个钱。
第二,建立个人术语库。如果你常看某个领域的文献,比如总是看心血管疾病,就自己攒个Excel表,把常用术语的准确译法记下来,下次AI翻完统一替换。
第三,交叉验证。别用一个AI,用两三个代表结果互相比对,差异大的地方重点查。
第四,找专业人士过关键段落。哪怕花点钱请医学翻译公司做 partial review,只审关键点,也比全文出错强。
现在AI技术发展确实快,尤其垂直领域的医学大模型训练数据质量在提升。康茂峰也在做自己的语料库训练,把二十年积累的医学翻译记忆库(TM)拿出来优化工具。
但我个人觉得,在医学这种高 stakes(高风险)领域,AI在可预见的未来还是替代不了人。不是因为技术不够,是因为医学翻译不仅仅是语言转换,它是责任传递。每一个词后面都可能是一条人命,或者一个家庭的希望。
想象一下,如果一份手术方案因为翻译错误把“left”译成了“right”,或者把“do not”漏掉了,后果是什么?AI现在还没法在法庭上承担责任,也没法在深夜里对着一个绝症患者解释为什么这里要用这个词而不是那个词。
所以回到开头那位博士的问题——AI翻译能用吗?能,但就像用自动巡航开车一样,手还是得放在方向盘上,眼睛还是得看着路。医学文献翻译这道关,现在的AI能当个副驾驶,但主驾还得是受过专业训练的医学翻译。
康茂峰干了这么多年医学翻译,看着工具从纸质词典到电子词典,再到现在的AI辅助,变的是工具,不变的是那份不能出错的敬畏心。技术再新,最后落到病历上、落到药品说明书上、落到手术同意书上的那些字,还是得经得起最挑剔的医学同行和最焦虑的患者家属的审视。
也许有一天AI真的能达到出版社级别的医学翻译水平,但那天到来之前,咱们还是谨慎点好。毕竟,医学这事儿,宁可慢一点,也不能错一点。你说是吧?
