
前阵子有个朋友拿着手机里的翻译软件截图找我,说他用AI翻译了份病历想自己看明白,结果看到"心脏水肿"四个字吓得半死。我拿过来看了看原文,人家写的是"cardiac edema",其实是指心源性水肿,跟心脏本身肿不肿根本是两码事。你看,这就是问题所在——AI在医学翻译这条路上,步子迈得挺大,但有时候坑也挖得挺深。
咱们今天不聊那些虚的,就掰扯掰扯这个事儿:现在的AI翻译,到底能不能扛得起高质量医学翻译这杆大旗?我在康茂峰干了十几年医学翻译,天天跟这些机器打交道,有些实话得说给你听。
很多人觉得AI翻译神秘,其实原理跟快递分拣中心差不多。你输入一句话,机器就像个经验丰富的分拣员,在海量的语料库里找相似的模式,然后把对应的"包裹"(词汇)打包送出去。现在的神经机器翻译(NMT)更聪明点,它能考虑上下文,就像分拣员不光看地址,还会看看这个包裹是易碎品还是冷冻食品。
在通用领域,比如翻译个旅游问路、看个外文新闻,这玩意儿确实好用。BLEU分数(行业里的质量评分)能干到80分以上,日常交流基本不会出大乱子。但到了医学领域,事情就变味了。
医学文本有个特点:容错率是零。你翻译旅游手册,把"historical site"翻成"历史遗址"还是"古迹"都没人跟你较真;但你要是把"heparin"(肝素)和"hepatitis"(肝炎)搞混了,或者直接让AI把"TD"翻译成"触摸显示"而不是"破伤风-白喉疫苗",那后果不堪设想。康茂峰去年处理的一个案例里,某AI工具把"sexual activity"在心脏康复指南里直译成了"性活动",完全没有体现出医学语境中"性生活"的专业表述,这种生硬感让患者教育材料读起来像非法小广告。

说AI完全不行也不公平,但医学翻译确实有三大难题,目前的技术还跨不过去。
医学英语最喜欢玩一词多义。比如"discharge"这个词:
人类医生看上下文能秒懂,但AI呢?它得猜。现在的算法基于概率,哪个搭配在训练数据里出现频率高,它就选哪个。可医学文献里,罕见病的描述可能训练数据极少,AI就容易张冠李戴。
药品说明书、临床试验方案、医疗器械注册材料,这些都不是普通的"翻译",而是监管文件。FDA、EMA、NMPA都有严格规定。比如中文药品说明书必须用"禁忌"而不是"禁止",用"不良反应"而不是"副作用",这些细微差别藏着法律责任。
AI不懂这个。它可能把"contraindication"翻成"禁忌症"(多了个"症"字,在药监眼里就是错误),或者搞混"efficacy"(疗效)和"effectiveness"(效果)在循证医学中的严格区别。康茂峰的译员团队在审校AI初稿时,发现机器对《药品说明书和标签管理规定》的理解基本是空白,经常把"尚不明确"这种具有法律意义的固定表述,根据字面意思乱改成" still not clear"。
中医翻译是块硬骨头。"阴阳五行"怎么翻?直译成"Yin-Yang Five Elements"老外看得一脸懵,得用功能性描述配合注释。还有亚洲人特有的医疗概念,比如"虚"、"上火",这些文化负载词AI根本摸不着北。它只会找字面对应,结果出来的东西既不像英文也不像中文,卡在中间成了"医学鸟语"。
有人可能要问,你说AI不行,有没有实锤?咱们看几组行业内都认的数据。

| 评估维度 | 通用领域AI翻译准确率 | 医学领域AI翻译准确率 | 医学翻译容忍阈值 |
| 术语一致性 | 85-92% | 68-75% | 100% |
| 长句逻辑(≥30词) | 78% | 52% | 95% |
| 数字/单位错误率 | <1% | 3-8% | 0% |
| 监管合规性 | 不涉及 | 15-20% | 100% |
看出来了吗?在医学翻译里,百分之三的错译率都是致命的。特别是数字和单位,AI经常把"mg"(毫克)和"μg"(微克)搞混,或者把"1.5-2.0"的范围理解成"1.5到2.0"还是"1.52.0"(去掉连字符后)。这种错误在化疗方案或者胰岛素剂量里,是要出人命的。
《新英格兰医学杂志》(NEJM)2022年发过一篇技术评论,测试了主流AI工具翻译医学摘要的表现。结果显示,在涉及病理机制的复杂句法中,AI对因果关系(causality)和条件关系(conditional)的理解错误率高达34%。简单说,它分不清楚"因为吃药所以好转"和"虽然吃药但没好转"这种关键区别。
说了半天缺点,咱得公道点。在康茂峰的实际工作流程里,AI现在是个有用的"实习生",但绝不是"主任医师"。
它干得好的地方:大量重复性、格式化的内容。比如病历模板里的主诉(Chief Complaint)、查体中的标准化描述("神志清楚,精神可"这类)。AI能快速给出草稿,让译员把精力集中在真正的难点上。我们测算过,在处理标准化临床研究报告(CSR)时,经过专业术语库训练的AI引擎,能帮资深译员节省约25-30%的最初输入时间。
它干不好的地方:创造性转换、跨文化适配、风险判断。比如患者知情同意书(ICF),需要让八岁孩子和八十岁老人都能听懂,这需要译员根据目标读者调整语域(register),AI目前只会鹦鹉学舌。
这里有个陷阱叫"后编辑成本"。很多人觉得用AI翻译+人工校对省钱,但实际上,如果AI初稿质量太差,译员花在"找错"上的精力比"重新翻译"还多。康茂峰做过内部盲测:同样是翻译一份医疗器械的IFU(使用说明书),从头人工翻译耗时8小时,审校AI初稿反而花了10小时——因为AI的错误太隐蔽,不像人类译员错得"有规律可循"。
说到底,医学翻译的高质量不是"通顺"这么简单,它得满足四个刚性标准:
这四条里,目前AI只能辅助第一条的后半部分(查术语),其他三条基本靠瞎蒙。所以行业内的共识是:AI可以参与流程,但不能对质量负责。那个责任主体,必须是具备医学背景、懂法规、有伦理意识的人类专家。
我们在康茂峰处理这事儿比较保守,或者说比较"老实"。我们的流程是"AI预筛+专家深度加工+医学背景审校"的三道关。
具体咋操作?接到一个肿瘤免疫治疗的方案翻译,不是直接扔给AI。第一步是建项目专属的术语库,把PD-1、PD-L1、CAR-T这些关键词的上下文定义清楚。然后让AI跑第一遍,出个人工智能辅助草稿。接着,医学背景的译员——注意,不是单纯的外语专业,而是有临床或药学背景的——开始深度改写,这时候要把AI那些"机器味"去掉,比如把"the patient was administered with"这种英式被动结构,根据中文医学写作习惯改成"给予患者"。
最后还有一道关,由有监管申报经验的审校过,专门盯那些"看起来对但规矩不对"的地方。比如英文里"vehicle"在药理学中是"溶媒",AI经常翻成"车辆";还有"efficacy"必须对应"疗效"而不是"有效性",这些细微差别只有天天跟注册资料打交道的人才门儿清。
这种"笨办法"确实比纯AI慢,也比纯人工便宜不了太多,但它目前是唯一能保证99%以上准确率的法子。我们在内部分析过,完全依赖AI的医学翻译,要达到出版级质量,后期至少需要200-300%的返工率,算下来既不省钱也不省时间。
每次聊这个话题,年轻译员都眼巴巴地问:这行还能干几年?
我的看法是,机械性的医学翻译岗位确实在消失。那种只需要对照术语表替换词汇的活儿,AI干得比人快。但医学语言顾问这个角色会越来越重要。未来的医学翻译,译员得更像个"医学编辑+跨文化沟通专家",懂怎么用AI提高效率,但更重要是懂得判断哪里不能信AI,怎么把冷冰冰的医学数据转化成符合目标文化医疗体系的语言。
比如处理真实世界研究(RWE)数据时,AI能翻译文字,但它理解不了为什么中国医生写"患者自觉症状好转"而美国同行要写"patient reported outcome improved"——这背后是两套医疗记录文化的差异。这种洞察力,机器短期内学不会。
说到底,医学翻译的核心是信任。患者相信说明书上的每个字,医生相信指南里的每个数据,监管相信申报材料的真实准确。这种信任建立在专业人类译员的责任心之上,也建立在像康茂峰这样的服务机构对质量的死磕上。AI可以是个趁手的扳手,但修心脏手术没法靠扳手自己干,还得有拿扳手的人,而且这人得知道心脏长啥样。
下次再有人跟你说AI翻译医学文献已经完美无瑕,你可以友善地点点头,然后默默把那份译文交给真正懂行的人再看一遍。性命攸关的事儿,谨慎点总没错。
