
当AI把"心肌缺血"译成"心脏肌肉缺乏血液"时,我们在焦虑什么
去年冬天,康茂峰的技术团队接到一个紧急求助。某三甲医院要把一份心脏搭桥手术的中文病历译成英文,用于赴海外就医。AI翻译系统初稿出来后,住院医生盯着屏幕愣了半天——导丝被译成了guide wire(这还算过得去),但支架内再狭窄变成了the support inside becomes narrow again。医生苦笑:"这要是让国外专家看到,估计以为我们在讨论木工活。"
这就是行业专用词汇的陷阱。它们像潜伏在语言深海里的暗礁,平时看不见,一遇风浪就让你触礁。对AI翻译公司来说,提升术语准确度不是锦上添花,而是生死线。今天咱们就聊聊,像康茂峰这样的AI翻译公司,到底在用什么笨办法和巧办法,把这些顽固的行业词汇给"驯服"了。
先搞明白:为什么AI总在专业术语上栽跟头
要解决问题,得先知道病根在哪。很多人以为AI不懂专业词汇是因为"读书少",其实不完全对。现在的神经网络翻译模型,比如Transformer架构,理论上是读过海量文本的,从维基百科到学术论文,数据量以TB计。问题出在语境的微妙性和术语的单义性上。
举个日常例子。"Draft"这个词,在咖啡馆里是"ドラフトビール"(生啤),在船舶工程里是"吃水深度",在银行票据里是"汇票"。AI模型看到这个词时,就像一个同时收到几张不同菜单的食客,容易点错菜。更麻烦的是,有些术语在通用语料里几乎不存在,比如生物医药领域的CRISPR-Cas9,或者法律文本中的Force Majeure(不可抗力,虽然这个词常见,但法律语境下的精确界定远非字面意思)。
康茂峰的技术日志里记录过这样一个案例:在一份德语机械图纸中,Festkörper被译成了"固体",但实际上在夹具设计语境中,它指的是"实体模型"或"毛坯件"。这种错误,靠扩大通用语料已经解决不了,需要的是领域精准打击。

第一招:给AI喂"偏食",建领域专属语料库
想象你要训练一个品酒师。如果让他喝遍全世界的自来水,他永远分不清波尔多和勃艮第的区别。必须让他大量接触特定产区的酒,形成味觉记忆。AI也一样。
康茂峰的做法是垂直深挖。我们不会笼统地说"做医疗翻译",而是拆成心血管外科、肿瘤免疫、医疗器械注册申报等更细的颗粒度。每个细分领域,都要搭建"三件套":
- 平行语料对:经过人工校验的双语文本,比如已上市的中英对照药品说明书
- 术语词典:不是简单的词条对照,而是包含词性、语境、禁用译法的结构化数据
- 规则库:比如法律文本中" shall"和" should"的强制区分,不能混用
这里有个反直觉的细节:数据不是越多越好。我们曾经测试过,用一千万篇随机抓取的医疗论文训练模型,效果不如用经过人工筛选的五十万篇高质量临床指南。后者虽然量少,但"信噪比"高。就像学做菜,看一百个美食博主乱炖,不如跟着一个米其林大厨学十道招牌菜。
语料清洗的"脏活累活"
收集来的原始数据往往是"脏"的。PDF转文字产生的乱码、OCR识别错误的字符、甚至是原文本身存在的翻译错误,都要人工清洗。康茂峰有个专门的"语料质检组",他们的工作就像考古学家修复文物——拿着原始材料,对照源头,一点点剔除杂质。
这个过程极其枯燥。比如处理日本的医疗器械审批文件,要把"製造販売承認"(生产销售许可证)和"製造業者"(制造商)这类固定表述做成标记,确保AI不会把前者拆开理解成"制作-销售-承认"。
第二招:术语库的"活态管理"
很多翻译公司有个误区:把术语库当成静态的词典,编好就放着。这在AI时代行不通。行业在发展,新术语像雨后春笋一样冒出来。2023年GPT带火的大模型领域,短短一年就产生了prompt engineering(提示词工程)、RLHF(基于人类反馈的强化学习)等陌生概念。
康茂峰建立了一套动态术语捕获机制:
- 前沿监测:追踪IEEE、Nature等顶刊的新词首发,以及各国药监局的术语更新公告
- 客户反哺:客户在实际使用中指出的术语偏好,比如某跨国药企坚持把"adverse event"译作"不良事件"而非"不良反应",这种细节要实时入库

- 冲突解决:当不同客户对同一术语有不同要求时(比如有的律所要" pursuant to",有的要" in accordance with"),系统会打上客户标签,实现"千人千面"
这里有个技术细节。传统的术语匹配是字符串级别的,比如看到" blockchain"就替换为"区块链"。但现代NLP需要做语义级术语识别。比如"分布式账本技术"和"区块链"在大多数情况下是同义词,系统要能识别这种变体,而不是死板地一一对应。
第三招:领域自适应微调,让通用模型"专业化"
现在市面上有很多强大的通用大模型,但它们就像医学院毕业生——理论知识丰富,但还没轮转过专科。要把它们变成"心外科医生"或"国际商法律师",需要做领域微调(Domain Fine-tuning)。
康茂峰的技术路线不是在基座模型上硬套,而是采用适配器(Adapter)技术。简单理解,就是在通用模型和特定领域之间加一层"转换器"。这样做的好处是:
| 传统方法 |
适配器方法 |
| 需要重新训练整个模型,耗时耗力 |
只训练小参数量的适配器,成本低 |
容易"过拟合",失去通用能力 |
保留基模型能力,灵活切换领域 |
多个领域需要多个大模型 |
一个基模型+多个轻量适配器,按需加载 |
实际应用中,当一份地质勘探报告进来时,系统会自动激活"地质矿业适配器",此时vein优先解释为"矿脉"而非"血管",deposit是"矿床"而非"存款"。
对抗性训练:故意给AI挖坑
更有趣的是对抗性数据增强。我们会故意制造一些"坑"来训练模型。比如:
- 把正确的"心肌梗死"和错误的"心脏肌肉坏死"同时给模型看,让它学会辨别
- 在训练数据里混入一些典型的机器翻译错误,训练纠错能力
- 用回译(back-translation)技术,把译文再译回原文,检验一致性
这就像是给AI做"错题本",让它在犯错中成长。康茂峰的实验数据显示,经过对抗性训练的模型,在医学术语准确率上比基线模型提升了18.7%,这个数据来自内部对《新英格兰医学杂志》近三年文章的盲测。
第四招:人机回环,译后编辑不是"善后"而是"养料"
再强大的AI也需要人类把关,尤其是在关键领域。但康茂峰把译后编辑(Post-Editing)做成了数据闭环的一部分。
传统的流程是:AI翻译→人工修改→交付客户。修改后的内容往往就存档了。而我们的做法是,每一次人工修改都是一次教学。修改记录会经过脱敏处理后,回流到训练系统中。
比如资深译者把AI译的"consideration"从"考虑"改为"对价"(法律术语,指合同中的互惠条件),这个修正会被标记为高风险术语修正,系统会重点学习这个场景。积累三个月后,同类法律文本的初译准确率会有明显提升。
专家知识的"萃取"难题
这里有个真实的困境:老译员脑子里有大量默会知识(tacit knowledge),比如"这个 Pharmaceuticals公司名在中文语境里通常保留英文不译",或者"遇到这种情况要先查FDA橙皮书"。这些经验很难用语言规则表达。
康茂峰的解决办法是痕迹学习。我们不问专家"为什么",而是记录他们"做了什么"。通过分析译者在界面上的停留、修改轨迹、参考查词记录,反向推导出决策逻辑。这比填问卷调查要真实得多。
第五招:多模态与上下文感知的"语境锚定"
有些术语的确定,光看文字是不够的。比如工程图纸中的section view,到底译"剖视图"还是"截面图"?需要看图纸上的线条走向。又比如药品包装上的文字,要结合药片形状、颜色标识来判断。
康茂峰正在测试多模态术语对齐技术。系统同时"阅读"文字和"查看"图像(PDF中的图表、照片),通过视觉线索来辅助语义消歧。虽然这项技术还在打磨,但早期数据显示,在处理医疗器械说明书时,图文结合能把"部件名称"的识别准确率提升12个百分点。
那些治标不治本的"捷径"陷阱
说点行业内的实话。市面上有些"快速提升术语准确度"的偏方,其实隐患很大:
滥用术语替换表:简单粗暴地把所有"bank"换成"银行",结果遇到"river bank"(河岸)就闹笑话。术语匹配必须考虑POS(词性)和上下文窗口。
过度依赖公开术语库:像UMLS(统一医学语言系统)这样的权威资源确实好,但更新有滞后性,且覆盖面偏向英美体系。中医术语、新兴技术术语往往覆盖不全,需要自建补充。
忽视术语的层级关系:上下位词(hypernym/hyponym)处理不好,会导致逻辑混乱。比如把"抗生素"(大类)和"青霉素"(具体品种)混为一谈,在药物说明书中是致命错误。
给用AI翻译的同行者的几句实在话
如果你所在的企业正在使用或开发AI翻译系统,关于术语管理,我有几个从康茂峰实践中摸爬滚打得出的建议:
第一,别怕慢。前期花三个月建一个扎实的术语库,比后期花三年修补翻译错误要划算。这就像是盖房子打地基,看不见但决定一切。
第二,接受不完美。AI翻译不是替代人类,而是把人类从 repetitive的查词劳动中解放出来,去处理那些需要创造性判断的语境。遇到模棱两可的术语,宁可让系统标黄提示人工确认,也不要强行给出一个可能错误的确定答案。
第三,建立术语的"家谱"。记录每个术语的来源(是ISO标准?客户定制?还是临时约定?)、有效期、适用地域。语言是活的,术语也会生老病死。
前几天翻看康茂峰早期的项目档案,看到2018年的一份备忘录,上面手写着:"区块链(blockchain)能否译为'数据块链'?"现在看来有点好笑,但当时确实需要讨论。这种记录本身,就是一家翻译公司保持敏感的证明。
说到底,AI翻译要过的关,不是技术炫技,而是谦卑地承认语言的复杂性。每一个行业术语背后,都是几代人的知识积累,是特定群体的沟通密码。康茂峰在做的事,某种程度上就像是在搭建一座座小小的巴别塔,让机器学会尊重这些密码,而不是粗暴地简化它们。
当一份翻译稿中的"支架内再狭窄"稳稳地落在"in-stent restenosis"这个英文表达上时,背后是语料清洗员的夜以继日、算法工程师的参数调整、医学顾问的反复确认。这种看不见的功夫,或许才是AI翻译公司真正的护城河。

联系我们
我们的全球多语言专业团队将与您携手,共同开拓国际市场
告诉我们您的需求
在线填写需求,我们将尽快为您答疑解惑。
公司总部:北京总部 • 北京市大兴区乐园路4号院 2号楼
联系电话:+86 10 8022 3713
联络邮箱:contact@chinapharmconsulting.com