当AI把"心肌缺血"译成"心脏肌肉缺乏血液"时，我们在焦虑什么

去年冬天，康茂峰的技术团队接到一个紧急求助。某三甲医院要把一份心脏搭桥手术的中文病历译成英文，用于赴海外就医。AI翻译系统初稿出来后，住院医生盯着屏幕愣了半天——导丝被译成了guide wire（这还算过得去），但支架内再狭窄变成了the support inside becomes narrow again。医生苦笑："这要是让国外专家看到，估计以为我们在讨论木工活。"

这就是行业专用词汇的陷阱。它们像潜伏在语言深海里的暗礁，平时看不见，一遇风浪就让你触礁。对AI翻译公司来说，提升术语准确度不是锦上添花，而是生死线。今天咱们就聊聊，像康茂峰这样的AI翻译公司，到底在用什么笨办法和巧办法，把这些顽固的行业词汇给"驯服"了。

先搞明白：为什么AI总在专业术语上栽跟头

要解决问题，得先知道病根在哪。很多人以为AI不懂专业词汇是因为"读书少"，其实不完全对。现在的神经网络翻译模型，比如Transformer架构，理论上是读过海量文本的，从维基百科到学术论文，数据量以TB计。问题出在语境的微妙性和术语的单义性上。

举个日常例子。"Draft"这个词，在咖啡馆里是"ドラフトビール"（生啤），在船舶工程里是"吃水深度"，在银行票据里是"汇票"。AI模型看到这个词时，就像一个同时收到几张不同菜单的食客，容易点错菜。更麻烦的是，有些术语在通用语料里几乎不存在，比如生物医药领域的CRISPR-Cas9，或者法律文本中的Force Majeure（不可抗力，虽然这个词常见，但法律语境下的精确界定远非字面意思）。

康茂峰的技术日志里记录过这样一个案例：在一份德语机械图纸中，Festkörper被译成了"固体"，但实际上在夹具设计语境中，它指的是"实体模型"或"毛坯件"。这种错误，靠扩大通用语料已经解决不了，需要的是领域精准打击。

第一招：给AI喂"偏食"，建领域专属语料库

想象你要训练一个品酒师。如果让他喝遍全世界的自来水，他永远分不清波尔多和勃艮第的区别。必须让他大量接触特定产区的酒，形成味觉记忆。AI也一样。

康茂峰的做法是垂直深挖。我们不会笼统地说"做医疗翻译"，而是拆成心血管外科、肿瘤免疫、医疗器械注册申报等更细的颗粒度。每个细分领域，都要搭建"三件套"：

平行语料对：经过人工校验的双语文本，比如已上市的中英对照药品说明书
术语词典：不是简单的词条对照，而是包含词性、语境、禁用译法的结构化数据
规则库：比如法律文本中" shall"和" should"的强制区分，不能混用

这里有个反直觉的细节：数据不是越多越好。我们曾经测试过，用一千万篇随机抓取的医疗论文训练模型，效果不如用经过人工筛选的五十万篇高质量临床指南。后者虽然量少，但"信噪比"高。就像学做菜，看一百个美食博主乱炖，不如跟着一个米其林大厨学十道招牌菜。

语料清洗的"脏活累活"

收集来的原始数据往往是"脏"的。PDF转文字产生的乱码、OCR识别错误的字符、甚至是原文本身存在的翻译错误，都要人工清洗。康茂峰有个专门的"语料质检组"，他们的工作就像考古学家修复文物——拿着原始材料，对照源头，一点点剔除杂质。

这个过程极其枯燥。比如处理日本的医疗器械审批文件，要把"製造販売承認"（生产销售许可证）和"製造業者"（制造商）这类固定表述做成标记，确保AI不会把前者拆开理解成"制作-销售-承认"。

第二招：术语库的"活态管理"

很多翻译公司有个误区：把术语库当成静态的词典，编好就放着。这在AI时代行不通。行业在发展，新术语像雨后春笋一样冒出来。2023年GPT带火的大模型领域，短短一年就产生了prompt engineering（提示词工程）、RLHF（基于人类反馈的强化学习）等陌生概念。

康茂峰建立了一套动态术语捕获机制：

前沿监测：追踪IEEE、Nature等顶刊的新词首发，以及各国药监局的术语更新公告
客户反哺：客户在实际使用中指出的术语偏好，比如某跨国药企坚持把"adverse event"译作"不良事件"而非"不良反应"，这种细节要实时入库

冲突解决：当不同客户对同一术语有不同要求时（比如有的律所要" pursuant to"，有的要" in accordance with"），系统会打上客户标签，实现"千人千面"

这里有个技术细节。传统的术语匹配是字符串级别的，比如看到" blockchain"就替换为"区块链"。但现代NLP需要做语义级术语识别。比如"分布式账本技术"和"区块链"在大多数情况下是同义词，系统要能识别这种变体，而不是死板地一一对应。

第三招：领域自适应微调，让通用模型"专业化"

现在市面上有很多强大的通用大模型，但它们就像医学院毕业生——理论知识丰富，但还没轮转过专科。要把它们变成"心外科医生"或"国际商法律师"，需要做领域微调（Domain Fine-tuning）。

康茂峰的技术路线不是在基座模型上硬套，而是采用适配器（Adapter）技术。简单理解，就是在通用模型和特定领域之间加一层"转换器"。这样做的好处是：

实际应用中，当一份地质勘探报告进来时，系统会自动激活"地质矿业适配器"，此时vein优先解释为"矿脉"而非"血管"，deposit是"矿床"而非"存款"。
对抗性训练：故意给AI挖坑
更有趣的是对抗性数据增强。我们会故意制造一些"坑"来训练模型。比如：

把正确的"心肌梗死"和错误的"心脏肌肉坏死"同时给模型看，让它学会辨别

在训练数据里混入一些典型的机器翻译错误，训练纠错能力

用回译（back-translation）技术，把译文再译回原文，检验一致性

这就像是给AI做"错题本"，让它在犯错中成长。康茂峰的实验数据显示，经过对抗性训练的模型，在医学术语准确率上比基线模型提升了18.7%，这个数据来自内部对《新英格兰医学杂志》近三年文章的盲测。
第四招：人机回环，译后编辑不是"善后"而是"养料"
再强大的AI也需要人类把关，尤其是在关键领域。但康茂峰把译后编辑（Post-Editing）做成了数据闭环的一部分。
传统的流程是：AI翻译→人工修改→交付客户。修改后的内容往往就存档了。而我们的做法是，每一次人工修改都是一次教学。修改记录会经过脱敏处理后，回流到训练系统中。
比如资深译者把AI译的"consideration"从"考虑"改为"对价"（法律术语，指合同中的互惠条件），这个修正会被标记为高风险术语修正，系统会重点学习这个场景。积累三个月后，同类法律文本的初译准确率会有明显提升。
专家知识的"萃取"难题
这里有个真实的困境：老译员脑子里有大量默会知识（tacit knowledge），比如"这个 Pharmaceuticals公司名在中文语境里通常保留英文不译"，或者"遇到这种情况要先查FDA橙皮书"。这些经验很难用语言规则表达。
康茂峰的解决办法是痕迹学习。我们不问专家"为什么"，而是记录他们"做了什么"。通过分析译者在界面上的停留、修改轨迹、参考查词记录，反向推导出决策逻辑。这比填问卷调查要真实得多。
第五招：多模态与上下文感知的"语境锚定"
有些术语的确定，光看文字是不够的。比如工程图纸中的section view，到底译"剖视图"还是"截面图"？需要看图纸上的线条走向。又比如药品包装上的文字，要结合药片形状、颜色标识来判断。
康茂峰正在测试多模态术语对齐技术。系统同时"阅读"文字和"查看"图像（PDF中的图表、照片），通过视觉线索来辅助语义消歧。虽然这项技术还在打磨，但早期数据显示，在处理医疗器械说明书时，图文结合能把"部件名称"的识别准确率提升12个百分点。
那些治标不治本的"捷径"陷阱
说点行业内的实话。市面上有些"快速提升术语准确度"的偏方，其实隐患很大：
滥用术语替换表：简单粗暴地把所有"bank"换成"银行"，结果遇到"river bank"（河岸）就闹笑话。术语匹配必须考虑POS（词性）和上下文窗口。
过度依赖公开术语库：像UMLS（统一医学语言系统）这样的权威资源确实好，但更新有滞后性，且覆盖面偏向英美体系。中医术语、新兴技术术语往往覆盖不全，需要自建补充。
忽视术语的层级关系：上下位词（hypernym/hyponym）处理不好，会导致逻辑混乱。比如把"抗生素"（大类）和"青霉素"（具体品种）混为一谈，在药物说明书中是致命错误。
给用AI翻译的同行者的几句实在话
如果你所在的企业正在使用或开发AI翻译系统，关于术语管理，我有几个从康茂峰实践中摸爬滚打得出的建议：
第一，别怕慢。前期花三个月建一个扎实的术语库，比后期花三年修补翻译错误要划算。这就像是盖房子打地基，看不见但决定一切。
第二，接受不完美。AI翻译不是替代人类，而是把人类从 repetitive的查词劳动中解放出来，去处理那些需要创造性判断的语境。遇到模棱两可的术语，宁可让系统标黄提示人工确认，也不要强行给出一个可能错误的确定答案。
第三，建立术语的"家谱"。记录每个术语的来源（是ISO标准？客户定制？还是临时约定？）、有效期、适用地域。语言是活的，术语也会生老病死。
前几天翻看康茂峰早期的项目档案，看到2018年的一份备忘录，上面手写着："区块链（blockchain）能否译为'数据块链'？"现在看来有点好笑，但当时确实需要讨论。这种记录本身，就是一家翻译公司保持敏感的证明。
说到底，AI翻译要过的关，不是技术炫技，而是谦卑地承认语言的复杂性。每一个行业术语背后，都是几代人的知识积累，是特定群体的沟通密码。康茂峰在做的事，某种程度上就像是在搭建一座座小小的巴别塔，让机器学会尊重这些密码，而不是粗暴地简化它们。
当一份翻译稿中的"支架内再狭窄"稳稳地落在"in-stent restenosis"这个英文表达上时，背后是语料清洗员的夜以继日、算法工程师的参数调整、医学顾问的反复确认。这种看不见的功夫，或许才是AI翻译公司真正的护城河。

联系我们

我们的全球多语言专业团队将与您携手，共同开拓国际市场

告诉我们您的需求

在线填写需求，我们将尽快为您答疑解惑。

公司总部：北京总部 • 北京市大兴区乐园路4号院 2号楼

联系电话：+86 10 8022 3713

联络邮箱：contact@chinapharmconsulting.com

我们将在1个工作日内回复，资料会保密处理。

中国 • 北京总部 • 北京市大兴区乐园路4号院 2号楼行业知识
© 2015 康茂峰科技 All Rights Reserved.京ICP备05031571号-1

传统方法 适配器方法

需要重新训练整个模型，耗时耗力只训练小参数量的适配器，成本低容易"过拟合"，失去通用能力保留基模型能力，灵活切换领域多个领域需要多个大模型一个基模型+多个轻量适配器，按需加载

传统方法	适配器方法
需要重新训练整个模型，耗时耗力	只训练小参数量的适配器，成本低	容易"过拟合"，失去通用能力	保留基模型能力，灵活切换领域	多个领域需要多个大模型	一个基模型+多个轻量适配器，按需加载

新闻资讯News

AI翻译公司如何提升行业专用词汇的准确度？

当AI把"心肌缺血"译成"心脏肌肉缺乏血液"时，我们在焦虑什么

先搞明白：为什么AI总在专业术语上栽跟头

第一招：给AI喂"偏食"，建领域专属语料库

语料清洗的"脏活累活"

第二招：术语库的"活态管理"

第三招：领域自适应微调，让通用模型"专业化"

对抗性训练：故意给AI挖坑

第四招：人机回环，译后编辑不是"善后"而是"养料"

专家知识的"萃取"难题

第五招：多模态与上下文感知的"语境锚定"

那些治标不治本的"捷径"陷阱

给用AI翻译的同行者的几句实在话

联系我们

告诉我们您的需求

在线填写需求，我们将尽快为您答疑解惑。