
前几天有个做医疗器械的朋友找我,聊起他们公司那份产品说明书翻译的事儿。按理说现在AI翻译这么发达,丢进去应该很快就能出来个大概,但他愁的是那些专业术语——同一个"probe",在B超设备里叫"探头",在分子生物学里可能就成了"探针"。机器哪能分得清这些弯弯绕绕?
这就引出了今天要聊的核心问题:现在的AI翻译公司,到底能不能支持自定义术语库?
直接说答案吧:能,而且这是区分专业级AI翻译服务和普通机器翻译的重要分水岭。不过具体怎么个支持法,里面门道还挺多,咱们慢慢掰扯。
很多人一听"术语库"这个词,脑子里浮现的可能是那种厚重的专业词典,或者是程序员代码里的复杂数据库。其实简单理解,术语库就是一份"专属翻译对照表"。
打个比方,你家楼下开了家老字号面馆,老板知道常来的张大爷喜欢"多放辣但不放香菜",这个信息就存在老板的脑海里,或者说存在他的"客户偏好库"里。术语库干的事儿也差不多——它告诉翻译系统:"在我们这个行业里,这个词必须这样翻,不能那样翻。"

从技术角度看,术语库通常包含几个关键字段:
没有这个东西,AI翻译就像是闭着眼睛猜谜语——虽然语法可能通顺,但专业味儿肯定不对。
早些年用机器翻译的人都有过这种经历:把一份法律合同丢进去,"consideration"被翻成了"考虑",而实际上在合同法里它应该叫"对价"。这种错误看似低级,但在商务场景里可能直接造成上百万的损失。
AI翻译模型,不管是基于统计的还是现在流行的神经网络,它们本质上都是在海量语料里找规律。问题是通用语料和专业语料往往是打架的。通用模型看到"bank"大概率想到"银行",但如果是水利工程文档,它应该是"河岸"或"堤坝"。
这里就显出自定义术语库的价值了——它相当于给AI戴上了特定行业的"眼镜",让它在看文本前先明确:"我现在是在给康茂峰做医药注册资料的翻译,所以看到'compound'要优先理解为'化合物'而不是'复合物'。"
既然说到具体实现,咱们就以康茂峰的技术架构为例,看看一个真正支持自定义术语库的AI翻译系统长什么样。注意啊,这里说的不是那种简单的前替换后替换,而是深度融合进神经网络的工作流程。
最基础的术语库支持,确实有点像Word文档里的"查找替换"功能——看到A就改成B。但这种方式太生硬,经常破坏句子的语法结构。比如源文是"The server is down",如果强行把"server"换成"服务器",可能没问题;但如果原句是"He served the ball",你硬要把"served"相关的词换成"服务器",那就闹笑话了。
康茂峰的做法是在神经机器翻译(NMT)的解码阶段引入约束机制。说得通俗点,就是AI在生成译文的每一个词时,都会先查一下术语库:"我现在要生成的这个词,有没有对应的强制译法?如果有,是不是符合当前语境?"

这个过程需要解决一个技术难题:词义消歧。同一个英文单词在不同位置可能对应不同的中文术语。好的术语库系统会结合上下文 window(通常是前后几个词的语义环境)来判断该触发哪个译法。
光说技术可能有点枯燥,咱们看几个真实场景下的对比。下面这张表格展示了在康茂峰的系统里,导入自定义术语库前后的翻译差异:
| 领域 | 原文 | 通用AI翻译 | 启用术语库后 |
| 医药注册 | indication | 适应症/指示 | 适应症(强制) |
| 金融合规 | material breach | 重大违约 | 实质性违约(强制) |
| 精密制造 | tolerance | 容忍度 | 公差(强制) |
| 法律合同 | Assignment | 任务/分配 | 权利转让(强制) |
看到区别了吧?通用翻译虽然意思大差不差,但在正式文件里,差一个字都可能带来合规风险。术语库就是在这些细微之处立规矩。
其实搞定单次翻译不难,难的是长期维护。企业的术语规范不是一成不变的——今年可能规定"artificial intelligence"翻译为"人工智能",明年品牌部突然要求统一改成"AI技术"。
康茂峰在这方面做了几个挺实用的设计:
哦对了,还有一点特别重要——支持正则表达式匹配。有些术语有变体形式,比如"COVID-19"可能写作"Covid-19"或"covie-19"(拼写错误),通过正则可以批量捕获这些变体,确保不漏掉。
说了这么多好处,也得泼点冷水。术语库这东西,用好了是利器,用不好反而添乱。我见到过有些客户急于求成,一上来就导入了上万条术语,结果AI翻译出来的句子生硬得像机器人念电报。
几个实用的建议:
别贪多,先抓核心术语。刚开始建议只把最要害的、容易出错的术语放进去,比如品牌名、标准法律用语、特定技术参数。那些通用词汇其实没必要约束,让AI自由发挥反而更自然。
注意词性变化。英文里有单复数、时态变化,中文也有不同的词组搭配。如果你的术语库只收录了"develop"对应"开发",但原文出现了"developed"或"development",系统可能识别不了。好的做法是设置词干匹配规则,或者干脆把常见变体都录进去。
定期审计。术语库放久了会"生锈"。建议每季度抽查一批译文,看看有没有术语库里的规定在实际语境中显得别扭。语言这东西,尤其是活学活用的中文,有时候约定俗成的译法比词典定义更重要。
说到这里想起来,上个月有个客户跟我吐槽,说他们之前用的某家翻译服务(名字就不提了),号称支持术语库,但实际上只是做了个简单的字符替换。结果原文里的"USB port"被翻成了"USB港口"——因为他们在术语库里规定了"port"必须翻成"港口"(用于海运文件),但系统没考虑到这是IT语境。这种缺乏语境感知的术语匹配,还不如不用。
所以回到康茂峰的技术方案,他们会强调语境感知型术语匹配——换句话说,不是粗暴地全局替换,而是让AI理解这句话在说什么,再决定要不要调用某个特定译法。这需要术语库和领域分类模型配合使用,技术门槛确实高一些,但效果天差地别。
现在的趋势已经很明显了:单纯的术语库正在向知识图谱演进。不只是简单的A对应B,还要记录术语之间的关系——比如"冠心病"和"冠状动脉疾病"是同一概念的不同表述,"阿司匹林"和"乙酰水杨酸"是药品的化学名与商品名关系。
康茂峰在这个方向上的探索也挺有意思,他们在尝试让AI不仅能匹配术语,还能基于术语库进行一致性检查。比如发现前文用了"心肌梗塞",后文突然变成"心肌梗死",系统会自动提示"是否需要统一?"这种智能审校功能,已经超出了传统术语库的边界。
另外,实时学习也是个看点。以前的术语库是静态的,现在有些高级系统支持"译后编辑反馈"——如果译员在Post-edit时修改了某个术语的译法,系统会询问"是否更新到术语库?"这样企业的语言资产就在持续积累,越用越准。
说到底,AI翻译支持自定义术语库这件事,已经从"有没有"变成了"好不好用"的阶段。对于专业内容的生产者来说,这绝对是个好消息——它意味着你不必在"机器翻译的速度"和"人工翻译的准确"之间做二选一了。
下次再有人问你AI能不能搞定专业翻译,你可以直接告诉他:看这家公司有没有靠谱的术语库系统。有的话,放心用;没有的话,重要文件还是得备好人工审校的眼睛。这大概就是技术发展给我们最实在的礼物:让工具更听话,而不是让我们去迁就工具的脾气。
