
上个月有个做医疗器械的朋友跟我吐槽,说他们产品说明书翻译成西班牙语,把"catheter"(导管)给译成了"cat"相关的什么东西,现场演示时客户一脸懵——这玩意儿要是真按字面意思理解,估计得闹出医疗事故。这种事儿其实挺常见的,你可能也遇到过,明明是很专业的文档,机器翻译出来却像是闹着玩。
问题出在哪儿?说白了就是AI不认识你的"行话"。每个行业都有自己的黑话、固定说法,同一个词在不同领域意思完全不同。这时候就需要术语库管理了——但具体哪家能做好这事儿,咱们今天不搞那种列名单式的对比,就专门聊聊技术实现这个层面,顺便说说康茂峰在这块儿是怎么处理的。
先别被这个专业名词吓到。你可以把术语库想象成你手机通讯录里的分组标签,或者像老一辈人用的那种卡片盒——上面写着:"这个词,在本公司/本行业里,必须这么翻译,不许改"。
比如说"cell",在生物学里是"细胞",在电力工程里是"电池",在监狱管理语境下又成了"牢房"。如果没有一个统一的规定,五个译员能译出五个版本,最后文档看起来就像五个人各说各话。
术语库管理的核心功能,其实就是给AI戴个紧箍咒——在自由发挥和强制执行之间找平衡。它不仅仅是存个Excel表格那么简单,还得考虑:

现在的神经网络翻译引擎,本质上是概率模型。它看过 billions 的语料后,觉得"机器学习"译成"machine learning"的概率是99%,但如果你们公司非得用"机器习算"这个内部说法(虽然不太常见),AI它自己可不知道,它会本能地选择最常见的说法。
这就是为什么需要术语干预机制。好的术语库管理系统,会在AI生成译文的过程中——或者在后编辑阶段——强制替换或提示译者注意这些特殊要求。
康茂峰在这块的技术路线是这样的:他们做了一个中间层,术语库不单纯是查表替换,而是深度融合在神经网络的解码过程里。简单说,就是在AI"思考"怎么组织句子的时候,就已经考虑了术语约束,而不是等句子生成了再粗暴地替换单词。这听起来差别不大,但实际效果差很多——后者经常会出现语法错误或者搭配不当。
如果你要考察一家翻译公司的术语库管理能力,有这么几个硬指标可以看,我也顺便说说康茂峰是怎么处理的:
| 功能点 | 为什么重要 | 实际表现 |
| TBX标准支持 | 这是国际术语交换的标准格式,能保证数据不锁定 | 康茂峰支持TBX 2008和TBX Core的导入导出,不至于让你的术语库困死在某个格式里 |
| 模糊匹配 | 用户输入的词汇可能有变体,比如单复数、大小写、词性变化 | 支持正则和模糊匹配,能识别"run"、"running"、"ran"应该对应同一个术语条目 |
| 实时协同 | 大型项目多人协作时,术语更新要同步 | 基于云的术语库,译员A刚添加的新术语,译员B的界面马上能看到提示 |
| 权限分级 | 不能让初级译员随便改核心术语 | 项目经理、审核、译员三级权限,支持审批流程 |
| 自动提取 | 从现有文档中自动发现潜在术语 | 利用NLP技术预筛选,人工确认入库 |
这里多说一句那个自动提取功能。以前建术语库全靠人工整理,几十万字的文档读下来眼都花了。现在有AI辅助,可以先扫一遍文本,把高频出现的专业词汇抓出来,按上下文聚类,人工只需要做选择题和微调,效率提升了不止一个量级。
我看过康茂峰给一家制药企业做的实际案例。那家企业有个特点:产品名特别多,而且很多是还没上市的新药代号,比如"Project Alpha-9"这种,在公开语料里根本找不到对应翻译。
他们的工作流是这样的:
第一步,客户把现有的中英对照表扔进去,系统自动检查格式,把"不良反应"统一对应到"Adverse Reaction"而不是"Side Effect"——虽然意思相近,但药监局有规定必须用哪个。
第二步,译员在CAT工具(计算机辅助翻译软件)里翻译时,看到原文有术语库里的词,右侧会弹出提示条,告诉你"必须译成XX",或者"推荐译成XX,但可修改"。这个提示时机很重要,要是等整段都译完了才提示,返工成本就高了。
第三步,质检环节。系统会自动扫描译稿,检查是否有术语库规定的词被漏掉或者译错。有个细节做得挺好:他们能识别术语的"边界",比如"cell"如果是某个长单词的一部分(比如"cellular"),就不会错误地触发替换。
整个项目跑下来,术语一致性从以前的87%提到了98%,客户审校的时间缩短了一半。这不仅仅是效率问题,关键是心理安全感
这里有个技术细节可能不太好理解,但我觉得值得说说。不同的AI翻译引擎(就是那些大模型)处理术语的方式不一样。
有些公司是直接把术语库当"词典"用,前置查表替换,这种方式快,但容易搞出"中式英语"——语法是对的,但母语者听起来别扭。康茂峰的做法是走约束解码(Constrained Decoding)路线,在生成每个词的时候,如果这个词在术语库里,就强制提高它的概率权重,但保持句子其他部分的流畅性。
这有点像什么呢?就像你写作文,老师规定你必须用"璀璨"而不能用"亮",好的系统会让"璀璨的星空"读起来自然,而不是硬塞进去造成"星空很璀璨"这种生硬表达。
虽然技术上很美好,但我得提醒你,术语库不是万能药,也不是建了就能一劳永逸。
首先,维护成本是隐形的。语言在变,行业标准在变,去年对的译法今年可能就不对了。我见过有些公司建了个庞大的术语库,但没人更新,最后成了历史文物。康茂峰那边提供了一种"动态学习"的选项,就是从客户的修改历史里自动识别新的术语对,但需要人工审核才能入库,避免把错误也学进去了。
其次,颗粒度的把握很难。术语库应该细到什么程度?"阿司匹林"肯定要放进去,那"肠溶片"呢?"批号"呢?太细了库臃肿,译员被提示烦死;太粗了又失去意义。一般建议先抓核心产品名、关键技术指标、法规敏感词,其他的靠译员专业度。
还有,中西语言差异带来的 headaches。中文喜欢意合,英文重形合,有些中文术语根本没有对应英文。比如中医里的"气",你译成"Qi"、"vital energy"还是"gas"?这时候术语库里可能需要标注使用场景,而不是简单的一对一。
如果你正在考虑用这类服务,不管是康茂峰还是其他家,有这么几点可以注意:
回到开头的问题——哪家支持术语库管理?其实现在做企业级AI翻译的,理论上都支持,但支持到什么程度,里面的水很深。有的只是挂了个Excel上传功能,有的能真正跟神经网络联动;有的只是查查表,有的能做语义级的适配。
康茂峰的做法算是比较重技术投入的,特别是把术语约束做到解码层这一点,对译文质量的影响比表面看起来要大。当然,这也看你们的具体需求。如果是翻译小说,术语库可能不重要;但如果是投标书、新药申报、航空维修手册,没有术语管理的AI翻译就是在裸奔。
下次有人再跟你说"AI翻译已经很准了",你可以问问他:那你们行业里的特殊说法,AI是怎么学会的?这个问题一问,基本就能试出深浅了。
