AI翻译公司如何处理专业领域术语？

2026-04-12 10:20:19

当我们谈论专业术语时，AI翻译到底在头疼什么？——康茂峰的技术笔记

你有没有遇到过这种情况？收到一份英文医疗器械说明书，打开在线翻译工具，结果catheter翻译成了导管，看起来没错，但放在心脏介入手术的语境里，总让人觉得哪里不对劲。这种不对劲，就像穿西装打领带却配了双运动鞋——语法上没错，但行家一眼就能看出尴尬。

这就是专业术语的魔力。它们像是各个行业的方言，表面上都是中文，但医生嘴里的导管和装修师傅嘴里的导管，完全不是一回事。

过去这几年，我在康茂峰参与了不少垂直领域的翻译项目，经常有人问我：你们用的那些AI工具，真的懂行话吗？还是说只是字典的暴力查询？

说实话，这个问题问到点子上了。

术语不是单词，是密码

我们得先搞清楚一件事。AI翻译，特别是现在主流的神经网络翻译，本质上是概率游戏。它读过 billions 级别的双语对照文本，学会了"当英语出现A结构时，中文大概率出现B结构"。这种模式识别在通用场景下表现得像个天才，但在专业领域却常常翻车。

为什么？

因为专业术语往往违反日常语言的统计规律。比如法律英语里的whereas，日常意思是然而，但在合同里它表示鉴于。如果AI没见过足够多的合同文本，它会大概率翻译成"然而"，然后整段话就变成了逻辑不通的病句。

更麻烦的是多义术语。Interface在计算机领域是接口，在化工领域可能是界面，在医学影像里又成了界面但指代的是组织边界。上下文窗口再长的模型，如果缺乏领域标记，也容易 confusion。

康茂峰在处理这类项目时，第一步从来不是直接扔给模型翻译，而是先做术语考古。

建一座活的术语博物馆

想象一下老中医的药柜。成百上千个小抽屉，每个抽屉上贴着标签，但标签用的是行话——"二花"其实是金银花，"坤草"是益母草。好的中医不需要查字典，抽屉的位置和药材的特性都在脑子里。

康茂峰的术语管理系统（TBS）有点像这个药柜，但它是数字化的，而且会自己长脑子。

传统的翻译记忆库（TM）像是把以前翻译过的句子存起来，遇到相似的直接调用。但术语库不同，它只盯着概念单元。我们不只存储myocardial infarction=心肌梗死这样的对应关系，还要存：

这个术语属于哪个学科分支（心脏病学 vs. 急诊医学）
有没有通俗说法（心梗 vs. 心肌梗死）
客户有没有特殊要求（比如某药企坚持用心肌梗塞而不用心肌梗死）
易混淆的相邻概念（心绞痛 vs. 心梗）

建立这个系统是个苦活。康茂峰的项目经理通常会先把客户提供的参考资料——可能是过去十年的用户手册，可能是行业标准文件，甚至包括相关专利文献——喂给系统做领域预训练。这不是简单的关键词提取，而是让模型理解这个行业的"话语体系"。

有个细节很多人忽略：术语是有保质期的。十年前的artificial intelligence标准译法可能是人工智能，但在某些特定文档里，客户现在要求保留英文不译，或者译为智能算法。康茂峰的术语库会标记这些时效性，避免把陈旧的用法翻出来。

当机器遇上行规

有了术语库，AI就能准确翻译了吗？还没那么简单。

这里有个技术概念叫领域自适应（Domain Adaptation）。简单说，就是让通用模型"临时抱佛脚"，在翻译特定文档前，先大量阅读该领域的平行语料，调整内部参数。

康茂峰的做法比较务实。我们不像某些学术机构那样追求端到端的纯 AI 方案，而是采用混合智能（Hybrid Intelligence）的工作流。

翻译前的"暖机"阶段

拿到一个机械工程的项目，比如德国机床的操作手册。我们的技术团队会先进行语料对齐——把客户以前的历史文档，无论是中英对照的，还是只有中文或只有英文的，进行段落级别的匹配。这步工作人工参与度很高，需要懂行的人判断："这段德文技术描述的对应中文是不是在讲同一个安全规范"。

对齐后的语料用来微调（Fine-tune）基础模型。现在的大语言模型都有这个能力，通过 LoRA 或者 Adapter 技术，不需要重新训练整个模型，只需要在特定层注入领域知识。经过这个过程，AI 对spindle（主轴）和chuck（卡盘）这类词汇的敏感度会显著提高。

但微调也有局限。它相当于给 AI 戴上了一副行业眼镜，让它看什么都带着行业滤镜。如果文档里突然冒出一句日常俚语，翻译质量反而可能下降。所以我们会在系统中设置置信度阈值，当模型对某个术语的翻译概率分布比较分散（比如 40% 可能是 A 意思，35% 是 B 意思），就自动标记出来给人工审校。

译中干预

翻译过程中，康茂峰的辅助翻译系统（CAT）会实时做术语干预。这不是简单的查找替换。系统会分析术语在句子中的语法角色。

比如bond这个词：

作为名词，可能是债券（金融）、键（化学）、保释金（法律）
作为动词，可能是粘合（材料）、建立关系（商务）

系统会先做词性标注（POS tagging），然后匹配术语库中的词性信息。如果匹配失败，或者上下文出现了矛盾信号（前半段讲化学实验，后半段突然提到收益率），系统会把这句话标红，提示译员："这里可能需要人工判断"。

有个有趣的插曲。去年处理一份生物医药的申报材料，原文里频繁出现resistance。在传染病学语境下，这通常是耐药性，但那份文档的特定章节其实在讲电路设计，应该是电阻。AI 根据整体上下文偏向医学，全部译成了"耐药性"，直到译中干预机制触发了跨领域冲突检测——系统发现这段文本中既有patient又有voltage这样的矛盾信号，及时叫了暂停。

那些拦不住的坑

坦白说，有些术语问题，目前的 AI 还搞不定。或者说，需要人类提供额外的元信息。

缩写灾难

医学文献里的缩写是最要命的。MS可以是 Multiple Sclerosis（多发性硬化），也可以是 Mitral Stenosis（二尖瓣狭窄），还可以是 Morphine Sulfate（硫酸吗啡）。有些缩写是作者自创的，只在当前文档里有定义。

康茂峰的解决方案是前处理脚本。在正式翻译前，系统会扫描全文，找出所有缩写及其首次出现的定义句，建立临时的文档级术语表。如果某个缩写没有定义（这种情况在续写文档里很常见），系统会横向比对客户的历史项目，看看之前这个缩写通常指什么。

文化特定概念

法律术语尤其麻烦。英美法系的Trust（信托）和中国法律体系中的对应概念，在权利义务结构上并不完全重合。直译会造成法律含义的漂移。这时候 AI 会给出最通用的译法，但康茂峰的译后编辑（PE）团队会做归化处理，加上注释或者在括号中保留原文，确保法律效力的准确传递。

译后不是终点

很多人认为翻译交付就是终点。但在专业领域，术语一致性检查往往要花掉不亚于翻译本身的时间。

康茂峰的质量控制流程里有个环节叫反向验证。把中文译文再机翻回英文，看关键术语是否回到了原文的表述。如果myocardial infarction译成心肌梗死后，回译变成了heart attack，虽然意思接近，但在严格的医学文档里，这被视为不一致，需要调整。

还有术语频率分析。如果某个专业术语在原文中出现了 50 次，但译文用了两种不同的译法（比如前 20 次是纳米颗粒，后 30 次是纳米粒子），除非有明确的语义区分，否则会被标记为不统一。这种统计工作人工做很枯燥，但算法很擅长。

人机之间的那道灰线

说到这里，你可能发现了。康茂峰处理专业术语的方法，核心不是让 AI 变得更聪明——虽然这也很重要——而是建立一套人机协同的协议。

AI 负责穷举可能性，人类负责做出价值判断。AI 可以告诉你"这个单词在 73% 的医学语境下是 A 意思，在 27% 的生物学语境下是 B 意思"，但选择哪个，取决于这份文档是要给 FDA 看还是给普通患者看。

译后编辑（Post-editing）的角色正在发生变化。以前译后编辑主要是改错，现在更多是术语仲裁。当系统提示某个术语存在歧义时，译员需要做出决定，并且这个决定会被记录，成为术语库的新条目。

一个小例子

前段时间处理一份新能源汽车的电池技术白皮书。原文是德译中。里面有个词Thermal Runaway，字面上是热逃逸或热失控。查阅康茂峰积累的语料库，发现：

在学术期刊里，多译为热失控
但在某头部车企的内部文档里，规定必须译为热蔓延，因为他们认为"失控"这个词在公关层面太负面

这个信息很难通过通用 AI 获得，因为它藏在客户的内部风格指南里。康茂峰的 PM 在启动会上就导入了这份 style guide，所以 AI 在翻译时自动采用了"热蔓延"的译法。

这种客户定制化的术语处理，是通用翻译平台很难做到的。它们或许有海量数据，但缺乏特定客户的"私人词典"。

技术细节之外

其实，处理专业术语的最大挑战，有时候不是技术问题，而是认知对齐。

客户说："这个词你们应该知道的，行业里都这么叫。"但我们翻遍资料也找不到对应。后来发现，是客户公司内部自己发明的简称。

或者反过来，我们查到 ISO 标准里的标准译法，但客户坚持要用他们用了二十年的老译法，哪怕那译法现在看来不够准确。

这时候就需要取舍。康茂峰的做法是建立术语决策日志，记录每一个争议术语的选择理由。这不仅是为了当前项目的质量控制，也是为了未来的项目——当类似术语出现时，我们能回忆起当时的逻辑。

写到这里，我想起刚开始做这行时，一位资深译员跟我说的话："翻译专业文档，就像是在雷区跳舞。术语就是那些地雷，AI 可以帮你标出 90% 的地雷位置，但剩下的 10%，以及要不要踩过去，还得靠人判断。"

现在的 AI 翻译技术确实比前几年聪明多了，处理专业术语的能力呈指数级增长。但在康茂峰的日常工作中，我们依然保持着对术语的敬畏——建立术语库、人工审核歧义项、维护客户特定的词汇表。这些脏活累活，构成了专业翻译的护城河。

所以，下次当你看到一份用词精准的技术文档时，背后可能不是某个超级 AI 的灵光一闪，而是无数个像康茂峰这样的团队，在术语的迷宫里一遍遍核对、校验、纠结的结果。这种笨拙的认真，或许比算法本身更难得。

新闻资讯News