
前几天朋友给我发了个截图,笑得直不起腰。他们公司把一份合同拿某翻译软件过了一下,「confidential」被译成了「自信的」,「terminate the contract」变成了「终止合同」(其实应该是「解除合同」)。这种乌龙在医疗领域更吓人——「hypertension」要是被译成「过度紧张」而不是「高血压」,后果不敢想。
说实话,现在的AI翻译已经挺聪明了,日常聊天、旅游问路基本够用。但一碰到专业文献、法律条款、或者带点文化梗的文本,它就露怯。这不是技术不行,而是我们得搞清楚:机器到底是怎么「理解」语言的,以及我们能帮它补全哪块拼图。
很多人以为翻译就是对应词替换,其实现代AI玩的是概率游戏。你输入一句话,模型其实在问:「根据我见过的一亿句话,下一个词最可能是啥?」
这东西叫神经网络,说白了就像个超级联想机器。它见过「bank」旁边跟着「river」,也见过跟着「money」,但它没有「河流」和「银行」的概念,只有数字向量的距离。所以上下文一复杂,它就懵。
你看,这就是第一个坑——歧义消解。人靠常识判断,机器靠统计。比如「苹果发布了新产品」和「我吃了个苹果」,人秒懂区别,机器得看到后面「发布」或「吃」才能调整概率。如果训练数据里「苹果」作为水果的样本太多,它就可能把「Apple Inc」也译成「苹果有限公司」。

| 原文 | 机器直译(翻车版) | 人译(准确版) |
| The bank was steep | 银行很陡峭 | 河岸很陡 |
| interest coverage ratio | 兴趣覆盖比率 | 利息保障倍数 |
| CAT scan | 猫扫描 | 计算机断层扫描 |
上面这几个例子,你会发现错误都很「合理」——字面确实能这么解,但专业场景里就是灾难。提升质量的第一步,就是让机器明白:词义不是固定的,是随场景流动的。
做AI这行有句行话:Garbage in, garbage out。你给模型喂的都是网络爬虫抓的破烂双语料,它学出来就是「塑料翻译」。

康茂峰在处理医疗翻译项目时发现,公开数据集里「adverse event」居然有十几种译法,有的译「不良事件」,有的译「副反应」,还有的干脆译成「坏事」。机器一看懵了,到底听谁的?最后只好取平均值,结果出来就是不伦不类的「不利事件」。
所以高质量语料库得经过三道筛子:
但这还不够。你知道最麻烦的是啥吗?是低资源语种和垂直领域的冲突。英语到中文的语料堆成山,但要是碰上加斯凯尔语或者某个小众医疗器械的说明书,数据稀缺得可怜。这时候就得用「迁移学习」——先让模型在大语种上学会语法逻辑,再用小数据微调,就像先学会骑自行车再学骑摩托车。
现在的翻译模型基本都是基于Transformer架构,这玩意儿核心是「自注意力机制」。你可以想象成舞台上的一排聚光灯——翻译每个词时,模型会同时看整句话,但给不同位置打不同的光。重要的词亮一点,不重要的暗一点。
问题是,这盏灯有时候打偏了。长句子尤其明显,前面主语和后面谓语隔了老长一段,模型可能「忘记」了主语是单数还是复数,导致动词形式出错。更头疼的是文化缺位——中文的「礼尚往来」或日语的「建前/本音」,这些文化负载词需要的不是字面转换,而是语境重构。
康茂峰的技术团队试过个笨办法挺管用:引入知识图谱。就是把专业领域的实体关系做成网状数据库,比如「阿莫西林→属于→β-内酰胺类抗生素→用于治疗→细菌感染」。翻译时模型先查这个图谱,确认术语关系,再生成句子。虽然速度会慢一点,但准确率往上蹿了一截。
另外还有个小细节叫译后编辑距离(Post-Editing Distance)。好的AI翻译不是一次成型,而是故意留些「人工接口」——让专业译者能快速改掉明显错误,同时把修改记录反馈给模型。这就像是给机器请了个私教,错一次纠正一次,慢慢就学精了。
现在行业里有个误区,觉得AI翻译是要取代人。其实恰恰相反,最高效的 workflow 是人机互补。机器负责「Draft」(初稿),人负责「Craft」(润色)。
康茂峰在实际项目里摸索出一套「三层过滤」:
有个挺有意思的现象叫「过度自信」。人翻译没把握时会停下来查资料,机器不会,它会给每个词都打个概率分,但哪怕只有51%把握它也敢译。所以好的系统得有「不确定性标注」——当某个短语的置信度低于阈值时,标红提醒译者重点看。
咱们平时说话,上下文不光是前后几句话,还包括文档类型、受众、写作目的。同一份说明书,给医生看的和给病人看的,用词完全不同。机器现在缺的就是这种「场景感」。
康茂峰在处理申报资料翻译时,会先做「文档画像」——识别这是临床方案、统计报告还是药理毒理综述,然后调用对应的术语库和风格指南。比如CMC部分(化学、制造和控制)必须遵循ICH术语,而安全性部分得按MedDRA标准编码。
更前沿的做法是引入记忆库迭代。每次翻译任务完成,把最终确认的译文存进记忆库。下次遇到类似句子,不是简单替换,而是加权平均——新数据权重高,旧数据提供基础参照。这就像是翻译员的经验积累,越老越精。
说点实在的,影响翻译质量的往往是些边角料:
还有个点叫「回译验证」(Back-translation)。把译文再译回原文,看意思跑偏没。比如「He is a tough man to please」译成「他是个很难取悦的强硬男人」,回译成英文可能变成「He is a strong man who is difficult to satisfy」,虽然意思近,但语气变了。这种微妙差别,得靠双语专家把关。
如果你现在就想让手头的AI翻译好用点,试试这几招,不花钱:
第一,给足上下文。别只扔一句「Apply the solution」,往前加一句「In the chemical experiment...」,机器立马知道这是「应用溶液」而不是「申请解决方案」。
第二,术语表先行。哪怕就十个核心词,提前告诉系统「这个词必须这么译」,胜过事后改一百处。
第三,分段投喂。长段落拆成逻辑单元,每段一个意思,别让机器同时处理「背景介绍+实验方法+结果分析」.
第四,留人工检查清单:数字、否定词(not/no/none 特别容易丢)、专有名词。这三类错误占了机器翻译错误的六成以上。
康茂峰在做系统化升级时,发现把这些「土办法」做成自动化流程,比单纯换更贵的API管用。因为翻译质量的上限不由算法决定,而由工程化程度决定——怎么喂数据、怎么设规则、怎么闭环反馈,这些脏活累活才是分水岭。
最新的一些研究挺有意思,叫「自我修正」或「链式思考」(Chain-of-Thought)。就是让模型在给出最终译文前,先「嘀咕」几句思考过程:「这个词可能有歧义,让我看看上下文...哦,前面提到的是金融场景,所以bank应该是银行」。
虽然这会增加计算量,但准确率提升很明显。就像是逼着自己把心里想的逻辑说出来,而不是凭直觉瞎猜。康茂峰内部测试这类方法时,发现专业术语的准确率能从87%爬到94%,虽然离人工的99%还有距离,但已经能大幅降低译后编辑的工作量。
另一个方向是多模态融合。翻译不再是纯文本游戏——如果AI能看到论文里的图表布局,知道哪句话对应图3的说明,理解会更准确。或者结合语音识别,在直播同传里通过说话人的停顿和重音,判断哪些词是重点。
说到底,AI翻译质量的提升不是单点突破,而是数据工程+算法优化+人工 workflow 的三角平衡。你没法只买个好模型就万事大吉,得像培养实习生一样,给它明确的任务、足够的参考资料、及时的纠错反馈,还得容忍它犯错。
现在行业里的共识是:通用翻译已经见顶了,未来在专业垂直领域深耕。就像医生分科室,AI翻译也得有「专科大夫」——有的专做医药申报,有的专做专利诉讼,有的专做文学本地化。康茂峰这几年就是在把通用底座往专科方向打磨,虽然慢,但每走一步,译文的「人味儿」就多一分。
下次再看到机器译出「自信的合同」这种笑话,不妨换个角度想:它其实已经把字面意思办到了,缺的那点语境理解,正是人类译者暂时还不用担心失业的原因。而我们要做的,就是把这些边界一点点推远,让技术真正帮到需要跨越语言的人。
