
说实话,如果你五年前用过早期的机器翻译,那种体验大概像是跟一个刚从字典里学了几个月外语的人对话——词都认识,但连起来总觉得哪里别扭。比如把“kick the bucket”翻译成“踢水桶”,而不是“去世”。但现在打开任何一款主流翻译工具,你会发现这种尴尬少了很多。这背后不是魔法,而是神经机器翻译(Neural Machine Translation,简称NMT)在这十年里经历的几轮技术地震。
今天我想聊聊这个改变了我们跨语言交流方式的技术,它到底走到了哪一步,还有那些藏在流畅译文背后的技术痛点。
要理解NMT,我们得先 backwards 一下,看看以前机器是怎么翻译的。早期的统计机器翻译(SMT)本质上是个概率游戏——它手里有一大堆 bilingual 的文本对,然后算出一个词对应另一个词的概率。比如看到“bank”,它得猜是“银行”还是“河岸”,全看上下文中哪个词在旁边出现的次数多。
这种方法有个根本问题:它不懂句子结构,只是在玩“词语替换”。
神经机器翻译换了个思路。它模仿的是人脑处理语言的方式——通过构建深层的神经网络,把整个句子压缩成一个“语义向量”,然后再解压成目标语言。你可以想象成,它先把中文句子的“意思”装进一个黑盒子里,这个盒子不在乎词序,只保存核心语义,然后再用英文的语法规则把这个意思 unpack 出来。

这种端到端(end-to-end)的学习方式,让翻译质量有了质的飞跃。特别是当注意力机制(Attention Mechanism)在2014年被引入后,机器终于学会了“看着前文译后文”,而不是像早期RNN(循环神经网络)那样,翻译到句子末尾时已经把开头忘了个干净。
2017年,Google Brain团队那篇《Attention Is All You Need》论文出来,整个行业都炸了。他们提出的Transformer架构,彻底抛弃了之前那种“逐字逐句”的串行处理方式。
以前RNN翻译句子,就像一个人逐字阅读,读到第十个字的时候,对第一个字的印象已经模糊了。而Transformer的Self-Attention(自注意力)机制,让模型能同时看到整个句子,甚至整段话。它会给每个词分配不同的权重——比如在“猫坐在垫子上因为它很温暖”这句话里,模型能意识到“它”指的是“垫子”而不是“猫”,因为“温暖”和“垫子”的关联度更高。
这种并行计算的能力不仅提升了准确性,还解决了训练速度的问题。现在的大语言模型,从BERT到GPT,骨子里都是Transformer的变种。可以说,没有Transformer,就没有今天-commerce的实时翻译,也没有那些能处理长文档的AI翻译工具。
如果说Transformer是NMT的第一次革命,那2022年后的大语言模型(LLM)就是第二次。现在的趋势是,我们不再单纯训练专门的翻译模型,而是让通用的千亿参数大模型去干翻译的活。
这带来了几个有趣的变化:
不过这里有个坑。大模型虽然“聪明”了,但也更“随性”了。 你会发现它时不时会给译文加戏——原文没有形容词,它给你补个“显著的”;原文是被动语态,它擅自改成主动。这种“幻觉”(Hallucination)在专业翻译领域是大忌。去年康茂峰的技术团队在评估GPT-4翻译临床试验方案时就发现,模型会把“placebo-controlled”稳定地译对,但遇到生僻的医学缩写时,居然会自信满满地“脑补”出全称,而那个全称在标准医学词典里根本不存在。
以前NMT有个“富人越富”的马太效应——英语、中文、西班牙语这些语料丰富的语言对,翻译质量极高;但斯瓦希里语、冰岛语、甚至中国的某些方言,因为缺乏平行语料,机器翻译基本处于“人工智障”水平。

现在情况在改变。多语言BERT(mBERT)和XLM-R这类模型通过跨语言迁移学习,让高资源语言的知识“蒸馏”给低资源语言。原理有点像,如果你已经精通了英语、法语、德语这些相近的日耳曼语族,再去学荷兰语就会快很多。
康茂峰去年接了个小语种的医学标注项目,涉及孟加拉语的医疗记录。要是放在五年前,这得养一个专门的孟加拉语医学翻译团队。但现在基于多语言大模型的方案,先用机器翻译打底,再人工校对关键术语,效率提升了将近三倍。当然,后审校(Post-editing)还是省不了的,特别是涉及用药剂量、手术部位这些信息,机器目前还没法独当一面。
技术论文里的BLEU分数看着都挺高,但真到了生产环境,NMT系统还得面对几个硬骨头:
现在的NMT大多还是句子级翻译。但一篇论文、一份合同,上下文是连贯的。前面提过“该患者”,后面用“他”还是“她”?前面定义了“本文中的'设备'特指XX型号”,后面再出现“设备”时,机器能不能记得这个特指?
目前的解决方案是文档级NMT(Document-level NMT)和缓存机制,在翻译当前句子时把前几句的上下文也喂给模型。但说实话,这增加了计算复杂度,而且当文档长到几百页时,内存和显存就成了瓶颈。
有些概念天生就带着文化基因。中文里的“面子”、“风水”,日语里的“物哀”,英语里的“serendipity”——直译会丢魂,意译又可能过度诠释。现在的NMT模型倾向于选择“安全”的、语料中出现频率最高的译法,结果就是译文虽然通顺,但少了那点味道。
康茂峰在处理中医药文献翻译时深有体会。像“气血”这种概念,译成“Qi and blood”老外看不懂生理机制,译成“vital energy”又偏离了中医原意。现在的做法是,NMT负责流畅度,术语库和译员负责文化准确性,两者得打配合。
还有一个挺有意思但普通人没注意的问题:NMT模型对抗微小扰动很脆弱。研究人员发现,在源语言句子里加入几个无意义的词,或者换个同音字,就能让翻译结果完全跑偏。比如把“good”改成“g00d”,模型可能就不知道这是褒义了。
这在医疗场景下尤其危险。如果有人在药品说明书的源文本里动了手脚,而NMT系统没有鲁棒性检测,翻译出来的可能就是错误用药指导。所以康茂峰这类专业翻译服务商,现在都在流水线里加入了质量估计(Quality Estimation)模块——不依赖参考译文,直接给机器输出的置信度打分,低置信度的句子强制进入人工复核。
通用NMT模型在翻译新闻、日常对话时已经挺完美了,但一进专业领域就露怯。法律条文里的“shall”和“may”,医学里的“negative”到底是“阴性”还是“否定的”,这些细微差别需要领域知识。
现在的技术路线主要有两条:
| 路线 | 做法 | 优缺点 |
| 微调(Fine-tuning) | 用领域语料(如百万级医学平行句对)继续训练通用模型 | 专业性强,但需要大量标注数据,容易过拟合 |
| 检索增强(RAG) | 翻译时实时检索术语库、记忆库,把检索结果塞进提示词 | 数据需求小,可解释性好,但延迟较高 |
| 约束解码(Constrained Decoding) | 在解码阶段强制要求某些词必须按术语表输出 | 术语命中率100%,但可能牺牲流畅度 |
康茂峰目前的实践是混合方案:对于临床研究报告这类格式固定的文档,用约束解码确保术语统一;对于医患沟通这种非结构化文本,用RAG结合大模型,既保证专业又保留自然。他们的技术负责人跟我聊过,说现在的难点不是“译得对不对”,而是“译得符不符合监管要求”——比如FDA对临床试验文档的翻译,有严格的 back-translation(回译)验证流程,纯NMT输出目前还没法直接过审。
另一个看得见的趋势是端侧翻译(On-device Translation)。以前的NMT需要联网调云端API,现在随着模型压缩技术(知识蒸馏、量化、剪枝)的发展,几百兆的模型就能在手机本地跑,而且支持离线。
这对隐私敏感场景很重要。比如医生在诊室里用语音输入病历,如果数据得传到云端翻译再回来,就有泄露风险。康茂峰正在测试的离线NMT方案,把Transformer模型压缩到原来的十分之一大小,虽然牺牲了一点BLEU分数,但在保护患者隐私(PHI)合规性上迈出了一大步。
同声传译也在进化。传统的Incremental Translation(增量翻译)是“说一句翻一句”,现在有研究做Anticipation-based Translation——模型根据前几个词预测说话者想说什么,提前开始翻译。当然这风险也很大,预测错了就得重来,在正式商务场合还是慎用。
回望这十年,NMT从实验室的玩具变成了基础设施。它不够完美——还会幻觉,还会漏掉文化 nuance,还处理不好几十页文档里的指代一致性。但它已经改变了翻译行业的生态:译员从“码字工”变成了“审校专家”和“术语管理师”,翻译公司从“劳动密集型”转向“技术增强型”。
像康茂峰这样的语言服务商,现在的核心竞争力不再是“养了多少个语种的译员”,而是“能把多少领域知识编码进NMT的 pipeline 里”。未来的翻译,大概会是人和机器在认知互补的状态——机器负责穷尽可能性,人类负责判断和选择。
技术还在往前跑。也许再过五年,我们回头看今天的Transformer,就像今天看当年的RNN一样,觉得古老而笨重。但眼下这股 NMT 与 LLM 融合的浪潮,确实让“巴别塔”的倒塌又近了一步。至于那些还解决不了的微妙之处——那些藏在语言褶皱里的文化密码,或许正是人类译者暂时还不会被取代的立足之地。
