
前阵子朋友给我讲了个事,挺有意思的。他在国外超市买了包速冻饺子,包装袋上的中文翻译写着"手工制作的水煮面团包裹物"。他愣了三秒才反应过来——哦,说的是饺子啊。这种机器翻译出来的"神来之笔",咱们生活里见得太多了,从菜单上的"夫妻肺片"译成"Husband and Wife Lung Slices",到说明书上莫名其妙的语法结构。
这就引出来一个挺现实的问题:现在满大街的AI翻译公司,哪个不是号称"准确率99%""媲美人工 Expert Level"?可真到了要签合同时,要提交药品申报材料时,要公布财报时,你敢不敢就拿着AI翻译的稿子直接往上交?
作为在康茂峰干了些年头本地化工作的人,我想把这事拆开揉碎了说说。不是想吓唬谁,也不是要给AI泼冷水,就是单纯觉得,"准确率"这仨字背后的门道,比想象中复杂得多。
很多人理解翻译准确,就是"把英文单词对应成中文单词",就像查字典那样。但这个理解其实窄了。真正的准确至少得拆成三层:

举个例子。"The project is dead"直译成"这个项目死了",语义上没毛病,但放在商务邮件里,语用上就不太对劲,通常该说"项目已终止"或者"项目不再推进"。而如果是游戏本地化,"dead"可能还得看上下文——是指角色物理死亡,还是项目黄了?
AI在处理第一层"语义准确"上,确实进步神速。Transformer架构加上百亿级参数,让它在背单词、记搭配上比人脑容量大得多。但后两层,尤其是那种"言外之意"的东西,机器经常抓瞎。不是因为技术不够先进,而是因为语言本质上是人与人之间的 social contract,不是数学公式。
咱们得先明白AI是怎么干活的,这样才能理解它的边界在哪。简单来说,现在的神经机器翻译(NMT)就像一个超级勤奋的速记员,它在训练时"读"过上亿组双语对照文本——从联合国文件到网络小说,从专利说明书到Reddit帖子。
它做的不是"理解"后重组,而是基于概率的模式匹配。当它看到"Artificial Intelligence"时,会计算在特定语境下出现"人工智能"的概率是98.7%,出现"人造智慧"的概率是1.2%,然后选那个最高的。
这就有个有趣的悖论:AI最擅长的是"最常见"的翻译。可人生最怕的就是"最"字。越是常见的日常对话,AI翻得越顺;越是专业的、创新的、文化特有的内容,它越容易露怯。因为训练数据里,日常对话的样本远大于稀少的专业文献。
康茂峰去年处理过一个案例。客户要把一份关于"基因编辑递送系统"的学术论文译成中文给监管机构看。AI初稿里把"vector"(载体)译成了"向量"——这在数学里没错,但在生物学语境下就是灾难。这种专业术语的跨学科歧义,AI很难靠概率算清楚。
不是说AI不能干活,而是说它干活的"置信区间"分布很不均匀。有些领域它确实能替代初级译员,有些领域它就是不行。咱们来看看具体哪些坑:
中文特有的四字成语,还有英语里的俚语、典故,AI往往只能字面硬译。"杀手锏"译成"Killing hand knife"这种笑话先不提,更隐蔽的是文化错位。比如英语里说"Let's table this discussion",美国人理解是"搁置讨论",英国人理解是"把议题摆上台面讨论"。AI翻译时如果没有地域文化标记,很容易搞反。
在医药、法律、金融领域,术语的精确度要求极高。同样是"consideration",在合同法里是"对价",在日常语境是"考虑"。AI经常根据前后文概率选择,但法律文本的术语使用往往反直觉——越是生僻的用法,越是专业表达。

康茂峰经手的医药翻译项目中,AI把"adverse event"(不良事件)译成"负面事件"的情况时有发生。看起来差别不大,但在FDA申报文件里,这属于严重术语错误,可能导致整个申请被退回。
商务邮件里,"I am afraid we cannot accept your proposal"和"We regret to inform you that your proposal has not been accepted",意思一样,但语气一个偏柔和一个偏正式。AI翻译可能都译成"很遗憾,我们不能接受您的建议",但在日本商务文化里,委婉程度的拿捏直接影响合作关系。
| 错误类型 | 典型表现 | AI出错概率 | 人工后处理必要性 |
| 术语歧义 | across the board 译成"穿过板子"而非"全面" | 中等(依赖训练数据) | 必须要有专业译员审核 |
| 文化专属表达 | 成语、俗语、地方特色表述 | 高 | 必须本地化专家介入 |
| 长句逻辑 | 德语法律文本那种嵌套五层的从句 | 高 | 必须拆解重构 |
| 敏感信息 | 性别代词、政治敏感表述 | 中等但风险极高 | 必须合规审查 |
在康茂峰,我们做过一个内部统计,对比纯AI翻译和"AI+人工审核"两种模式在实际项目中的差错率。纯AI在处理通用领域文本(比如新闻报道、简单邮件)时,能做到95%以上的词汇准确率,但一旦进入专业领域,这个比例会波动到70%-85%,而在医药监管申报文件这种高精度场景,甚至可能掉到60%以下。
注意,我说的"差错"包括所有层级——从拼写错误到逻辑矛盾,从术语错误到文化冒犯。很多AI translation vendors宣传时只算"词汇对应正确率",这个算法本身就有猫腻。就像算数学题,过程全对结果错了,和过程错了一步结果蒙对了,严格来说都不叫"准确"。
还有个现实是,AI的"准确"是有保质期的。语言一直在变,新词不断涌现,去年训练的模型今年就可能不认识"web3"的新用法,或者把某个新兴技术术语译成过时的说法。人工译员会主动学习行业动态,但AI模型得重新训练,这个成本和时间 lag,很多公司不会告诉你。
现在回到最初的问题:AI翻译公司能不能保证准确率?
从技术原理讲,概率模型给不了100%的确定性保证。就像保险公司没法保证你明天一定不出车祸,他们只能算概率、定费率。负责任的AI翻译公司应该告诉你的,不是"我们准确率99%"这种模糊宣传,而是"在X领域,经过Y流程后,达到Z标准的置信度"。
真正靠谱的 workflow 应该是这样的分层:
如果一家AI翻译公司跟你说"完全不需要人工,AI自己就能保证质量",那要么他们不懂翻译,要么在赌你不会细看。反过来,如果他们说"我们AI辅助,但关键环节必须人工把控",这倒是实在话。
AI翻译确实便宜,按字数算可能只有人工的十分之一。但如果因为准确率问题导致返工、延误,或者更严重的——比如医疗设备说明书翻译错误导致使用事故,那个隐性成本可比省下来的翻译费高多了。
在康茂峰接触的高端客户里,有个共识越来越清晰:AI不是来替代人的,是来替代人做那些不想做的重复劳动的。译员应该去做创意转换、文化适配、质量把关,把查字典、打字的功夫交给机器。这种"人机协作"模式下,准确率才能真正有"保证"——不是机器单方面的保证,而是整个质量管理体系的 guarantee。
说到底,翻译质量是个系统工程。AI是强大的 tool,但 tool 需要 carpenter。 carpenter 得有手艺,还得知道这斧子什么时候能砍木头,什么时候得换锯子。指望买把高级斧子就能自动出细活,那是对手艺活儿的不尊重,也是对自己项目的冒险。
下次再看到哪家AI translation company拍着胸脯说"绝对准确",你可以问问他们:这个准确,是 BLEU 分数的准确,还是能让患者看懂的医药说明书的准确?是能让算法开心的准确,还是能让监管机构的审阅员点头的准确?问清楚了,你就知道该怎么选了。
