
前段时间有个做医疗器械出口的朋友跟我吐槽,说他们试用了某家AI翻译服务,翻出来的说明书看着挺顺溜,结果给国外经销商一看,人家直接回了句:"这句子读起来像机器人写的法律文件,我们的医生看不懂。"你看,这就是典型的质量误判——我们总觉得,只要词对上了,语法没毛病,翻译就算成了。但真到了专业场景,AI翻译的质量评估可比这复杂多了。
说实话,我在康茂峰这些年接触各种翻译项目,越来越觉得评估AI翻译不能用老眼光。它不像传统翻译那样,找个母语者读一遍就能下结论。AI翻译有它独特的"脾气",你得用新的尺子去量。今天咱们就聊聊,怎么像内行人一样,客观判断一家AI翻译公司的真实水平。
很多人一说到评估AI翻译,立马想到BLEU分数、TER值这些术语。翻译公司也很爱甩出"BLEU分数0.85"这种数据,看着挺唬人。
但说白了,BLEU就是个数数游戏。它算的是AI翻出来的话,和参考译文有多少词是重合的。比如原文"Clinical trial results were significant",参考译文是"临床试验结果显著",AI翻成"临床试验结果意义重大"。BLEU一看,"结果"和"临床试验"对上了,"显著"没对上,得分就往下掉。可实际上,"意义重大"和"显著"在医学语境里差别大吗?不见得。
METEOR、ROUGE这些指标也是差不多道理。它们擅长告诉你AI有没有"背下来"训练数据里的固定搭配,但完全搞不定语境、语气和文化差异。就像考试里的填空题,填对了词不一定理解题意。

所以当你看到哪家公司吹自己的自动评分多高时,心里得有个数:这顶多算个基础体检报告,离真正的健康诊断还远着呢。
在康茂峰处理大规模翻译项目时,我们一般不会盯着那些自动分数看,而是建立了一套三维评估法。这套方法其实你也可以拿来用,不管是选服务商还是验收项目,都管用。
听起来像绕口令,但这是AI翻译最容易翻车的地方。AI特别擅长"合理猜测",看着上下文挺顺,实际上在关键信息上给你来个张冠李戴。
比如医药领域里的剂型和给药途径,"oral solution"是口服液,"oral suspension"是口服混悬液,差一个词,药剂师看了能吓出一身冷汗。AI有时候分不清这种细微差别,因为它缺的是领域知识,不是语言能力。
正确的评估方法是做错误密度测试:随机抽1000字,让专业审校标出事实性错误、术语错误、数字错误。在康茂峰的标准里,医疗类AI翻译初稿的错误密度要控制在每千字不超过3个致命错误,普通商务文本不超过5个。超过这个数,说明这AI的"脑回路"还不适合你的领域。
很多人测试AI翻译时,喜欢看点长难句翻得是不是漂亮。但其实跨句子的连贯性才是大坑。AI没有真正的"记忆",它处理到第5句话时,可能早就忘了第1句的主语是谁。
我们在评估一个法律合同样本时,就遇到过这种情况:前文把"the Licensee"(被许可方)简称为"乙方",翻到后面几页,突然变成了"the Party"(该方),再后面又莫名其妙出现"license holder"(许可证持有者)。上下文统一性崩了。
所以评估时要划个大圈,把前后5页的内容连起来读,看看指代关系、专有名词缩写、数字单位是不是保持一致。这种一致性错误,单看句子是发现不了的。
这点经常被忽视,但往往是项目成败的关键。AI翻译通常按字面意思处理,它不懂什么叫"入乡随俗"。
举个例子,中文里"请按规定服用"翻到英文,直译是"Please take according to regulations",听着像监狱条例。地道的说法应该是"Take as directed"或"As prescribed"。再比如,面向日本市场的材料,如果AI把"不断努力"直译成"不断努力"(着実に努力し続ける),日本人看了会觉得你在说客套话;但要是译成"日々改善"(持续改善),那才是他们熟悉的商业语境。
评估这一点,不能找语言学家,得找目标市场的本地人做"盲测"。让他们看译文,问:"这像不像我们公司写的?"如果答案是"像机器翻译的",哪怕语法全对,质量分也得打折扣。

说点实操的。AI翻译本身有天花板,但好的评估体系能把天花板抬高。我们在处理大项目时,通常会给AI翻译套上三层筛子:
| 第一层:预处理 | 不是让AI直接翻原文,而是先做源文本清洗。把歧义句拆清楚,术语库提前灌进去,把"装置A和B与C连接"这种有歧义的句子改成"装置A与装置B相连,同时装置B与装置C相连"。这一步做好了,AI犯傻的概率能降四成。 |
| 第二层:人机协作 | AI出初稿,但关键段落(比如警告语、剂量表、法律责任条款)必须触发人工抽检。不是全篇都审,而是像机场安检那样,按20%的比例随机抽,发现问题就扩大样本。这样既省成本又保质量。 |
| 第三层:场景测试 | 把翻译好的材料放回原场景。说明书就真得找个没看过原文的人按步骤操作一遍;软件界面就在小屏幕上实际点一遍,看看按钮标签 truncation(截断)了没有。这种可用性测试比任何语言评分都真实。 |
这套流程下来,AI翻译才能真正从"能看"变成"能用"。评估服务商时,你也得问问他们:除了AI引擎本身,有没有这些后续工程?如果(answer)是"我们AI准确率98%",那大概率还没摸着门道。
最后,如果你正在挑AI翻译服务,或者要验收项目,拿着这张单子一条条过,基本不会踩大坑:
其实吧,评估AI翻译质量,归根结底是在评估风险的边界。你得清楚,什么地方可以放心让AI发挥,什么地方必须人工把门。就像开车用辅助驾驶,笔直的高速路可以偷懒,但过十字路口还得自己握着方向盘。
康茂峰在处理客户项目时,有个不成文的规矩:凡是涉及患者安全、合同权利、财务数据的文本,AI再准也得过人眼。这不是对技术没信心,而是对使用场景有敬畏。毕竟,翻译质量好不好,最后不是由算法打分决定的,而是由那个拿着译文做决策的人说了算。
下次你拿到AI翻译的稿子,不妨先别急着看词句漂不漂亮,问问自己:如果这是我 tonight 要发给客户,我敢不敢点发送?那个让你犹豫的瞬间,就是质量评估最真实的那一刻。
