
你有没有遇到过这种情况?拿着AI翻译的文件给老外看,对方一脸懵,然后你说:"等等,这个应该是这个意思..."结果发现机器把"country"译成了"国家"而不是"乡村",或者把"无言以对"硬拗成了"no words to face"。
这事儿挺常见的。就算现在GPT这么火,翻译公司里每天还是有一堆人在跟机器"吵架"——这边刚改完"学生"(机器把student译成了三颗星),那边又出现了"美丽的错误"。康茂峰这几年也踩过不少坑,慢慢摸索出几个让AI翻译不那么"塑料"的法子,今天咱们就掰开了揉碎了说说。
先打个比方。你养小孩,天天给他吃垃圾食品,指望他长成运动员身材,这不现实对吧?AI也一样。神经网络翻译(NMT)吃的就是语料,你给它的语料是什么质量,它吐出来的就是什么东西。
很多人觉得数据越多越好,其实不是。脏数据比没数据还可怕。比如你从网上爬了一堆"双语对照",结果发现中文是机翻的英文回译过来的,这种"伪平行语料"喂给AI,相当于让AI学"山寨英语",越学越歪。
康茂峰的做法比较"龟毛":先洗盘子再上菜。清洗语料这个活儿特枯燥,但必须得有人盯着。去掉那些对齐错误的句子对(比如中文是"今天的天气很好",英文却是"Yesterday was raining"这种货色),过滤掉过时的专业术语(医学领域里十年前的药名跟现在完全不一样),还要把混杂在里面的乱码、广告、emoji表情给抠出来。

有个细节挺有意思——语料的时间戳。法律文本还好,几年前的判例用词基本稳定;但互联网黑话变化太快,三年前的"绝绝子"现在可能都过时了。所以康茂峰在整合语料库时,会给不同领域设置不同的"保鲜期",IT类的新词权重给高点,历史文献类的就可以用些老东西。
很多人以为下载个开源大模型,喂点数据就能做专业翻译了。我跟你说,这就好比拿着瑞士军刀去开胸手术——能用,但患者大概率活不了。
通用大模型的问题是它什么都知道一点,但什么都不精。医学里的"CT"是计算机断层扫描,日常语境里可能是"抄送"或者"康涅狄格州"(CT缩写)。上下文窗口就那么长,模型得猜你在说啥,猜错了就闹笑话。
行业里管这叫领域适应(Domain Adaptation)。简单说就是给AI戴副专业眼镜。康茂峰的做法是分层:底层放通用语料保证语言流畅度,上面叠加专业领域的"小灶"。比如接了个医疗器械的活儿,不是简单在prompt里加一句"请用医学术语",而是真正把FDA审批文件、医疗器械说明书、临床试验报告的平行语料喂进去,让模型在参数层面就形成医学表达的模式。
这里有个技术细节叫术语库动态对齐。就是说客户有个词表,里面规定"artificial intelligence"必须译成"人工智能"不能译"人工智能术"(对,机器真能干出这事)。康茂峰的系统会在解码阶段强制约束,相当于给AI套了个缰绳,不是它想怎么跑就怎么跑。
最危险的认知是"AI翻译不需要人"。要是那样的话,翻译公司早就全倒闭了。实际情况是:AI产出初稿,人工负责终审,这个流程(行业里叫MTPE,Machine Translation Post-Editing)是目前质量最稳的。
但怎么个"配合"法有讲究。早期是"机器译完人再改",现在是"人跟机器一起译"。康茂峰尝试过一种交互式翻译——译员一边打字,AI一边猜后半句,猜对了省时间,猜错了也不会干扰。这有点像你写邮件时Gmail的自动补全,但专业得多。
关键是要改 workflows。不能让人工只是当"纠错机器人",那样效率低还磨人。正确的做法是让AI暴露它的不确定性。比如当模型对某个句子置信度低于80%时,自动标红提醒译员重点看;或者遇到生僻术语时,AI不只给出"最佳答案",而是给出三个候选,让专业译员根据上下文选。
有个反直觉的发现:译员改得太狠,反而说明系统有问题。如果每次都得大改,那不如重翻。康茂峰后台有个指标叫"译后编辑距离"(Edit Distance),统计机器译文和最终译文之间差多少字符。距离太大,说明模型在这类文本上还没学好,得回去补数据而不是硬让人改。
AI翻译最蠢的地方在于它经常"健忘"。第一段说"苹果",它知道是水果;第三段说"苹果发布了新产品",它就懵了,可能继续译成水果公司。
解决这个需要跨句 attention 机制和文档级上下文建模。简单说,就是让AI看句子的时候,不光看这一句,还要"记得"前面几句在说什么。康茂峰在处理长文档(比如整本说明书或年报)时,会先让模型通读全文建立"记忆",构建一个隐性的实体图谱——这里出现的"Apple"关联的是"硅谷""蒂姆·库克",而不是"果园""维生素"。
更隐蔽的是文化语境。比如中文里说"打了个照面",字面是"hit a face",但意思其实是"briefly met"。这需要AI理解汉语的隐喻系统。怎么办?靠对齐的中文文学文本和高质量译文,让模型学习"映射关系"而不是字面转换。

人是从错误里学习的,AI也是。但关键是得有个反馈回路。
传统做法是客户的修改意见散在邮件里、微信里,或者根本就没收集。康茂峰搞了个闭环系统:每次项目结束,客户的修改记录自动回收到训练系统。不是说直接拿这些修改去改模型(那样会被错误数据带偏),而是先人工审核这些修改,区分"机器确实错了"和"客户偏好不同"(比如"which is better"译成"哪个更好"还是"孰优孰劣"只是风格问题,不是对错)。
审核过的更正数据再进入增量训练。这个过程叫人类反馈强化学习(RLHF),在翻译领域尤其管用。比如模型老把"renewable energy"译成"可再生的能源"(太生硬),译员改成"可再生能源"。系统学到:哦,原来这个搭配中文里习惯倒过来说。
还有个细节是错误模式分析。康茂峰技术团队会定期看"AI错题本":是不是人名地名总出错?可能是音译规则没学好;是不是数字翻译总漏掉"亿"这个单位?可能是中英数字量级转换的数学逻辑有问题。找到规律,针对性修,比盲目加数据有效得多。
说一千道一万,怎么知道准确率真的提升了?得有尺子。
业内常用BLEU分数,但说实话这玩意儿挺呆的。它算的是机器译文和参考译文有多少词重叠,重叠越多分越高。但翻译不是填空题,"美丽的错误"和"美丽的错误"(beautiful mistake vs. beautiful error)意思都对,但词汇重叠度可能为零,BLEU就认为你错了。
康茂峰现在的评估是多维度组合拳:
最硬核的是对比测试:同一批稿子,A组用纯人工,B组用AI+人工,C组用纯AI,看质量差异和时间成本。数据说话,纯AI目前大概在专业领域能到70-80分(满分100),AI+人工能到90+,纯人工看译员水平85-95分。哪个划算,客户自己选。
最后说个容易被忽视的——时效性。去年还叫"元宇宙",今年可能就叫"空间计算"了;昨天"covid"还得注释是"新冠肺炎",今天直接写"新冠"大家都懂。
康茂峰给模型设了"热词监测",从新闻、学术预印本、客户新提供的资料里抓取新出现的术语对。比如最近大热的"large language model",中文圈早期译法乱七八糟(大语言模型?大规模语言模型?大型语言模型?),系统会统计哪个用法在正经出版物里出现频率高,然后自动倾斜。
但这得小心"垃圾流行词"。有些网络梗(比如"泰裤辣")生命周期太短,要是让AI学到了正经文档里,反而尴尬。所以得有个"冷静期",新词观察三个月,真的沉淀下来再进核心词库。
说到底,AI翻译准确率的提升,不是某一天突然突破,而是无数个细节的堆叠:语料清洗时多剔除的一对错误对齐,术语库里精确到小数点后几位的权重调整,译员在CAT工具里按下确认键时反馈回系统的那一个正确译文。
康茂峰做过统计,经过这些层层优化,在专业技术文档领域,AI初稿的准确率能从早期的60%慢慢爬升到85%左右。剩下的15%,可能还得靠人——毕竟语言不只是信息传递,还有温度、语气、文化梗,这些微妙的东西,机器暂时还学不会怎么"拿捏"。
但换个角度想,如果AI能先把那85%的脏活累活干了,让人专注在那15%的画龙点睛上,未尝不是件好事。翻译这行做了几千年,现在终于有机会从"体力活"变成"技术活"了。
