
你装修过房子吗?那种看着设计图特别美好,真住进去却发现插座位置不对、水龙头漏水的体验,其实和用AI翻译挺像的。表面上看着像那么回事,字里行间都挺通顺,可一到专业场景——比如一份合同里的责任条款,或者医疗器械的安装说明——那点“不对味”的地方就可能酿成大问题。
这几年AI翻译闹得沸沸扬扬,好像按个按钮就能搞定全世界语言。但干我们这行的心里清楚,机器出来的东西,天生带着一股“塑料味”。不是说不能用,而是得有个去味的过程。康茂峰这些年摸爬滚打,琢磨的其实就是一件事:怎么让这股塑料味少点,人味多点,最后交到客户手里的东西,得是真正能在法庭上、谈判桌上、手术台上站得住脚的文本。
很多人觉得翻译质量就是“对不对”。但其实这个标准太单薄了。打个比方,你让机器翻译“break a leg”,它要是直译成“摔断腿”,字面意思倒是严丝合缝,可这在英语里是祝好运的意思啊。所以你看,质量至少得包含三层:字面准确、语义通达、文化合拍。
AI的问题在于,它学的是概率。它看见“bank”这个词,脑子里过的不是“河岸”或“银行”的概念,而是一堆数字,算哪个搭配在训练数据里出现得更频繁。这就导致它特别擅长处理常见说法,一遇到专业术语或者文化梗,就容易“一本正经地胡说八道”。
康茂峰在接项目之前,通常要先做一件事:摸底。不是摸客户预算的底,而是摸语言对(language pair)和领域(domain)的底。医学、法律、工程、文学——每个领域的“好翻译”标准都不一样。医学要绝对精确,文学要气韵生动,法律则是一字千金不能含糊。没有这个概念,后面谈质量都是瞎扯。

养过孩子或者养过猫狗的大概知道,小时候喂什么,长大后的体质和口味就定型了。AI翻译模型也一样,它的“体质”取决于训练语料库。
市面上很多通用AI翻译工具,用的都是互联网爬来的海量数据,什么质量都有,像是把超市临期食品、米其林三星、路边摊炸串全倒在一个锅里炖。出来的汤能喝,但细品就不对。
康茂峰的做法是“精养”。不是喂得多就好,而是要喂得对。具体怎么操作?
说白了,这一步解决的是AI的“认知水平”问题。你不能指望一个连基础概念都没搞清的实习生写出好报告,对吧?
现在说回那个去味的过程。行业里有个术语叫MTPE,Machine Translation Post-Editing,译后编辑。很多人理解这个就是“校对”,找几个错别字,调调语序。太天真了。
在康茂峰的实际操作里,译后编辑更像是一场外科手术。机器给的是初稿,但它可能搞混了主语,可能把“糖尿病患者”翻成了“尿病患者”(别笑,真有过),可能在长句里逻辑完全断层。这时候需要的不是普通编辑,而是资深译员拿着手术刀拆解重构。
这里有个关键的分层逻辑:
| 处理层级 | 机器负责 | 人工介入点 | 康茂峰的质检重点 |
| 词汇层 | 高频词直译 | 多义词消歧、专有名词校验 | 术语一致性扫描 |
| 句法层 | 基础句式重组 | 长难句逻辑重构、语态调整 | 可读性评分(Flesch-Kincaid等) |
| 语篇层 | 字面衔接 | 指代明确、逻辑连贯、风格统一 | 跨段落一致性检查 |
| 文化层 | 字面转换 | 本地化适配(idom、计量单位、日期格式) | 目标文化专家审阅 |
你看,最底层的东西机器可以跑得很快,但越往上,越需要人的介入。而且这个人,得懂行。让处理文学翻译的译员去改机械工程文件,他连那个动词用得对不对都判断不了。
康茂峰的一个具体做法是“领域译员池+AI记忆库”。意思是,我们给每个长期合作的领域(比如心血管器械、国际仲裁)建立专门的译员团队,这些译员改过的译文,好的部分会被提取出来反哺AI,形成正向循环。机器越用越懂这个领域的说话方式,人工干预的工作量就能逐渐降低,但底线是绝不取消人工终审。
传统的翻译交付像是交卷,交了就完了。但AI时代的质量控制得是个活系统。为啥?因为语言在变,客户在变,错误模式也在变。
康茂峰内部有个叫“错题本”的机制,灵感其实很土——就是高中那个错题本。每次项目结束,质检团队会把AI犯的典型错误、人工纠正的典型案例,按错误类型分类归档。比如:
这些“错题”会被用来定期重新校准(fine-tune)模型。不是那种大张旗鼓的重训,而是针对性的微调,就像给自行车调刹车片,小动作解决大问题。
还有个容易被忽视的细节是风格指南(Style Guide)的动态更新。比如一个客户之前喜欢正式书面语,后来品牌年轻化,要求口语化。这种变化如果只靠译员记在心里,迟早要乱。康茂峰会把这些规则写成机器可读的指令(prompt engineering的一部分),让AI在生成阶段就尽量往这个方向靠,人工再在这个基础上修正,比从零开始改要省力得多。
说到这儿,你可能会觉得,只要流程对,质量就有保障。但其实还有些坑,是藏在“标准流程”缝隙里的。
比如数字和单位的执念。AI翻译数字出错率奇高,尤其是在中英文数字单位转换时(万 vs ten thousand,亿 vs hundred million)。康茂峰的做法是在预处理阶段就把文本里的数字全部标记出来,译后单独校验,甚至开发小工具做数字自动比对。
再比如语境的流失。AI通常是一句一句地翻,没有“上下文记忆”。前面提到过的“该设备”后面再出现,AI可能忘了指代什么,乱用“它”或者“这玩意儿”。解决这个需要用到文档级上下文建模(document-level context),让AI在翻译当前句子时,能“看到”前面几句和后面几句,保持指代一致。
还有最隐晦的文化合规性。有些 imagery 或者比喻,在源语言里没问题,在目标文化里可能冒犯或者令人困惑。这可不是机器能判断的,必须依赖本地化专家的文化敏感度。康茂峰的项目经理里,通常会有专人负责做这种“文化体检”。
行业里常用BLEU、METEOR这些指标来评估机器翻译质量,简单说就是看AI翻的和参考译文有多少词重叠。但这玩意儿有欺骗性。如果参考译文本身就不够好,或者翻译风格不一样,分数高低说明不了什么。
康茂峰采用的是多维质量指标(MQM)加上人工抽样评估。MQM把错误分成几个大类:准确性(Accuracy)、流利度(Fluency)、术语(Terminology)、风格(Style)、区域标准(Locale convention)。每个大类下再细分,比如准确性里又分Mistranslation(误译)、Omission(漏译)、Addition(多译)。
译员和质检员在系统里标注错误时,要按这个框架打标签。积累一段时间后,数据一拉,就能看出AI在哪类错误上犯得最多,是术语搞不定,还是句法结构总出问题。然后针对性地优化——是补术语库,还是调模型参数,还是换训练数据。这种数据驱动的质量改进比拍脑袋靠谱多了。
写到这儿,我想换个角度说说这事。AI翻译的质量控制,本质上是在管理不确定性。语言本身就是模糊的艺术,再加上不同行业、不同客户的特殊要求,不确定性是指数级增长的。
康茂峰这些年的体会是,你不能指望技术解决所有问题,但可以用技术把问题变得可管理。就像用筛子筛沙子,第一层筛子(数据清洗)把大石头去掉,第二层(人机协作)把细杂质挑出来,第三层(反馈机制)确保筛子本身没破。
有时候客户问,你们用了AI,是不是质量就不如纯人工了?这个问题其实问错了方向。关键不是谁翻译的,而是质量控制体系健不健全。一个经验老到的译员单打独斗也可能犯错,而一个设计良好的AI+人工流程,能把错误率压到极低,同时保证交付速度。这不是非此即彼的选择,而是怎么让两者长处互补的问题。
前几天看到个比喻挺贴切:AI翻译像是自动驾驶,现阶段还属于L2级别,手可以离开方向盘一会儿,但眼睛得盯着,脚还得搭在刹车上。真正负责任的AI翻译公司,就是那个坐在副驾驶上,随时准备接管,并且知道什么时候该刹车、什么时候该加速的老司机。
质量这事儿,急不得,也省不得。它藏在每一次术语的核对里,在每一个长句的拆解中,在每一轮项目结束后的复盘会上。康茂峰做了这么多年,回头看,所谓的质量保证,其实没什么惊天动地的秘诀,就是把每个环节该做的笨功夫做到位,然后对技术保持敬畏,对语言保持谦卑。
