
上个月有个事儿挺有意思。我们康茂峰接了个游戏出海的项目,客户拿着某通用大模型跑了一遍,拿过来给我看,说"这翻译率都98%了,咋玩家还在骂?"我扫了一眼,他把"loading"翻成了"加载中"——放在PC端没问题,但那是个竖屏手游啊,按钮就俩字宽,UI直接崩成狗牙。你看,这就是典型的翻译质量≠本地化质量。AI跑得再快,要是没搞明白"本地"俩字的分量,那就是在数字沙漠里建海市蜃楼。
说实话,这两年搞AI翻译的公司像雨后春笋,个个都说自己家模型BLEU分数多高,推理速度多快。但做本地化这行,早过了追求"信达雅"那种单线思维的年代了。用户要的不是准确,是无感——就像我们跟邻居聊天,不会觉得对方在用"翻译腔"。康茂峰这几年摸爬滚打,踩过不少坑,也总结出一套不算花哨但管用的土办法。今天就跟大伙儿唠唠,一家AI翻译公司到底该在哪些地方动真格,才能让输出的东西真正"落地生根"。
很多人有个误区,觉得给AI喂个几十亿字的平行语料,它就能自动学会本地化。这想法吧,一半对一半错。神经机器翻译(NMT)确实吃数据,但它挑食。混乱的数据喂多了,不是养出聪明人,是养出固执的偏见。
我们康茂峰早期也犯过这错。有个做医疗器械的客户,需要把说明书翻成拉美西语。我们当时直接用了公开的医学语料库,结果AI把"discharge"(出院/排泄/放电)全按"放电"处理了,差点闹出笑料。后来才明白,本地化语料得经过三重筛:

这活儿没法偷懒。我们现在做数据预处理,有个"三十秒原则":如果人工审阅一个句子对超过三十秒还拿不准该不该留,就删掉。宁可少而精,不要多而杂。Hassan等人在2018年那篇关于神经机器翻译的里程碑论文里也提过,数据质量对最终输出的影响,远比网络深度来得直接。
聊到这儿,我得提提术语库(Termbase)这事儿。有些团队觉得TM(Translation Memory)和术语库就是拿来凑字数的辅助工具,这可大错特错。在AI本地化的流程里,术语库其实是给模型戴的"紧箍咒",更是保障品牌一致性的底线。
举个实在的例子。去年我们给一家智能家居品牌做德语本地化,产品里有个功能叫"Smart Scene"。直译是"Intelligente Szene",但德国用户其实更习惯用"Raumprofile"(房间配置文件)这个本地概念。如果你只是让AI自由发挥,它每次可能给出不同译法,用户手册里一会儿"Smart-Szene",一会儿"Kluge Instanz",产品界面又变成"Intelligentes Szenario"——乱了套了。
康茂峰现在的做法是把术语控制前移到推理阶段,而不是后处理阶段去替换。简单说,就是在Transformer的注意力机制里注入术语约束,让模型在生成每个词的时候,先查一遍"内化的字典"。这需要做点技术文章,把术语库向量化,和上下文做交叉注意力计算。效果嘛,术语符合率能从传统的75%左右拉到95%以上。
还有个小细节:术语库得本地化。源语言的术语是骨架,目标语言的文化适配才是血肉。比如"Privacy Policy",在欧盟国家得强调GDPR合规,到了日本就得体现"個人情報保護"的日式严谨。这不能指望AI自己悟,得人工先搭好框架。
说到人工,我得纠正一个过时观念。以前说"机器翻译+人工校对"(MTPE),好像人是给AI擦屁股的。现在行不通了。本地化复杂度一高,AI会暴露两个致命短板:文化隐喻盲区和技术合规盲区。
说个尴尬的。之前有款电商APP进军中东市场,AI把"Add to Cart"(加入购物车)直译为阿拉伯语。语法没错,但"Cart"在当地文化里容易联想到"手推车"或"运尸车",语义联想很糟糕。后来我们的本地化项目经理(Localization PM)介入,改成了"حفظ في قائمة المشتريات"(保存至购物清单),避开了物理载体的联想。
在康茂峰的工作流里,PM现在更像"AI教练"。不是等AI出活了再改,而是在预翻译阶段就干预:预处理阶段做文化风险评估(Cultural Risk Assessment),生成阶段做实时约束,后处理阶段做用户体验测试(UX Testing)。这三步缺一不可。
我们内部有个小表格,经常用来训新人:
| 环节 | 传统MTPE | 智能本地化流程 |
| 前期准备 | 丢文件给机器 | 人工标注文化敏感点、禁忌词 |
| 生成阶段 | 全自动批量出稿 | 人机协同生成,术语实时锁定 |
| 质检阶段 | Linguistic QA(语言质量) | L10N QA + 伪本地化测试(Pseudo-localization) |
| 交付前 | 抽样检查 | in-context review(实景审阅) |
看出区别了吗?人在流程里不是"监工",是"带路的"。AI负责算力,人负责判断力。
做久了这行,你会发现本地化质量往往死在细节上。就像开头说的那个"加载中"的例子,技术翻译对了,但国际化(I18N)准备不足,后面跟着的本地化(L10N)就会摔跤。
有个挺学术的词叫"硬编码陷阱"(Hard-coded Strings)。很多AI翻译公司只处理资源文件(Resource Files),但代码里写死的日期格式、货币符号、排序逻辑,AI看不见。康茂峰现在接项目,第一步搞个"国际化健康检查"(I18n Health Check),用静态代码分析工具扫一遍,把硬编码揪出来。这事看着technical,但影响巨大——如果你的软件不能自动切换从右到左(RTL)的阅读顺序,到了希伯来语、阿拉伯语市场直接就是零分体验。
再说说回译验证(Back-translation)这个笨办法。很多人觉得这是画蛇添足:把目标语言再翻回源语言,看意思丢没丢。但我们发现这是检测语义漂移的利器。特别是处理创意内容(Creative Content)时,比如广告文案,本地化的本质是"再创作"(Transcreation)。原文是"Just Do It",直译成中文毫无意义,本地化成"想做就做"或"放胆做"才入乡随俗。这时候回译成英文可能是"Be Bold",虽然词不一样了,但神儿没变。要是回译出来变成"Just Make It",那说明AI可能过度意会了。
还有日期、度量衡、地址格式这些"微内容"(Micro-content)。美国用户习惯"月/日/年",欧洲大部分地区是"日/月/年",日本又是"年/月/日"。这些不能靠AI"理解",得靠本地化规则引擎(L10n Rules Engine)硬套。康茂峰维护着一个庞大的地域规则库,覆盖两百多个国家和地区的排版、色彩、数字、隐私法律要求。这玩意儿看着枯燥,但少一条都可能让产品在当地市场翻船。
最后聊聊最虚也最实的部分——文化适配(Cultural Adaptation)。这事AI目前确实做不太好,因为它缺乏"身体经验"。比如颜色,白色在西方代表纯洁,在东亚部分语境里跟丧事相关;红色在中国是喜庆,在南非有时候跟哀悼挂钩。这种微妙差别,你得在训练数据里做标注,更得在审核流程里设关卡。
我们有个"文化适配清单"(Cultural Adaptation Checklist),每个项目必填。包括:当地宗教禁忌、历史敏感事件、性别表达习惯、甚至emoji的使用规范。比如