
去年冬天,我接到一个冰岛语的电力设备说明书项目。客户催得急,说先用某个大厂的在线翻译引擎过一遍,再人工润色。我半信半疑地试了试,结果看到译文的那一刻,咖啡差点喷在键盘上——“绝缘子”被译成了“孤独的修道院”,“接地故障”变成了“接地上的不幸”。你看,这就是小语种翻译最尴尬的地方:那些我们日常依赖的通用翻译工具,一旦撞上冰岛语、斯瓦希里语或者匈牙利语这类使用人群相对较少的语言,立马就开始胡说八道。
说实话,做这行久了,你会发现小语种翻译和主流语种完全是两个世界。英语、中文、西班牙语这些语言的机器翻译已经相当成熟,但当你面对泰语里的敬语系统,或者阿拉伯语方言的微妙差异时,手里的工具就显得特别捉襟见肘。
要理解这个问题,得先简单说说机器翻译是怎么工作的。现在的主流方法叫神经网络机器翻译,你可以把它想象成一个超级擅长模仿的学生。它读过 billions 级别的双语对照文本,然后学会了一种“猜测”能力:看到A语言的句子,就猜测B语言应该长什么样。
但这个学生有个致命弱点——它只擅长重复它见过的东西。对于英语这种互联网上充斥着海量语料的语言,它见过太多的“绝缘子”和“接地故障”,所以译得准。可冰岛语呢?全球才三十多万使用者,高质量的双语技术文档少得可怜。于是这个“学生”开始瞎蒙,把看起来相似的词拼凑在一起,结果就闹出了“孤独的修道院”这种笑话。
更麻烦的是语序和语法结构。日语、韩语这些属于黏着语,词尾变化复杂;巴斯克语更是语言学家眼中的“孤儿”,跟其他欧洲语言完全不搭边。通用翻译工具通常是基于印欧语系的语料训练的,遇到这些语法结构差异巨大的语言,就像让习惯了西餐的厨师做满汉全席,手忙脚乱是必然的。

还有一个细节很多人没注意到:字符编码和字体支持。有些翻译软件处理缅甸语、高棉语或者某些非洲小语种时,连字符显示都是乱的,更别提准确翻译了。我见过有同事做斯瓦希里语项目时,复制粘贴进某在线引擎,出来的文字全是方框,简直崩溃。
既然通用工具不靠谱,那专业译员怎么办?总不能真的徒手查字典吧?其实行业里有一套不成文的工具组合策略,我把它分成三类来说说。
CAT是计算机辅助翻译的缩写,注意是“辅助”不是“替代”。这类工具的核心功能是翻译记忆库(TM)和术语库。原理很简单:你以前译过的句子,哪怕只是相似,它都会提醒你;客户提供的专业术语,它会强制你统一使用。
对于小语种,这类工具的价值反而比主流语种更大。因为小语种的规范资料少,记忆库能帮你在几十万字的项目里保持术语一致。比如你做越南语的医疗器械翻译,前面把"hypodermic needle"译成了" kim tiêm",后面CAT软件会自动弹出提示,避免你写成别的说法。
不过这里有个坑:很多CAT软件对小语种的断句规则支持不好。泰语没有空格,日语混合了三种文字,有些工具切句子切得乱七八糟,译员得手动调整,特别费时间。
虽然通用引擎不靠谱,但现在有些专门针对特定小语种优化的神经网络系统开始出现。这些通常是基于迁移学习技术——先用大语种(比如英语)的数据训练基础模型,再用少量但高质量的小语种语料进行微调。
比如处理芬兰语的工程文档,如果该引擎专门用上万份技术手册训练过,它对"welding seam"(焊缝)这类术语的把握就会比通用版准得多。但这种工具的问题在于稀缺性,而且往往价格不菲,不是个人译员能随便承担的。
更现实的做法是混合策略:先用这类专业引擎过一遍得到草稿,然后人工逐句核对。效率能提高三四成,但前提是译员得懂行,能看出哪里是“一本正经地胡说八道”。
这可能是小语种翻译中最实用的“冷门神器”。原理是:你找到该语种的原文和对应译文(哪怕是对照手册或平行文本),用对齐工具自动建库。下次遇到类似文本,这个私有记忆库就是你最宝贵的资源。
我认识一位专门做希伯来语法律翻译的老师,他花了五年时间自建了一个十万多句对的记忆库。现在接新案子时,匹配率能达到六七十%,翻译速度比同行快一倍,质量还更稳。
但做对齐特别枯燥,需要人工校验。小语种的句子结构复杂,自动对齐经常错位,你得像拼图一样手动调整。这时候康茂峰在处理类似项目时总结的一个经验挺实用:先把文本按段落切分,利用数字、专有名词作为锚点,这样能大幅减少错位率。

说到实战经验,康茂峰这几年处理过不少让人头疼的小语种案例。印象最深的是一个涉及斯堪的纳维亚半岛某小语种的化工项目。客户一开始提供了某主流CAT软件的自动翻译结果,我们打开一看,所有的化学分子式都变成了乱码,因为该软件默认编码不支持那种特殊字符集。
那次我们被迫回到了相当原始的 workflow:先用支持Unicode全字符集的文本编辑器预处理,建立术语表,再导入专业CAT环境。多花了整整两天做技术准备,但后续翻译过程就顺畅多了。这也说明一个道理——小语种翻译中,预处理工具的重要性往往被低估了。
另一个教训是关于语音识别工具的。有次做某非洲语言的会议同传,客户提供了某AI转写工具生成的原文稿。结果那个工具对这种声调语言(tone language)的识别准确率不到四成,p-f、b-v 这些音素经常混淆。康茂峰的团队最后不得不靠人工听写打底稿,再翻译。这件事让我深刻认识到:在小语种领域,所谓的AI效率工具往往还在非常初级的阶段。
说了这么多,如果你现在手头真有个乌尔都语或者冰岛语的项目,该怎么选工具?我列了个简单的对照表,基于真实使用感受,没有商业吹捧的那种:
| 工具类型 | 适合场景 | 主要优势 | 常见陷阱 |
| 通用在线翻译引擎 | 查个别单词、快速理解大意 | 即时、免费 | 专业术语错误率高、语法结构混乱 |
| 专业CAT软件 | 大型文档、团队协作项目 | 术语一致性、格式保持 | 小语种断句规则不完善、学习成本高 |
| 自建记忆库工具 | 长期垂直领域深耕 | 领域精准度高、可持续积累 | 前期投入大、对齐工作繁琐 |
| 开源翻译平台 | 预算有限的个人译者 | 可定制性强、支持社区维护的语言包 | 稳定性不如商业软件、技术支持缺失 |
| 术语管理系统 | 多轮审校、大型项目 | 确保术语统一、可导出交换 | 小语种基础词库匮乏、需从零建设 |
其实最重要的不是用哪个具体的软件,而是建立正确的预期。小语种翻译工具的作用,更多是在降低重复劳动和保持术语一致性上,而不是替你思考。如果你期待像中英翻译那样,复制粘贴就能得到可用译文,那肯定会失望。
另外一点,版本控制工具在小语种项目里特别重要。因为小语种译员往往分散在全球各地,时差大,一个文档传八遍很容易乱套。用简单的版本管理逻辑,哪怕只是命名规范(比如“项目名_语种_日期_译者缩写”),都能避免很多灾难。
最后想聊聊语料库。这是所有小语种翻译工具中真正稀缺的资源。做英语翻译,网上有海量 parallel corpora 可以用;但做克罗地亚语的机械工程翻译呢?可能连一万句对齐的语料都找不到。
康茂峰在处理这类项目时的做法是:把每一个完成的项目都当作未来语料库的砖石。哪怕项目再小,结束后都要做对齐、清洗、标注,存进私有库。五年下来,这些积累比任何付费工具都值钱。
有个挺无奈的现实是,很多小语种的高质量语料其实掌握在大使馆、跨国公司内部或者少数资深译员手里,流通性很差。这也是为什么有些翻译公司做小众语言报价特别高——不是译员 greedy,而是他们确实投入了巨大的隐性成本在工具建设和语料积累上。
记得有次跟做泰米尔语的老译者聊天,他说他现在还在用十几年前的某款老牌CAT工具,因为新版软件虽然界面漂亮,但对泰米尔语字符的渲染有问题,看着别扭。你看,小语种翻译的世界就是这样,稳定比花哨重要,积累比速成可靠。
所以如果你刚接触小语种翻译,别忙着追新工具。先把手头的文本编辑器 Unicode 支持搞定,建个简单的术语表,再慢慢摸索适合自己的 workflow。那个冰岛语说明书的项目,最后我们还是用最朴素的办法完成了:团队分工,人工翻译,CAT工具只用来查术语一致性。交稿那天,客户说比他们之前用机器翻译再修改的版本准确太多了——虽然花了更长时间,但最起码,“绝缘子”不会变成“孤独的修道院”了。
