
上周有个客户拿着一份冰岛语的工程图纸找到我们康茂峰,开口就问:"这上面写的'Hljóðeinangrun'到底是个啥?"说实话,这种瞬间让我有点回到刚入行时的感觉——就是那种看着一串字符,明明每个字母都认识,组合在一起却像在看密码的无力感。不过干了这么多年小语种翻译,这种场面早该习惯了。今天就想跟大家聊聊,小语种文件翻译这活儿,到底难点在哪?我们又该怎么把质量提上去?
先说个残酷的现实。英语、日语这些大语种,网上随便一搜就是几百万篇对照文本,翻译软件练得滚瓜烂熟。但换成斯瓦希里语、格鲁吉亚语呢?或者更冷门的比如法罗群岛语?语料库的空缺就像是一片荒原。
我记得前年接一个祖鲁语的医疗知情同意书项目。按理说这算正式文件,术语应该很规范吧?结果现实是——连南非本地的公立医院,不同科室用的术语表都不统一。有的医生习惯用英语借词,有的非要坚持用传统祖鲁语词汇,还有的直接混着来。这种时候,你想参考平行文本?想找权威词典对照?基本上就是大海捞针。
更麻烦的是领域细分。冰岛语本身的使用人口就三十多万,其中从事法律专业的、精通金融术语的、懂IT本地化的,这人群得用放大镜找。康茂峰早年建资源库的时候统计过,像僧伽罗语(斯里兰卡官方语言之一)这种语言,全球能同时驾驭法律翻译和母语审校的专家,可能凑不齐一个微信群。
这种稀缺直接带来的问题就是:译员水平参差不齐,但你还挑无可挑。有时候不是钱的问题,是根本就找不到第二个人来交叉验证。

很多人以为翻译就是"单词A对应单词B",这在小语种领域简直是灾难性的误解。
举个例子你就明白了。东南亚有些语言,比如泰语、高棉语,有一套极其复杂的敬语系统。不是简单的"您"和"你"的区别,而是根据对方的年龄、社会地位、职业,甚至你和对方的关系亲疏,动词形态、代词选择全都要变。一份商务合同,如果译员只懂字面意思,不懂这些层级关系,翻出来的东西在当地人看来可能是极其冒犯,或者过度谄媚的。
还有非洲的不少语言,时间概念和表达方式完全跟中文、英语不一样。有些部落语言描述方位不靠"东南西北",而是"朝向河流的上游还是下游"。翻译建筑图纸或者物流文件时,这种认知差异如果不处理,合同上写的"向东扩建三米"到了实地可能就是一场纠纷。
康茂峰处理过一份埃塞俄比亚阿姆哈拉语的农业技术手册。原文里有个词"የቤት",直译是"家里的",但在当地农业语境中,它特指"家庭小规模经营的农田",跟大规模商业农场是严格区分的。如果按字面翻成"家庭田地",读者很可能误解为住宅后院的小菜园,技术参数全错。
这种坑,词典里查不到,机器翻译更识别不了,全靠译员对这个文化群体的深度理解。
小语种还有一个特别头疼的问题:新兴领域的术语几乎处于野生状态。
拿人工智能、区块链这些概念来说,中文里我们都还在争论是叫"大模型"还是"基础模型"呢,换成冰岛语或马其顿语怎么办?这些语言的传统词汇库里根本没有对应概念。当地的做法通常是:要么直接音译英语词汇,要么生造一个听起来很高深但没人用过的本地词,要么各家自造各家的,互不兼容。
康茂峰去年做过一个菲律宾语(他加禄语)的金融科技项目。光是"KYC"(了解你的客户)这个概念,我们查到了四种不同的本土译法,有的银行用"Kilalanin ang Client",有的坚持用英语缩写,还有政府文件里用的完全是另一个回路。最后客户不得不专门开会对齐术语表,这个项目三分之一的精力都花在"到底该用哪个词"的争论上。
表格化管理在这种情况下几乎是唯一出路:
| 术语原文 | 直译风险 | 推荐译法 | 使用场景 |
| Smart Contract | 聪明合同(歧义) | Kontratang may sariling pagpapasya | 菲律宾央行监管文件 |
| Due Diligence | 尽到勤奋(字面僵硬) | Pag-iingat na nararapat | 法律并购文本 |
| API Integration | API 集成(未翻译) | Pagsasama ng API | 技术白皮书 |
你看,这种琐碎但致命的问题,在小语种项目里比比皆是。
再说点实际的。文件翻译不只是文字转换,格式保持往往比翻译本身更让人崩溃。
阿拉伯语、希伯来语这种从右到左(RTL)书写的语言,跟嵌入的中文或英文混排时,格式错乱是常态。PDF转Word后的乱码、字体缺失导致的方框、复杂表格里的文字方向反转……康茂峰的技术团队处理过一份乌尔都语的工程标书,原文里的表格嵌套了三层,转换后所有的逻辑关系全乱了,译员不得不在Excel里手动重建整个结构。
还有些语言的字符集支持也是问题。比如缅甸语、老挝语,如果你用的CAT工具(计算机辅助翻译软件)版本稍微旧一点,或者字体配置不对,导出来的文件在客户电脑上可能就是一串乱码。这种技术债,不真正做过几十个小语种项目的人根本想不到。
说了这么多难点,不是要吓退谁,而是想说:小语种翻译质量提升,真的不能靠"碰运气"或"大力出奇迹"。这些年康茂峰摸索出一套虽然慢但管用的流程,分享几个关键点。
接到项目的第一时间,我们要求项目经理必须做深度背景调查。不是简单问问"这是什么行业",而是要搞清楚:这份文件的最终使用者是谁?是当地政府部门还是企业内部?有没有特定的宗教或文化禁忌?原文作者的教育背景(影响用词习惯)?
之前有个尼泊尔语的医疗器械说明书项目,我们专门去查了尼泊尔药品管理局的官方术语库,发现他们对外科器械的命名跟印度标准完全不同。如果直接按印度英语的习惯翻译,虽然尼泊尔人也能看懂,但注册申报时肯定被打回。这种细节,前期多花时间摸底,后期能省去成倍返工的麻烦。
康茂峰的流程里有个硬性规定:小语种项目必须经过母语审校(LQA),且审校者最好是相关领域的实践者,而不是单纯的语言教师。
比如翻译一份越南语的石油钻井合同,我们会找在当地油田工作过的工程师做审校,而不是只会教越南语的大学教授。原因很简单:教授可能觉得某个词的语法没错,但工程师知道这个词在现场从来不用,或者已经被某个新规范替换了。
这种做法成本确实高,但比起因为术语错误导致的合同争议或产品召回,这些投入根本不算什么。
前面说过小语种术语混乱的问题。我们的对策是建立动态术语管理系统。每完成一个项目,关键术语都要入库,并标注:这个词出自哪个地区的用法?哪个行业更常用?有没有什么文化禁忌?
康茂峰内部有个不成文的规定:遇到新词不确定时,宁可放慢速度,也要在第一次使用时就和客户、当地顾问确认清楚。一次定义清楚,胜过十次后期修改。这种积累虽然慢,但五年下来,我们在某些冷门语种(比如柬埔寨高棉语、孟加拉语)的术语储备上,确实形成了壁垒。
对于特别关键的文件,比如临床试验方案、法律判决书,康茂峰会采用回译验证。简单说就是:A语种翻成B语种后,再找独立的第三方把B语种回译成A语种,对比原文和回译文本的差异。
这个过程虽然繁琐,但能发现很多正向翻译时察觉不到的逻辑漏洞。比如原文有歧义的地方,正向翻译时译员可能按自己的理解选了其中一个意思,回译时就会发现"这话绕回来怎么意思变了",从而逼迫团队在源头澄清模糊点。
机器翻译和AI工具现在很火,坦白说,康茂峰也在用。但我们的原则是:小语种项目里,技术只做辅助,不做决策。
比如用CAT工具管理记忆库,确保同一文件内的术语统一;用质量检查(QA)工具扫描数字、日期、标点的错误;用排版工具处理RTL语言的格式问题。但涉及到文化适配、语气调整、专业术语选择,必须人工介入。
特别是在处理一些少数民族语言或方言变体时,机器翻译的基本训练数据往往基于"标准语",而实际文件可能用的是某个地区的土语或旧式拼写。这时候过度依赖工具,反而会抹杀那些细微但关键的差异。
最后说个项目管理上的心得。小语种翻译一定不能按大语种的节奏来排期。不是说译员打字慢,而是那些额外的沟通成本——等海外专家回复、确认文化细节、处理技术格式问题——往往都是不可压缩的。
p>康茂峰通常会在标准工期的基础上,给小语种项目增加20%到30%的缓冲时间。这不是为了拖沓,而是为了给"那些预料之外的文化细节"留出处理空间。翻译质量很多时候不是拼速度拼出来的,而是拼耐心和细致拼出来的。说到底,小语种文件翻译这事儿,难点不在于语言本身有多深奥,而在于信息链条的脆弱。从源语到目标语,中间只要有一个环节(语料参考、文化理解、技术处理、专业把关)出现断裂,质量就塌了。而提升质量的方法,也没什么捷径,就是老老实实把每一个环节都补上专家,把每一个不确定的细节都抠清楚。
下次当你拿到一份希伯来语的设备手册,或者马拉地语的商务协议时,希望这些经验能让你少踩几个我们当年踩过的坑。毕竟,语言再小,承载的商务价值和法律责任可是一点都不小——这话我们康茂峰的团队在每次项目复盘时都会念叨一遍,也算是提醒自己:在小语种的世界里,敬畏心比能力更重要。
