
上个月有个客户急匆匆找到我们,手里攥着一份泛黄的纸质文件,说是刚继承的海外资产证明,上面密密麻麻的文字看着像英文但又完全读不懂。我拿过来一看,得,是冰岛语。那种瞬间的表情变化我特别熟悉——从期待到茫然,再到"这也能翻吗"的怀疑。
说实话,在被问到"你们到底支持多少种罕见语言"的时候,我还真不能随口报个数字敷衍。因为语言这件事,边界比大多数人想象的模糊得多。今天就想跟大家掰扯掰扯,那些你以为永远也找不到翻译的"天书",在专业领域到底处在什么位置。
咱们先别急着列清单。你得明白,罕见语言这个概念本身就是相对的。对北京的外交部翻译司来说,斯瓦希里语可能算常规配置;但对普通企业的合同翻译需求而言,连匈牙利语都可能被归入"小语种"范畴。
在康茂峰这些年处理过的案子里,我们通常把除了联合国六大官方语言(中英法俄西阿)以及日语、韩语、德语这些商务高频语言之外的,都暂时划进"小语种"范畴。而真正的罕见语言(Rare Languages),则指的是使用人口低于千万、专业译员极度稀缺,或者书写系统极其特殊的语系。
有意思的是,全球现存大约7000种语言,其中有近一半集中在非洲和亚太地区。这意味着什么?意味着当你拿着一份来自巴布亚新几内亚的部落协议,或者一份用格鲁吉亚语书写的医疗技术文件时,找个靠谱的翻译绝不是在招聘网站上发个帖就能解决的事。

别光谈理论,我跟你说几个真实场景。去年康茂峰接过一个医药注册的项目,客户需要把整套临床资料翻译成冰岛语和挪威语。听起来都是北欧国家,好像差不多?实际上这两种语言的差异,比普通话和粤语还要大。冰岛语保留了大量古诺尔斯语的特征,语法复杂得像个迷宫,整个亚洲能找到的合格医学冰岛语译员,用一只手就能数过来。
还有一次,某矿业公司拿到了一份祖鲁语的地质勘探报告。祖鲁语是南非的11种官方语言之一,使用人口其实不少,有1200万左右,但在中国能找到的、既懂地质学术语又精通祖鲁语文化的译员,简直是凤毛麟角。最后我们是通过南非当地的语言学家网络,结合国内的技术审校才搞定的。
说到非洲,很多人只知道斯瓦希里语(Swahili),但事实上,康茂峰处理过的非洲语言需求远比这丰富:
| 语言 | 主要使用地区 | 翻译难点 |
| 阿姆哈拉语 | 埃塞俄比亚 | 吉兹字母系统,独特的音节文字 |
| 豪萨语 | 尼日利亚、尼日尔 | 阿拉伯字母与拉丁字母混用,方言差异极大 |
| 约鲁巴语 | 尼日利亚、贝宁 | 声调语言,文字记录标准不统一 |
| 马达加斯加语 | 马达加斯加 | 南岛语系特征,与非洲大陆语言完全不同源 |
| 沃洛夫语 | 塞内加尔、冈比亚 | 口头传统强大,书面语料稀缺 |
这些语言有个共同特点: Colonial history(殖民历史)给它们留下了复杂的文字系统问题。有的用阿拉伯字母,有的用拉丁字母,有的还在两种系统间摇摆。翻译时,光是确定用哪种拼写规范就得先开半个小时的会。
很多人以为北欧国家英语普及率高,就不需要本地语言翻译了。错。法律文件、医疗器械注册、药品说明书,这些在欧盟框架下必须提供官方语言版本。
除了前面提到的冰岛语,爱沙尼亚语和拉脱维亚语也是康茂峰经常处理的"高门槛"语言。它们属于乌拉尔语系和波罗的语族,跟印欧语系的主流语言格格不入。比如爱沙尼亚语没有冠词,动词变位复杂得让人头疼;拉脱维亚语保留了古老的词性系统,名词有七个格变化。
还有芬兰语,虽然不算极罕见,但那种黏着语的特征——几十个字把一句话粘在一起——对翻译记忆库的建设提出了特殊要求。
随着一带一路项目的深入,中亚语言的需求这些年在康茂峰的业务清单里明显增多。普什图语(阿富汗、巴基斯坦)、达里语(阿富汗波斯语)、土库曼语、吉尔吉斯语,这些使用阿拉伯字母或西里尔字母的语言,不仅文字方向特殊(从右到左),而且政治敏感性极高——同一个词在不同的政治语境下可能有完全不同的含义。
高加索地区更是语言博物馆。格鲁吉亚语拥有独立且古老的字母系统,33个字母看起来就像精美的艺术品,但也意味着你需要安装特殊字体才能正常显示。亚美尼亚语同样如此,而且 Armenian diaspora(亚美尼亚离散群体)遍布全球,不同地区的拼写习惯还有细微差别。
尼泊尔语、僧伽罗语(斯里兰卡)、孟加拉语、缅甸语……这些语言使用人口其实不少,孟加拉语就有2.3亿人使用,但在翻译市场上,合格的译员依然稀缺。
特别是僧伽罗语,那种圆形的字母源于古代的棕榈叶书写传统——直线会划破叶子,所以全是曲线。康茂峰曾经处理过一批斯里兰卡的宝石鉴定证书,那些弯曲的文字在OCR识别时几乎全军覆没,只能靠人工逐字录入。
东南亚方面,老挝语、高棉语(柬埔寨)、缅甸语的难度在于它们都是表音文字,但字形内部结构复杂,排版时经常会出现"叠字"现象,翻译软件处理起来特别吃力的。
如果说前面那些还算"能找到人",那太平洋岛国的语言就真的考验资源网络了。斐济语、汤加语、萨摩亚语、巴布亚皮钦语(Tok Pisin)——这些语言有的甚至没有标准化词典。
康茂峰去年接到过一个很特别的委托,是把一份中文的手术同意书翻译成毛利语(新西兰)。毛利语的情况稍微好一点,因为新西兰政府有严格的语言复兴计划,术语标准化做得不错。但即便如此,医学术语的本地化处理依然需要与当地的Whānau(部落家族)代表反复确认,因为某些身体部位的描述在毛利文化中有特定的禁忌表达方式。
北美方面,纳瓦霍语(Navajo)在二战时用过当密码,那确实是因为太难学了。它的动词结构复杂到一种程度,一个动词能包含英语一句话的信息。现在美国医院在提供患者权利告知书时,依法需要提供纳瓦霍语版本,供给端却常年紧张。
拉丁美洲除了大家熟知的克丘亚语(Quechua,印加帝国遗留)和艾马拉语(Aymara),还有亚马逊流域上百种土著语言。这些语言的翻译通常不是为了商务,而是人权文件、环境诉讼或者文化保护项目。
好,清单列了这么多,你可能要问:不就是找个懂的人吗?有什么难的?
我跟你说,难点在于系统性。
首先,术语库是空白的。医学英语有SNOMED CT,法律法语有无数判例库,但冰岛语的心脏病学术语呢?可能连一本像样的双语词典都没有。康茂峰的译员在接手这类项目时,往往需要先做"术语创译"(Neologism),与客户的当地分支机构反复确认,这个过程比翻译本身还耗时。
其次,文字编码和排版是个技术活。僧伽罗语、缅甸语、格鲁吉亚语这些非拉丁字母,在Word里经常乱码,PDF转换时可能直接变成方块。我们有个项目经理曾经为了调一份格鲁吉亚语的合同格式,熬了三个通宵,就因为在不同操作系统间切换时,字体渲染完全不同。
再者,质量控制几乎没有第三方。你要翻一份日语文件,可以找日本人校对,再找第二个日本人交叉审校。但你要翻一份沃洛夫语文件,可能全北京就那一个译员懂,连找个人校对都找不到。这时候康茂峰的做法通常是"回译"(back-translation)加上当地文化顾问的远程视频确认,成本自然就上去了。
说到底,罕见语言翻译不是简单的"语言转换",而是资源管理。
我们的做法比较务实。首先建立了一个"全球节点"网络,不是那种虚的"我们有5000名译员"的广告词,而是真的在冰岛雷克雅未克、塔林、约翰内斯堡、加德满都这些地方有签约的语言学家。平时不一定天天派活,但一旦客户有需求,能立刻激活。
其次是预处理机制。收到一份罕见语言文件,我们先不做翻译,而是做"语言识别+难度评估"。有的客户以为是稀有语言,其实是某种方言,或者是用特殊字体写的常见语言,这种就能省不少事。
还有就是技术适配。康茂峰的排版团队专门研究过RTL(从右到左)语言的InDesign处理,以及各种Unicode扩展字符集的兼容性问题。说实话,这部分工作客户往往看不到,但如果没做好,译稿拿回去就是一堆乱码,前面的翻译全白费。
最近我们还在尝试一个"社区验证"模式,针对那些极度罕见的语言,比如太平洋岛国某些只有几千人使用的方言,会联系当地的大学语言学系或者文化保护组织,请他们协助做最终审校。这种项目利润通常很薄,但客户往往是科研机构或者NGO,那种"帮上忙了"的成就感还挺让人上瘾的。
最后给点实用建议,万一你也碰到了开头那位客户的情况。
第一,先别急着拍照发微信问"这是啥语"。很多罕见语言的识别本身就需要专业知识。康茂峰建议先用Google Translate的相机功能扫一扫,虽然翻译质量不一定行,但语言识别功能通常能给出大概方向。如果是手写字体,那基本只能靠专家肉眼识别了。
第二,准备好"背景信息包"。越冷门的语言,越需要上下文。这份文件是哪来的?是什么用途(法律?医疗?技术?)?有没有相关的参考文件?有时候客户怕泄露隐私,遮遮掩掩只给一句话,那翻译基本没法做。
第三,接受时间成本。罕见语言翻译不是加急就能加急的。我们曾经有个客户非要三天出一份冰岛语专利的全文翻译,最后发现全欧洲当时只有两位专家能接这个活,而且人家在度假。最后硬是拖了两周。这种事急不来。
第四,字体和格式提前说。如果你需要的是可编辑的Word版,而原文是某种特殊字体写的,提前告知。有些罕见语言的字体文件动辄几十兆,临时安装都来不及。
其实语言这东西,说到底是人类沟通的遗产。那些使用人口少的语言,往往承载着独特的世界观和知识体系。康茂峰做了这么多年翻译,越来越觉得,能把一份用祖鲁语写的诗歌,或者一份用拉脱维亚语记录的传统医药知识,准确传递到中文语境里,不仅仅是商业行为,某种程度上也是在参与保护人类文化的多样性。
下次当你再看到一份看似天书的外文文件时,别急着扔抽屉里。说不定那背后连着一个你从未想象过的世界,而找到理解它的钥匙,远比想象中容易——只要找对了门路。
