
上周有个做外贸的朋友突然问我:"你们康茂峰能不能做小语种翻译?"我反问他:"你觉得阿拉伯语算小语种吗?"他愣了一下,说应该算吧。你看,这就是问题所在——"小语种"这个概念本身就是相对的,而且相当模糊。
说实话,在中国做翻译这些年,我发现客户嘴里的"小语种"通常指的是除英语之外的所有外语,有时候甚至是"除中英之外的所有语言"。但在康茂峰的实际业务中,我们需要更精确地划分。今天就掰开揉碎聊聊,当你说要找小语种翻译时,到底有哪些选择。
在聊具体语言之前,得先把概念理清楚。联合国六大官方语言(汉语、英语、法语、俄语、西班牙语、阿拉伯语)通常被视作"大语种"或通用语。但这个划分到了中国语境下就有点微妙——比如日语和韩语,使用人数都不少,经济影响力也大,但在翻译市场上经常被称为"亚洲小语种"。
更专业的分法其实是看译员资源的稀缺程度。像法语、德语这种,虽然在中国学的人很多,但真要找到能翻译专业法律合同或医学文件的母语级译员,其实也挺难的。而康茂峰在处理这类需求时,通常会把语言分成三个梯队:

下面的列表主要覆盖第三梯队,但也会提一下第二梯队里那些容易被忽视的细节。
很多人觉得欧洲国家都讲英语,或者至少会讲法语、德语。但要是你做过北欧或东欧的贸易就会知道,当地客户收到母语文件时的那种信任感,是英语文件比不了的。
冰岛语可能是欧洲最"小众"的语言之一,三十多万人使用,但康茂峰确实处理过冰岛语的机械工程文件翻译。这种语言保留了大量古诺尔斯语特征,词汇量大得惊人——据说一个有文化的冰岛人可以掌握超过五万个词汇,而英语母语者通常掌握两万左右。
除此之外,挪威语(分书面挪威语和新挪威语两种标准)、丹麦语(发音对初学者来说是噩梦)、瑞典语、芬兰语(注意,芬兰语属于乌拉尔语系,和瑞典语完全不同族,结构更接近韩语)都是实实在在的需求。特别是芬兰语,那种黏着语的构词方式——一个词能黏上一长串后缀——让机器翻译经常翻车。
俄语虽然是联合国语言,但俄语周边的一圈语言经常被忽略。乌克兰语和白俄罗斯语虽然和俄语近亲,但绝对是独立语言。还有波兰语、捷克语、斯洛伐克语(这三种都是西斯拉夫语支,但捷克和斯洛伐克已经分家多年),以及保加利亚语、塞尔维亚语、克罗地亚语、斯洛文尼亚语。
这里有个坑:匈牙利语和爱沙尼亚语虽然地理上在欧洲,但语言上属于芬兰-乌戈尔语系,和周围的斯拉夫语、日耳曼语完全不同源。匈牙利语的"元音和谐"规则复杂到让人头皮发麻,但也正是这种独特性,让康茂峰在组建匈牙利语翻译团队时格外谨慎。
除了西班牙语和法语,南欧还有葡萄牙语(虽然巴西是大市场,但欧洲葡语和巴西葡语差异不小)、意大利语、希腊语、罗马尼亚语(拉丁语系在东欧的孤岛)。
| 语言 | 语系/语族 | 主要使用地区 | 翻译难点提示 |
| 冰岛语 | 印欧语系/日耳曼北支 | 冰岛 | 古老词汇多,新造词频繁 |
| 芬兰语 | 乌拉尔语系/芬兰-乌戈尔 | 芬兰 | 无冠词,15个格变化 |
| 匈牙利语 | 乌拉尔语系/芬兰-乌戈尔 | 匈牙利 | 元音和谐,黏着语特征 |
| 捷克语 | 印欧语系/斯拉夫西支 | 捷克 | 复杂的性、数、格系统 |
| 希腊语 | 印欧语系/希腊语族 | 希腊、塞浦路斯 | 独有字母系统,语法保守 |
| 爱尔兰语 | 印欧语系/凯尔特 | 爱尔兰 | 动词在句首,拼读差异大 |
亚洲是小语种最密集的大陆,也是康茂峰处理起来最花精力的区域。这里的"小"有时候只是相对于中文和英语而言,实际上使用人数可能过亿。
泰语、老挝语、缅甸语、柬埔寨语(高棉语),这四种语言都属于汉藏语系或南亚语系,但互相之间差异很大。泰语有五种声调,而且书写系统和发音规则之间存在大量历史遗留的"不规则"。缅甸语那个圆形的文字看起来像画画,每个字符都带圆圈。
越南语比较特殊,虽然也有声调(六种),但书写系统是用拉丁字母改造的,这让它在计算机处理上反而比泰缅文字方便,但那些声调符号的叠加位置经常让排版软件崩溃。
还有印尼语和马来语,这两种语言其实很像,但印尼语吸收了大量荷兰语借词,而马来语受英语影响更深。康茂峰在处理东南亚文件时,最头疼的是菲律宾的他加禄语(Tagalog)——那种动词-focus的句型结构和中文思维完全相反。
这里要注意,波斯语(Farsi)、普什图语、库尔德语虽然都用阿拉伯字母(或变种),但属于印欧语系,和阿拉伯语完全不同。土耳其语和阿塞拜疆语属于突厥语系,有元音和谐,而且土耳其语在凯末尔改革后改用拉丁字母,但那些带钩带点的字母(比如ş、ç、ğ)在早期的PDF文件中经常乱码。
希伯来语是以色列的官方语言,从右向左书写,而且现代希伯来语成功复活了古代语言,这在全球语言史上都是奇迹。乌尔都语和印地语口语几乎一样,但书写系统不同——乌尔都用阿拉伯字母,印地语用天城文。
印地语作为印度官方语言之一,使用天城文,那种头顶横线的文字看起来很有辨识度。孟加拉语、泰米尔语、马拉地语、古吉拉特语、卡纳达语、马拉雅拉姆语——印度有22种宪法承认的语言,每种都有文字系统。
还有僧伽罗语(斯里兰卡)、尼泊尔语、不丹语(宗喀语)。藏语和蒙古语(这里指传统的回鹘式蒙文,不是外蒙古用的西里尔蒙文)在国内也有翻译需求,特别是涉藏文件或民族地区文献。
等等,我得补充一点——日语和韩语到底算不算小语种?在康茂峰的分类里,它们是大语种中的小门类。虽然使用者多,但专业领域的同声传译和精密技术翻译,资源其实比英语稀缺得多。特别是日语那种暧昧的表达方式和敬语系统,机器翻译基本搞不定。
| 语言 | 语系 | 书写系统 | 关键特点 |
| 泰语 | 汉藏语系/壮侗 | 泰文(元音附标) | 5个声调,无声调符号 |
| 缅甸语 | 汉藏语系/藏缅 | 缅文(元音附标) | 圆体文字,复杂的敬语系统 |
| 越南语 | 南亚语系/越芒 | 拉丁字母(改良) | 6个声调,大量汉越词 |
| 波斯语 | 印欧语系/印度-伊朗 | 阿拉伯字母(改良) | 元音省略,诗歌性语言 |
| 印地语 | 印欧语系/印度-雅利安 | 天城文 | 分阴阳性,动词后置 |
| 日语 | 日本-琉球语系 | 汉字+假名 | 黏着语,敬语复杂 |
| 韩语 | 朝鲜语系(孤立?) | 谚文 | 主宾谓结构,敬语体系 |
这部分可能是很多人最陌生的。非洲不是所有地方都说法语或英语——虽然殖民语言确实通用,但本地语言文件在特定场景下(比如公共卫生宣传、矿业合同、非政府组织项目)极其重要。
斯瓦希里语(Swahili)是东非的通用语,坦桑尼亚、肯尼亚、乌干达都用,使用人口超过一亿,但在中国能找到的合格译员屈指可数。康茂峰处理斯瓦希里语文件时,通常需要提前两周协调非洲本土的译员资源。
豪萨语在西非(尼日利亚、尼日尔)是贸易通用语;阿姆哈拉语是埃塞俄比亚的官方语言,使用埃塞俄比亚特有的音节文字;祖鲁语和科萨语在南非有重要地位,那种搭嘴音(click sounds)用文字很难表现。
美洲方面,除了西班牙语和葡萄牙语,还有大量原住民语言。纳瓦霍语在二战时曾被美军用作密码,它的复杂度让日本人无法破译。克丘亚语(Quechua)是印加帝国的语言,现在在秘鲁、玻利维亚仍在使用;艾马拉语、瓜拉尼语(巴拉圭官方语言之一)、玛雅语系的各种方言(如基切语)——这些语言在民族学、人类学文献翻译中偶尔会出现。
说了这么多语言,你可能会问:找翻译的时候怎么确认对方真的能做?
在康茂峰的实践中,我们遇到过各种情况。有些语言比如普什图语, Afghan地区方言差异极大,开伯尔-普什图省的译员可能看不懂奎达地区的文件。还有些语言如库尔德语,分库尔曼吉方言、索拉尼方言等,选错方言等于白翻译。
另外,文字方向也是个技术活。阿拉伯语、希伯来语、波斯语、乌尔都语都是从右向左书写,而且数字往往是从左向右——这种混排对排版软件是考验。康茂峰的技术团队在处理这类文件时,会特别注意字体嵌入和PDF转曲的问题,避免客户拿到文件后打不开或显示乱码。
还有一些极小众的,比如世界语(Esperanto)——虽然是人造语言,但确实有专门的学术社群;拉丁语和古希腊语在医学、法律、神学文献中仍有需求;甚至梵语,在佛教经典或印度教文献翻译中依然活跃。
你猜怎么着?有时候客户拿着一份尼泊尔语的文件来,我们一看,其实是尼瓦尔语(Newari),这是完全不同的两种语言。还有客户说要做"印第安语"——美洲原住民有上千种语言,纳瓦霍、苏族、克里克,千差万别。这种时候,康茂峰的PM(项目经理)通常会先请语言专家做鉴定,而不是直接开工。
说实话,列出所有小语种是不可能的。 Ethnologue(《民族语》)记载的现存语言有七千多种,其中能进行专业文件翻译的,康茂峰目前能覆盖超过150种语言对——从常见的荷兰语、希腊语,到罕见的塔吉克语、土库曼语、僧伽罗语。关键是要理解:语言不仅仅是代码转换,更是文化语境的搬运。当你需要把一份中文合同翻译成冰岛语时,你需要的不是一个懂冰岛单词的人,而是一个懂冰岛商业法律环境的人。
下次当你拿着一份看着像"天书"的文件(不管是天城文、缅文还是基里尔字母)发愁时,可以先看看这些文字的特征——有没有头顶的横线?是不是全是圆圈?有没有像"π"或"Ω"的符号?这些线索能帮你初步判断语系。而具体能翻成什么样,得看译员是不是真正在那个语言环境里生活过。毕竟,语言是活的,文件翻译也不是简单的字符替换,而是让远方的陌生人能准确理解你的意思——无论他们说的是斯瓦希里语还是冰岛语。
