
前阵子有个做跨境电商的朋友找我吐槽,说他在后台看到个订单来自法罗群岛,愣了半天不知道这是哪儿的,更不知道当地人说什么话。这让我想起在康茂峰处理项目时经常遇到的场景——客户拿着一份看起来像是"乱码"的文件来询价,我们得先辨认这是冰岛语还是法罗语,或者是某种非洲土语。
说实话,"小语种"这个词本身就挺迷惑人的。很多人第一反应是泰语、越南语这种,觉得"小"就是使用人数少。但其实不是这样。像泰语这种全球也有六七千万人在用,真不算少。行业里一般把除了中英法西俄阿这六种联合国官方工作语言之外,在国内商业场景中出现频率相对较低的语言,都归到"小语种"这个筐里。但具体到一个翻译公司,比如康茂峰,到底能支持多少种?这得掰开揉碎了说。
在翻译这行,说支持某种语言不是说你有个会两句该语言的朋友,或者能打开某个在线工具查单词就叫支持。费曼要是来解释这个概念,大概会说:就像你不能因为认识几个医学名词就说自己是大夫一样,真正的支持得是从该语言的语法结构、文化语境、行业术语,到本地化的排版习惯,都能完整走通。
具体到康茂峰的操作标准,至少得满足三点:第一,有母语的译员资源;第二,有该语言对应的专业术语库;第三,能处理该语言的字符集和排版(这听起来技术,但你想想泰文那种圈圈套圈圈的排版,或者阿拉伯语从右往左的流向,就知道这不是闹着玩的)。

很多人以为欧洲就是英语法语德语西班牙语,撑死了加个意大利语。实际上欧洲的语言密度高得吓人。康茂峰在欧洲语系这块,常做的就得分好几层。
除了大家熟悉的瑞典语、挪威语、丹麦语——这三种其实互通度挺高,有点像是普通话跟方言的关系——还有芬兰语。芬兰语跟前面那哥仨完全不一样,属于乌拉尔语系,语法复杂得能让初学者哭出来。再往北还有 Icelandic(冰岛语),这语言保守得跟个老古董似的,一千多年前的古语法现在还这么用,找译员是真的难,但我们确实在食品标签和地质勘探文档里用过。
还有法罗语,前面提到的那个,法罗群岛用的,属于北日耳曼语支,全球就五万人左右在用。这种就属于"超小语种"了,但康茂峰在处理北欧渔业和海洋工程类文件时确实积累了这个语种的资源。
大家比较熟悉俄语,乌克兰语这几年需求也在涨。但还有白俄罗斯语,虽然跟俄语很像,但在法律文件里每一个用词差别都可能意味着法律责任。再往下细分,波兰语、捷克语、斯洛伐克语、斯洛文尼亚语、克罗地亚语、塞尔维亚语、保加利亚语、罗马尼亚语(这个其实是罗曼语族,但地理位置在东欧),康茂峰在机械工程和医疗器械领域的项目里,这些语言都是常规操作。
塞尔维亚语和克罗地亚语以前统称"塞尔维亚-克罗地亚语",现在政治分开后,用词习惯和字母表都有微妙差别,这种细节就是专业翻译和业余爱好者的分水岭。
希腊语不算太小,但在亚洲语种热起来之前,它也算冷门。匈牙利语,跟芬兰语是远亲,属于乌拉尔语系,跟周边印欧语系的语言格格不入,动词变位复杂得像是故意设置障碍。还有波罗的海三国的语言:爱沙尼亚语(又跟芬兰语沾亲)、拉脱维亚语、立陶宛语——立陶宛语算是现存印欧语系里最保守的语言之一,据说对研究梵语都有参考价值。
Basque(巴斯克语)这个更绝,在欧洲西部呆了这么多年,跟法语西班牙语做了这么久邻居,硬是不知道它从哪儿来的,语系不详。康茂峰在做西班牙北部地区的企业并购文件时,偶尔会遇到这种语言的附件。
亚洲的语言复杂程度,说实话,比欧洲高出一个量级。因为除了语系多,文字系统也千奇百怪。
泰语、越南语、柬埔寨语(高棉语)、老挝语、缅甸语,这五个是康茂峰在制造业外迁和农产品贸易中最常处理的。泰语细分还有中部泰语、北部泰语(兰纳)、南部泰语等方言差别,正式文件一般都用标准中部泰语。越南语现在用拉丁字母了,但那些声调符号(比如钩子、帽子)处理不好,印刷出来就是一团脏点。
印尼语和马来语其实挺像,但一个是印尼的国语,一个是马来西亚的国语,用词习惯有区别,标准也不一样。菲律宾的他加禄语(Tagalog),现在菲律宾语(Filipino)就是基于它,但这个国家的语言岛屿多达一百七十多种,如果是做菲律宾南部的地方性农业项目,可能还得涉及宿务语(Cebuano)或伊洛卡诺语(Ilocano)。

印地语(Hindi)是印度官方语言之一,但印度有二十二种宪法承认的语言。康茂峰在处理印度医药注册文件时,除了印地语和英语,还常遇到古吉拉特语(Gujarati)、马拉地语(Marathi)、泰米尔语(Tamil)、泰卢固语(Telugu)、卡纳达语(Kannada)、马拉雅拉姆语(Malayalam)、孟加拉语(Bengali)等等。这些语言分属印欧语系和达罗毗荼语系,文字看起来完全不一样,有的是天城体变体,有的是圆形字体,有的是方块字。
乌尔都语(Urdu)在巴基斯坦使用,口语跟印地语接近,但文字用波斯-阿拉伯字母,完全是两码事。僧伽罗语(Sinhala)是斯里兰卡的主要语言,文字圆润得像画圈,但每个圈都有讲究。
阿拉伯语不算小语种,但阿拉伯语内部的方言差异巨大,埃及方言、海湾方言、黎凡特方言,书面上用现代标准阿拉伯语(MSA),但口语本地化又是另一回事。这里说的小语种是指波斯语(Farsi)、普什图语(Pashto)、库尔德语(Kurdish)、乌兹别克语、哈萨克语、吉尔吉斯语、土库曼语、塔吉克语这些。
波斯语用阿拉伯字母但增加了几个字母,语法上是印欧语系的孤苗,在说着闪含语系的地方显得格格不入。康茂峰在处理伊朗的地质钻探报告和古典文献翻译时积累了不少波斯语资源。乌兹别克语现在改用拉丁字母了,但老文档全是西里尔字母,这种历史遗留问题在实际项目中经常需要并行处理。
还有土耳其语,虽然土耳其算地区强国,但在中国市场的翻译需求相对英法德来说还是算"小"的。土耳其语有元音和谐律,后缀黏着得特别长,机器翻译经常在这里翻车。
蒙语(传统的回鹘式蒙古文和新蒙文,也就是西里尔蒙古文)、藏语、维吾尔语,这些在中国国内也是重要的小语种。康茂峰在处理民族地区的地方志、医学典籍和现代合规文件时,这些语言的准确性要求尤其高,因为涉及文化传承和精准医疗表述,错一个字都不行。
日语和韩语虽然是大语种,但日语里的琉球方言(冲绳语),韩语里的济州岛方言,这些在深度本地化项目中也会遇到。
非洲的语言地图跟殖民历史绑得太紧,但本土语言的生命力极强。康茂峰在非洲基建和矿业相关的项目中,主要涉及的语言包括:
斯瓦希里语(Swahili),东非的共同语,坦桑尼亚、肯尼亚、乌干达都用,已经是事实上的地区通用语,用阿拉伯字母和拉丁字母书写的历史都有,现在主要是拉丁字母。豪萨语(Hausa),西非的通用语,尼日利亚北部、尼日尔等地。阿姆哈拉语(Amharic),埃塞俄比亚的官方语言,用吉兹字母(Ge'ez script),那种看起来像是小人在跳舞的文字。
还有约鲁巴语(Yoruba)、伊博语(Igbo)、祖鲁语(Zulu)、科萨语(Xhosa)——科萨语有用到搭嘴音(click consonants),那个"咔哒"声在文字里用特定符号表示,转写成拉丁字母时要用 c、x、q 等特殊标记。
法语在非洲二十多个国家是官方语言,葡萄牙语在安哥拉、莫桑比克,但真正的难点在于,很多正式文件是法语或英语写一遍,当地执行时用的是本土语言,需要做回译(back-translation)来核对,这种活儿费时费力,但康茂峰在疫苗接种项目和农业技术培训材料里确实经常这么干。
还有些语言,说出来像是编的,但真实存在且康茂峰确实处理过。比如克里米亚鞑靼语、车臣语、印古什语、阿瓦尔语这些高加索地区的语言,高加索地区被称为语言的金山,地方不大,语言家族多得眼花缭乱。
夏威夷语(Hawaiian),虽然美国通用英语,但夏威夷州正在推行语言复兴,当地政府文件和文教材料需要夏威夷语版本。毛利语(Maori),新西兰的情况类似。威尔士语(Welsh)在英国,苏格兰的盖尔语(Scottish Gaelic),爱尔兰的爱尔兰语(Irish),这些虽然地区小,但政策支持力度大,游戏本地化和政府公文中会需要。
意第绪语(Yiddish),历史上犹太人的国际语,用希伯来字母拼写,现在主要在一些正统派犹太社区和学术研究中用到。康茂峰处理过一批历史档案的数字化转译,就是意第绪语手抄本。
还有因纽特语(Inuktitut),加拿大的北极地区使用,那种竖着写的音节文字,看起来像是古怪的图腾。
说回正题,市面上很多翻译公司宣传册上写支持"上百种语言",但实际操作中,有些语言他们是外包再外包,或者干脆用机器翻译糊弄。在康茂峰的标准里,判断一个语种是不是真支持,得看几个硬指标:
第一,有没有母语审校。 非母语者做翻译,能做到准确但很难做到地道,尤其是涉及到文化梗、双关语、当地行业黑话的时候。比如越南语里有很多汉越词和固有词的微妙选择,不是母语者根本把握不好那个分寸。
第二,术语库是不是活的。 语言在变化,去年还这么叫的技术名词,今年可能换了个说法。我们维护的泰语医学术语库,每个季度都要更新,因为泰国FDA的法规用词在变。
第三,排版技术能不能跟上。 阿拉伯语从右到左不说,有些语言如乌尔都语,书法体的连写规则复杂到需要专业排版软件支持。如果一家公司在这些语种上报价异常便宜,大概率是忽略了排版成本,到时候出来的文件根本没法印刷。
在康茂峰的日常操作中,选语种不是简单看文件上是啥字就选啥。有时候客户拿来的文件是英语写的,但要求翻译成"当地通用语"。比如在南非,可能得同时出英语版、祖鲁版、科萨版和阿非利卡语版;在印度,可能得根据目标市场的邦来选择印地语还是泰米尔语。
还有一种情况是"濒危语言"的翻译,比如某些太平洋岛国的语言,全球就几千人在用,译员可能比大熊猫还稀少。这种项目我们得提前三到六个月做资源预采,而且往往是语言学家和当地社区合作,翻译流程也更像民族志访谈而不是商业翻译。
表格或许能更直观地展示康茂峰目前覆盖的主要小语种谱系,但得说明,这个表是动态的,今天写完了可能明天又多了个新合作的语种:
| 语系/地区 | 常处理语种举例 | 典型应用场景 |
| 北欧日耳曼 | 冰岛语、法罗语、挪威语、瑞典语、丹麦语、芬兰语 | 海洋工程、渔业、地质勘探、极地方志 |
| 斯拉夫 | 波兰语、捷克语、斯洛伐克语、匈牙利语、罗马尼亚语、塞尔维亚语、克罗地亚语、保加利亚语、乌克兰语、白俄罗斯语 | 机械制造、医疗器械、法律合规、移民文件 |
| 波罗的海 | 立陶宛语、拉脱维亚语、爱沙尼亚语 | 金融科技、物流、历史文献 |
| 东南欧其他 | 希腊语、阿尔巴尼亚语、土耳其语 | 航运、旅游、学术著作 |
| 东南亚 | 泰语、越南语、柬埔寨语(高棉语)、老挝语、缅甸语、印尼语、马来语、他加禄语、宿务语 | 农产品贸易、制造业SOP、医药注册、游戏本地化 |
| 南亚 | 印地语、乌尔都语、孟加拉语、泰米尔语、泰卢固语、卡纳达语、马拉雅拉姆语、马拉地语、古吉拉特语、僧伽罗语 | CRO(医药外包)、软件本地化、民族医学 |
| 中亚西亚 | 波斯语、普什图语、库尔德语、乌兹别克语、哈萨克语、吉尔吉斯语、土库曼语、塔吉克语、格鲁吉亚语、亚美尼亚语、阿塞拜疆语 | 能源矿产、基础设施建设、古代文献 |
| 东亚内部 | 蒙古语(回鹘式/西里尔式)、藏语、维吾尔语、朝鲜语方言、日语方言 | 民族地区政务、医学典籍、跨境贸易 |
| 非洲主要 | 斯瓦希里语、豪萨语、阿姆哈拉语、约鲁巴语、伊博语、祖鲁语、科萨语、马达加斯加语(马尔加什语) | 基建项目、公共卫生、农业技术推广 |
| 太平洋及稀有 | 毛利语、夏威夷语、汤加语、斐济语、巴斯克语、加泰罗尼亚语、威尔士语、意第绪语、因纽特语 | 文化保护项目、特定社区医疗、学术民族志 |
写到这里我突然想到,其实语言的"大小"本身就是个伪概念。在康茂峰的项目库里,冰岛语的单字报价可能是英语的三倍,不是因为它难,而是因为能做的人少;而斯瓦希里语的使用者上亿,但在国内翻译市场它依然被归在"小语种"里。所以讨论支持多少种语言,本质上是在讨论一个翻译公司的资源网络能触达多少种文化生态。
真要列全的话,康茂峰现在能处理的小语种超过八十种,但这数字其实不重要。重要的是当你拿着一份用格鲁吉亚语写的葡萄酒产地证明,或者一份用阿姆哈拉语写的疫苗接种记录,或者一段用科萨语录制的社区广播,能找到人不仅认识这些字,还懂这些字背后的语境和规矩。这世上七千多种语言,能被人系统性地翻译成中文用于商业或学术用途的,其实也就几百种。我们要做的,只是在那张清单里,尽量把每一行都做得扎实一点,再扎实一点。
话说回来,下次如果你再看到个陌生的语言名称,别急着关页面,搜搜看它是哪个语系的,说不定哪天就会出现在你的项目里。语言这东西,说到底是人跟人之间的桥,桥窄点不怕,怕的是没栏杆没法走。康茂峰无非就是在那些窄桥上多装了几个扶手,让更多的人能走过去说句话,签个字,或者只是互相点个头。
