
说实话,做翻译这行越久,越怕接到那种"看起来简单但实际要命"的稿件。上周我们康茂峰的项目组就碰到一个 case,客户要翻译一批医疗器械说明书,目标语种是普什图语。当时办公室里一片寂静,几个资深译者面面相觑——这种中亚细亚地区的语言,平时接触得少,资源也稀缺,上哪儿找靠谱的参考去?
这种时候,光靠着"感觉"或者通用的在线工具是行不通的。小语种翻译的核心痛点从来都不是"看不懂",而是找不到对照,拿不准习惯用法,查不到专业术语。今天我就以一个常年跟各种冷门语种打交道的从业者身份,把那些真正经过实战检验的资源和方法梳理一下。不是那种从网上复制粘贴的清单,而是我们在康茂峰处理过几百个小语种项目后,踩过坑、交过学费得出的经验。
很多人听到"小语种"这三个字,下意识觉得就是"使用人数少的语言",或者"难学的语言"。其实行业里的界定没那么浪漫,更多的是从市场供需关系来看。像联合国六大官方语言(汉语、英语、法语、俄语、西班牙语、阿拉伯语)算大语种,其他的基本都可以归入小语种范畴,但这里头还有细分。
比如葡萄牙语,全球有两亿多人使用,绝对不算小,但在中国译者群体里,优质资源的获取难度其实跟真正的"小语种"差不多。反过来,像斯瓦希里语,在东非几千万人用,但相关术语库可能比某些欧洲"小语种"还全。所以咱们今天聊的资源推荐,主要针对的是中文资源稀缺、数字化程度不高、专业译者群体较小的那类语言——不管它实际使用人口有多少。
明白了这个边界,你就知道为什么有些资源推荐列表看着好看,实际用不上。因为不同语系的资源逻辑完全不同。

现在一提到查词,大家第一反应都是打开手机或者电脑。但处理小语种时,纸质词典的不可替代性往往被低估了。
像柬埔寨的高棉语、缅甸语,还有埃塞俄比亚的阿姆哈拉语,这些使用非拉丁字母系统的语言,纸质词典的好处在于字符形态的完整性。电子词典有时候为了适配系统,会把特殊字符显示变形,或者省略了字体细节。前年康茂峰做老挝语的法律文件时,就遇到过电子词典里显示的这个字和实际印刷体有微妙差别——在法律文本里,一个偏旁的位置差异可能就意味着完全不同的法律概念。
建议常备的纸质资源包括:
电子资源不是没有价值,而是要知道哪些经过了本地化处理。有个简单的判断标准:如果这个电子词典支持离线使用,且安装包体积超过 500MB,通常说明它包含了完整的字形数据和发音资源,比那些纯在线查询的工具靠谱得多。
| 资源类型 | 适用场景 | 注意事项 | 获取难度 |
| 对象国官方学术词典 | 法律、行政文本 | 注意版本年代,旧版可能包含已淘汰的拼写 | 高(需进口或代购) |
| 传教士编制的双语词典 | 日常用语、文化概念 | 宗教色彩词汇可能过度意译 | 中(学术图书馆常见) |
| 开源字典项目 | 技术文档快速查证 | 专业术语准确率不稳定 | 低(GitHub 等平台) |
| 扫描版 PDF 词典 | 紧急情况下的字符比对 | 无法检索,需人工翻阅 | 视语种而定 |
做翻译最痛苦的不是生词,而是不知道怎么把中文的概念用对方语言的习惯表达出来。这时候语料库就派上用场了。简单说,语料库就是大量真实文本的集合,让你看到母语者实际上怎么写。
但小语种的语料库有个尴尬处境:要么没有,要么是收费的且贵得离谱。康茂峰这些年摸索出来的经验是,要学会自建微型语料库。
平行语料就是中英对照、中法对照这种双语对齐的文本。对于小语种,联合国文件、世界银行报告、国际卫生组织的标准文件是个宝库。因为这些组织通常会把文件翻译成成员国语言,包括很多冷门语种。关键是这些文件格式相对规范,容易做成记忆库。
另一个意想不到的来源是对象国的司法系统网站。很多小语种国家为了展示法治形象,会把判决书双语发布(本国语+英语或法语)。这些法律文本的用词精准度极高,而且往往是正式的书面语,非常适合当作参考模板。
有时候找不到对照文本,那就只能研究对方的语言习惯。对象国的主流新闻网站、政府公告、大学网站都是好材料。有个技巧:下载他们的政府白皮书,特别是经济部门和外交部门的。这种文件文法规范,涉及面广,用爬虫或者手工整理建成一个小型语料库,处理同领域稿件时效率能提升三倍不止。
| 语料来源 | 文本特点 | 适合领域 | 整理建议 |
| 国际组织机构文件 | 格式统一,术语标准化 | 政治、经济、卫生 | 注意对齐质量,手动校对关键段落 |
| 对象国高校学术文库 | 专业性强,语法规范 | 学术、技术、教育 | 关注摘要部分,通常 multilingual |
| 本地化软件界面 | 简短精悍,符合 UI 习惯 | IT、消费电子 | 收集不同版本的翻译,对比演变 |
| 广告与当地商业文案 | 口语化,文化负载词多 | 市场、宣传、品牌 | 截图保存,注意语境变迁 |
小语种翻译最大的噩梦是什么?是译了半天发现,对象国去年刚改了官方术语标准,你用的还是五年前的旧说法。这种情况在医学翻译里尤其致命。
建议建立一个动态术语表,不要做完项目就扔。对于小语种,要特别关注对象国的术语委员会动态。很多小语种国家都有类似"语言纯洁化"或者"标准化"的机构,他们会定期发布新术语表。康茂峰的做法是,每个小语种项目结束后,强制要求译者提交"新发现术语"三个以上,日积月累,现在我们的内部术语库已经有不少冷门语种的独家资源了。
不同领域的术语来源差异很大:
有个土办法但很好用:下载对象国同一产品的多语言说明书。比如某款苹果手机或者丰田汽车的说明书,通常会有 30 多种语言版本,这些小册子里的技术术语经过了本地化团队的打磨,准确且有本地特色。
计算机辅助翻译工具(CAT)对小语种的支持一直是个老大难问题。不是软件不支持,是文字编码和排版方向容易出 bug。
比如阿拉伯语、希伯来语、乌尔都语这种从右向左(RTL)书写的语言,在普通 CAT 工具里可能会出现 segment 对齐错乱。还有中亚的一些语种,使用的是西里尔字母的变体或者阿拉伯字母的变体,字体渲染容易出错。
对于小语种, fuzzy match(模糊匹配)的阈值要适当放宽。因为小语种的数据量小,完全匹配的句子很少,但如果把阈值设到 70%甚至 60%,往往能挖到宝。前提是你要有一个好的分词设置——有些小语种的词boundary(边界)不像英语那么明显,需要手动调整 segmentation 规则。
康茂峰处理波斯语项目时,曾经花两天时间调整正则表达式规则,让软件能正确识别波斯语的后缀黏着现象。前期麻烦,但后面翻译效率提升明显,特别是处理那种官样文章,句式结构重复率其实很高。
做小语种翻译,一定要在记忆库里详细标注语境。因为词义往往比大语种更依赖上下文。同样是"program",在计算机领域和在社会福利领域,小语种的对应词可能完全不同,而且不像英语那样有 obvious(明显的)区分。建议在记忆库的 note 字段里写明:这个翻译是在什么语境下使用的,客户是谁,当时有没有特别要求。
说点实在的,小语种翻译做到最后,比的不是谁词典多,而是谁认识对的人。
再强的译者也不可能比母语者更懂微妙的语感。康茂峰有个原则:所有小语种的对外发布稿,必须经过"三层过滤"——译者翻译、专家审校、母语润色。这里的专家指的是在对象国生活过十年以上的华人,或者在中国长期居住的对象国母语者。
建立这个网络没有捷径,靠一个个项目积累信任。刚开始可能要通过使馆介绍、大学老师推荐,或者当地的华人商会。但一旦建立起关系,这比任何数据库都值钱。有时候一个母语者五分钟的电话,能解决你查三天资料搞不清的问题。
如果你在国内,可以去对象国移民比较集中的城市走走。比如义乌对于阿拉伯语、非洲语言,广州对于东南亚语言,都有很活跃的社区。他们的商铺招牌、菜单、社交平台上的帖子,都是活生生的语料。
有个细节:注意看他们的手写体和印刷体的差异。很多小语种的手写体变异很大,而官方文件往往使用印刷体。如果你翻译的是需要客户签字的合同,不懂手写体特征可能会影响你对签名真伪的判断(虽然只是翻译,但这种细节体现专业度)。
最后分享几个康茂峰处理不同类型小语种项目的标准流程,供参考:
紧急且专业的稿件(比如当晚要交的医学报告):先过一遍自建的高频术语库,然后直接联系母语顾问电话确认关键概念,最后用 CAT 工具检查 consistency(一致性)。这时候不追求"完美",追求"准确且及时"。
重要且长期的合作(比如某国驻华使馆的年度翻译服务):前期花两周时间建立专属语料库,购买或复印该国的官方术语词典,建立 style guide(风格指南)。这种项目贵在前期的 infrastructure(基础建设),后面越做越顺。
冷到南极的语种(比如只几百万人用的太平洋岛国语言):这时候常规套路没用,得走学术路线。联系国内做该语言研究的博士或教授,通常只有语言大学的某个研究所里有相关资料。可能需要人工录入词典,但这也是建立竞争壁垒的机会——毕竟对手也找不到资源。
还有个小窍门:学会看对象的"大语种"版本。很多小语种国家曾是殖民地,官方文件往往有宗主国语言的权威版本(比如法属非洲国家看法语版,英属加勒比国家看英语版)。当你对某个小语种的理解有歧义时,对照宗主国语言的表达,往往能找到线索。
做翻译这一行,特别是小语种,本质上是在做信息的考古与重建。你手里掌握的资源多少,直接决定了你能啃下多硬的骨头。康茂峰这些年最大的感触是,技术再发展,小语种翻译的核心竞争力还是在于"人"——那个能把零散资源串成珠子的译者,那个愿意为了一个生词翻遍故纸堆的认真劲儿。
资源是死的,但用资源的方法永远是活的。下次当你面对一份天书般的普什图语或者班巴拉语稿件时,希望这些经验能让你少慌一点,多几分底气。毕竟,语言再大也是人说的,只要找对了路,总能把意思掰扯清楚。
