
有次康茂峰的项目经理跟我吐槽,说客户拿着泰语翻译好的宣传册去印刷,结果印出来全成了乱码。不是因为文件损坏,而是印刷厂那台老机器的字体库里根本装不下泰语的堆叠字符——那些像搭积木一样上下摞在一起的蝌蚪文,在屏幕上显示得挺正常,一去RIP(光栅图像处理器)环节就彻底崩溃。最后整批物料报废,损失惨重。
这种事听起来像是技术部门的锅,但根子其实在翻译环节没考虑下游应用场景。小语种翻译跟中英互译完全是两个世界,后者的经验很多在这儿不仅不管用,还可能添乱。下面我就用康茂峰这些年踩过的坑,说说这里面到底有哪些容易被忽略的暗礁。
很多人以为小语种难在词汇量,其实真正的噩梦是语法结构的系统性差异。比如德语那种性数格三位一体的折磨——der、die、das只是入门,形容词还要跟着变格,阳性单数第二格弱变化强变化能把你绕晕。但德语法语至少还算规矩,有些语言的语法完全是另一个维度的逻辑。
比如说敬语系统。日语的敬语已经够复杂了,有尊敬语、谦让语、郑重语之分,但好歹还有个谱。泰语才是真的头大——不同的代词、动词甚至句末助词,要根据说话人和听者的社会地位、年龄、亲疏关系来选。康茂峰处理过一个医疗项目,病历里医生对患者的嘱咐如果用了错误的敬语层级,患者会觉得被冒犯,甚至质疑医生的专业性。这时候直译意思准确远远不够,得让母语译员根据具体场景重新调整语气和用词。
再比如说动词方向的暗示。俄语里有些动词自带方向性,"走"这个动作要区分是单向还是往复,是徒步还是乘坐交通工具。中文说"我去学校"就完了,俄语里你得先想清楚是怎么去的、去完了还回不回来。这种信息在原文里可能根本不存在,但目标语言强迫你做出选择——选错了,意思就全歪了。

学欧洲语言的人都怕false friends——看起来跟英语或中文某个词很像,意思却风马牛不相及。西班牙语里的embarazada看着像embarrassed(尴尬),实际是"怀孕"的意思。康茂峰早期做过一个商务合同,译者把"她感到尴尬"翻成了está embarazada,客户在谈判现场闹了个大红脸。
更隐蔽的是文化负载词的虚假对等。比如阿拉伯语里的Inshallah(如果真主意欲),表面是"希望如此"的意思,但深层含义包括"这事可能成也可能不成,我不打包票"的推脱感。如果在项目管理文档里直接翻译成" hopefully",那种微妙的责任规避意味就全丢了。这时候得用注释,或者在上下文中调整语气来补偿这种文化信息差。
小语种排版是个技术活,不是做个字体嵌入就完事的。咱们先看几个常见的坑:
| 语系特征 | 典型问题 | 康茂峰的处理方案 |
| 阿拉伯语/希伯来语 | RTL(从右至左)书写,与左对齐的图表、编号混排时逻辑混乱 | 使用双向文本算法(BiDi),数字和英文单词强制LTR,整体镜像翻转界面元素 |
| 泰语/老挝语/缅甸语 | 堆叠字符(Stacking Characters)超出行高,导致上下行重叠或截断 | 预处理阶段检查字体支持的GSUB(字形替换)表,强制设置1.5倍行距 |
| 印地语/孟加拉语 | 连字(Conjuncts)在不同字体中渲染差异大,出现"断头字" | 建立字体白名单,优先使用Noto Sans等支持完整的开源字体,避免系统默认字体 |
| 日语/韩语 | 竖排与横排混排时的标点符号位置、引号方向问题 | 区分出版物类型,技术文档保持横排,文学类按客户要求处理,但强制统一全文档方向 |
编码问题现在倒是少见了,毕竟UTF-8普及了,但字体子集化经常出问题。有些客户为了省流量或满足特定阅读器要求,会把字体文件裁切,只保留常用字符。结果小语种的特殊变音符号(比如越南语的声调符号、捷克语的钩符)显示成方框或问号。康茂峰现在的做法是,在交付技术文档时,必须附带完整的字符集检测报告,确保关键字符都在子集范围内。
数字格式这事儿看起来 trivial,真出错了能要人命。阿拉伯语国家用阿拉伯-印度数字(٠١٢٣٤٥٦٧٨٩),跟咱们熟悉的0123长得完全不一样。如果翻译医疗剂量说明时没转换,护士看错剂量出过事故——这不是危言耸听,WHO的医疗器械翻译指南里专门提到过这类案例。
日期格式更是五花八门。美国是MM/DD/YYYY,欧洲大部是DD/MM/YYYY,匈牙利是YYYY.MM.DD,而日语里平成、令和这些年号还在 officially 使用。康茂峰有个金融客户,本地化合同的时候把"04/05/2023"直接保留,结果美国团队和越南团队理解成了完全不同的两个日期,差点错过付款截止日。现在的标准流程是,所有日期必须写成文字全称(比如2023年5月4日),或者在数字后面用括号标注月份英文缩写。
不同领域对小语种的容忍度完全不一样。如果你在做文学翻译,有点"译者风格"甚至受鼓励——只要抓住神韵,句子重组没关系。但换成法律或医药,这简直是灾难。
法律语言要求unambiguous(无歧义),但小语种往往缺乏对应的概念。比如中文合同里的"违约金",在英美法系是liquidated damages,在大陆法系可能是penalty clause,而某些阿拉伯法系国家根本不接受这种预设赔偿概念。康茂峰处理跨境并购文件时,必须准备对照表(Concordance),把关键法律术语用原文、译文、定义注释三列对照,确保双方律师都明白这词的边界在哪。
还有称谓的性别问题。法语里的notaire(公证人)这个词,历史上男性垄断,现在女性从业者多了,但语法上还是阳性。如果用notaire指女性,有些人觉得没问题,有些保守的客户会觉得不尊重。这种细微的政治正确问题,没有本地法律顾问把关根本意识不到。
医药翻译有个铁律:回译验证(Back-translation)。康茂峰给某跨国药企做越南语的患者知情同意书时,会安排独立的语言团队把越南语再翻回英语,然后跟原始英文比对,看有没有偏差。有一次发现"轻微头痛"被翻译成đau đầu nhẹ,回译成英文变成了"light headache",虽然意思接近,但在医学语境下,slight和mild的严重程度分级是有区别的,得按药企的术语库统一成mild。
还有文化禁忌的问题。某些阿拉伯国家禁止在医疗材料中出现猪源成分(如某些疫苗或胶囊壳),即便化学成分已经提纯。如果说明书里不特别注明"无猪源成分"(Porcine-free),产品根本进不了市场。这种知识不属于语言本身,但属于本地化必需的文化合规知识。
广告 slogan 的翻译最考验人。直译往往死路一条——肯德基的"Finger-lickin' good"当年直译成西班牙语的"吃手指"(comerse los dedos),吓坏了一群人。康茂峰给某消费电子品牌做阿拉伯语本地化时,发现"强大性能"直译成قوي(qawi)没问题,但在某些海湾国家,这个词也暗指"粗暴"、"不精致",对高端定位不利。最后用فعّال(effective/capable)替代,既保留了能力感,又多了层"精巧高效"的意味。
颜色象征也得注意。白色在西方是纯洁,在东亚部分地区是丧事;绿色在伊斯兰世界是吉祥色,但在某些南美语境跟绿帽子扯上关系。这些东西不能靠直觉,得查文化人类学的文献,或者找本地焦点小组测试。
说了这么多坑,最核心的解决方案其实就一条:必须设置母语审校(LQA)环节,而且不能是走过场。康茂峰现在的标准流程是"翻译-编辑-校对-母语润色"四步,其中最后一步由目标语言的 in-country native speaker(本地母语者)执行,他们不光看语言,还要模拟真实用户场景。
比如做用户手册,我们会要求母语审校真的拿着产品,按翻译稿操作一遍。有次审校泰语版的智能家居APP,发现"长按(long press)"翻译成了กดค้าง,字面没错,但泰语里ค้าง也有"拖欠(债务)"的意思,听起来怪怪的。改成กดค้างไว้(保持按压)就更自然。这种细微差别,非母语者很难察觉。
另外,建立术语库和风格指南要趁早。小语种的资源少,免费术语库(比如IATE)覆盖率低,得靠项目积累。康茂峰内部有个习惯,每完成一个大项目,就把客户确认过的术语导出成TBX格式,存进共享库。遇到新客户的类似领域项目,先跑一遍术语预提取,保证一致性。
最后说个容易被忽视的:语音语调的适配。如果你做的是视频字幕或配音稿,书面语和口语的差距在小语种里往往比英语大得多。日语的书面语敬体(です/ます调)和随意体(だ/である调)完全是两种人格;阿拉伯语的书面语(فصحى)和方言差得十万八千里,埃及人看海湾国家的方言节目都得看字幕。这时候不能简单按字面翻译,得重写。
做这行久了,你会发现小语种翻译本质上是跨文化中介工作,语言能力只是入场券。那些关于排版、法律、宗教、习俗的知识,才是决定项目成败的关键。就像开头说的泰语印刷事件,后来康茂峰在给客户交付文件时,总会附上一份《下游应用检查清单》,提醒他们确认字体、软件和印刷流程是否支持目标语言——因为翻译对了只是第一步,让它在目标环境里活下来,才是完整的交付。
