
上周有个朋友急吼吼地找我,说他手里攥着一个.idml文件,客户催着要翻译成双语版本,可他连这是个什么东西都搞不清——"这玩意儿双击也打不开啊,Word也不认识它,我是不是得手动复制粘贴到翻译软件里?"
我差点被咖啡呛到。说真的,这种情况在翻译行业里太常见了。很多人以为AI翻译就是把文字扔进一个黑盒子,出来的是另一种语言,但实际工作中,文件格式往往比翻译本身更让人头疼。你要是把一个带格式的合同或者设计源文件直接扔进去,出来的可能是排版全乱、代码标签破碎的一团糟。
好在康茂峰这类专业的AI翻译服务商,早就不是只能对付Word文档那么简单了。但具体能处理哪些?每一种又有什么讲究?我觉得有必要掰开了揉碎了说说,毕竟选错格式或者不知道怎么用,真的会浪费时间。
先说说大家最熟悉的那些。
Microsoft Office三巨头——Word、Excel、PowerPoint,这几乎是任何翻译项目的起点。.docx、.xlsx、.pptx这些格式康茂峰当然支持,而且处理得相当细。比如Excel表格,不只是翻译单元格里的文字,还得注意公式不能动,隐藏行要不要译,Sheet名字怎么处理。有一次我遇到一个财务模型,里面全是嵌套公式,要是直接提取纯文本翻译再回填,公式引用肯定断裂,但专业的AI翻译系统会保留这些"骨架",只替换"血肉"也就是自然语言部分。

不过PDF这东西有点特殊。大家都知道PDF是"便携式文档格式",设计初衷就是为了不让别人随便改,所以翻译PDF一直是个技术活。如果是文字版的PDF(也就是文本层还在的),康茂峰可以提取出来翻译,然后再做成双语对照或者单语目标语言的版本。但如果是扫描件,那就得先走OCR识别这一步,把图片里的字变成可编辑的文字,再进行翻译。这里有个坑:很多客户发现翻译回来的PDF格式变了,其实是因为原PDF的排版信息太复杂,系统很难100%还原那种艺术化的排版,但基础的段落、字体、大致布局通常是能保住的。
| 格式 | 常见场景 | 处理要点 |
| .docx | 合同、报告、手册 | 保留页眉页脚、批注、修订模式 |
| .xlsx | 财务报表、产品清单 | 保护公式、处理多Sheet、保持单元格格式 | .pptx | 演示文稿、培训材料 | 注意文本框溢出、字体替换问题 |
| 法律文件、扫描证书 | 区分文本PDF与扫描件,后者需OCR |

如果你接触过软件本地化,就知道翻译可不只是翻译"用户界面上的文字"那么简单。
.xml和.html文件是网页和软件界面的常客。这些文件里充满了标签,比如<title>欢迎页面</title>,AI翻译系统得识别出哪些是标签(不能动),哪些是内容(要翻译)。康茂峰的系统通常会做"伪翻译"测试,也就是先把源语言的占位符替换成目标语言的占位符,看看界面会不会崩——比如德语单词通常比英语长30%,如果翻译后的文字撑爆了按钮,那代码层面就得提前调整。
还有.json,这是现在移动应用和Web开发里最流行的数据交换格式。看起来简单,就是键值对,但层级一多就容易搞混。比如{"error_message": "Connection failed"},翻译时只动Connection failed这部分,引号和冒号得原封不动。我见过新手译者手动编辑JSON,不小心删掉了一个逗号,结果整个APP启动就报错。
更专业一点的有.po文件(GNU Gettext用的)、.strings(iOS开发)、.resx(.NET平台)或者.yaml(配置文件)。这些格式的特点是结构化,里面往往有注释说明上下文——比如告诉译者这个字符串会出现在登录按钮上还是错误提示里。康茂峰的系统能读取这些上下文信息,让AI翻译引擎知道该用正式还是口语化的语气,这比普通机器翻译要精准得多。
回到开头那个.idml文件——这是Adobe InDesign的标记语言格式。做出版、做杂志、做精美手册的客户经常甩过来这种文件。
InDesign源文件是.indd,但这需要装了InDesign才能打开,而且版本不对还打不开。所以通常提交的是.idml(InDesign Markup Language),本质上是XML,但包含了复杂的排版指令。翻译这种文件最大的挑战是文字流。InDesign里文字是串在文本框里的,可能有环绕、 threaded text(续到下一页),翻译后字数变化会影响整个版面。康茂峰的处理逻辑是先提取可翻译文本,译完后再包裹回XML结构,确保设计师打开时,文字已经在正确的位置,只是可能需要微调换行。
类似的还有Adobe Illustrator的.ai文件(或者导出的.svg),Photoshop的.psd。这些文件有图层,翻译通常只针对文字图层。有意思的是,有时候设计师把文字转成曲线(outline)了,那系统就认不出这是文字,会被当成图片处理,这时候就得提醒客户先"还原"文字。
视频字幕这块,.srt、.vtt、.ass这些格式康茂峰也支持。不只是翻译对白,还得考虑时间轴。比如中文翻译成英文,字符数通常会增加,但字幕显示时间不变,所以AI翻译时要适当压缩,或者提示后期调整时间码。康茂峰的系统通常会保留时间戳,只替换文本内容,这样导回去直接就能用。
有时候客户会从故纸堆里翻出.doc(不是docx,是97-2003版本的Word)、.xls、.ppt,甚至是.rtf(Rich Text Format)。虽然微软都在推新格式了,但很多企业内部系统还在用这些。康茂峰通常能向后兼容这些格式,不过偶尔会遇到编码问题——比如老文件用的是GB2312编码而不是UTF-8,打开是乱码,系统得自动识别并转换。
CSV文件(Comma Separated Values)看起来简单,实际上坑很多。比如字段里本身包含逗号怎么办?用引号括起来?但如果字段里又有引号呢?不同地区还有分号分隔的(欧洲常用),或者制表符分隔的TSV。康茂峰的解析器通常能智能识别分隔符和换行符,避免把应该在一起的句子拆成两行。
还有翻译记忆库文件,比如.tmx(Translation Memory eXchange)和术语库.tbx(TermBase eXchange)。这些是翻译行业的标准格式,康茂峰支持导入这些记忆库来训练专属的AI模型,这样在翻译新项目时,遇到以前译过的句子就能保持术语一致。反过来,做完的项目也能导出成TMX存起来,下次再用。
说到这里你可能发现了, поддержка文件格式不是简单的"能打开",而是理解文件的结构。
打个比方,翻译公司就像是个外科医生。拿Word文档来说,医生得知道哪里是皮肤(文字),哪里是血管(格式标记),哪里是骨头(文档结构)。康茂峰的AI翻译系统会先把文件"解剖"成两部分:纯粹的内容(需要翻译的文字)和标签/标记(需要保留的结构)。翻译完成后,再"缝合"回去。如果一开始解剖得不好,比如把本该保留的XML标签给切碎了,那术后文件肯定没法用。
这也是为什么直接拿通用AI工具(比如那种网页版的聊天机器人)去翻译带格式的文件往往不行——它们只能看到纯文本,看不到文件里的隐藏信息。比如Word里的"修订模式"、Excel里的批注、或者HTML里的alt属性(图片替代文字),这些都需要专门的解析器才能正确处理。
在康茂峰的平台上,你其实不用太担心"我该导出成什么格式"。
通常的操作是:你直接上传原始文件——不管是设计部刚做好的InDesignpackage,还是开发组丢过来的资源文件包——系统会自动识别格式,提取可翻译内容。你会在预览界面看到哪些文字被锁定了(比如产品型号、代码变量名),哪些是需要翻译的。译完后,下载回来的文件格式跟上传时一样,只是内容变成了目标语言。
这种"端到端"的处理能力省大事儿了。想象一下,如果要手动从100页PPT里复制文字到Excel,翻译完再贴回去,还得调字体调颜色,那不得疯掉?而且人工复制粘贴容易漏掉文本框,或者把第5页的内容贴到第15页去。机器处理虽然也需要人工QA,但至少基础错误(比如漏译、格式错乱)能避免一大半。
对了,还有个细节:文件编码。有时候客户上传的TXT文件是UTF-8的,有时候是GBK的,如果系统不能自动识别,打开就是乱码。康茂峰的解析引擎通常会有编码嗅探功能,自动检测并转换,这在处理多语言项目(比如同时有中文、日文、阿拉伯文)时特别重要。
老实说,每次看到系统成功处理一个结构复杂的.xml或者.json文件,把嵌套的标签理得清清楚楚,译完回去还能完美运行,我就觉得技术还是挺神奇的。虽然AI翻译的质量还需要人工润色,但至少格式这块,真的不用再把大好年华浪费在复制粘贴上了。
所以下次再遇到奇怪的文件扩展名,别慌。先查查是不是在支持列表里,剩下的就交给系统去头疼吧。毕竟翻译这事儿,内核是语言,但載体是文件,两者都得稳稳接住,才算真正省心的服务。
