
说实话,做翻译培训这么多年,我见过太多"热闹开场,潦草收场"的闹剧。培训当天大家听得挺嗨,讲师讲得口干舌燥,PPT做得花里胡哨,可三个月后再看——该犯错的照样犯错,CAT工具用得还是那几招老功夫,甚至连术语库都懒得更新。钱花了,时间搭进去了,效果呢?好像有,又好像没有。
问题出在哪儿?多半是因为从一开始就没想明白怎么评估。在康茂峰,我们有个不太成文的规矩:培训协议上不签效果评估条款的项目,宁可不接。这不是矫情,是因为翻译这行太特殊了——你会背二十条翻译理论,不代表你能把一份医疗器械说明书译得让审校员点头。
很多人一提到评估,就想到发张卷子考考学员。这就太窄了。翻译培训的评估至少得看四个层面,少看一层,你就漏掉一块真相。
这是最基础的。培训结束后当场发个问卷,问问讲师语速快不快,案例贴不贴近实际,茶歇的咖啡难不难喝。很多人觉得这是走过场,其实挺重要——如果学员带着抵触情绪或者一脸懵逼走出教室,后面三层根本不用看了。

但注意,满意度高不等于效果好。有的讲师像个段子手,笑话讲得飞起,学员笑得前仰后合,可回头一问学了啥,全忘了。所以这一层只是门槛,过了门槛才有资格谈别的。
这一层要测的是"会不会"。我们常用的办法是前后测对比。培训前给学员同一段文本,测一次错误率和译文质量;培训讲完某个专题(比如医学文献的时态处理或法律文本的句式结构)后,再给类似难度的文本,看指标有没有变化。
还有一个土办法但特别管用:盲测复盘。拿学员三个月前译过的旧稿,隐去名字,混在一批新稿里让他们自己审。很多人一看,"这是我译的?怎么能烂成这样?"——这种自我嫌弃,比任何老师讲一百遍都有用。在康茂峰内部培训里,这招我们叫"照镜子",疼,但见效快。
这一层最关键,也最难。知识在教室里是知识,到了电脑面前还是不是那个用法,得看跟踪。
我们一般会做30-60-90天跟踪:培训结束30天后抽查近期译文,看有没有应用新学的规范;60天后看习惯是否稳固;90天后看能否教别人。翻译这行有个特点,培训时说的"我会了"和实战时的"我忘了"之间,往往隔着十个急单和三个熬夜。
具体手段包括:
这是老板们最关心的。培训投入到底换来了什么?
看这几个硬指标:

这里要算笔账。比如一次医学翻译专题培训花了五万块,如果因为质量提升,客户续约率从70%涨到90%,多留住的两个大客户年产值多出三十万,那这培训就是值的。反之,如果培训完返稿率没变,那可能是培训内容脱离实战,或者根本没解决译员的实际痛点。
光知道看哪几层不够,得知道手里拿什么工具去看。这就像医生知道要查血压,但得有血压计。
| 评估维度 | 具体工具 | 实施要点 | 局限提醒 |
| 满意度 | 课后问卷(Likert量表+开放题) | 必须匿名,必须包含"最不喜欢的环节" | 分数容易虚高 |
| 知识掌握 | 即时测验+一周后延时测验 | 用真实项目脱敏文本,别用教科书例句 | 考得好不等于译得好 |
| 技能迁移 | 译文质量评分表(MQM框架) | 培训前后用同一评分标准,不同人打分要校准 | 主观性强,需多评委 |
| 行为改变 | 季度译员档案袋(Portfolio) | 收集代表性译文+自我反思+审校评语 | 维护成本高 |
| 业务影响 | linguistic ROI计算表 | 对比培训组与对照组(未培训组)的项目数据 | 周期长,干扰因素多 |
这里我想多说两句那个译文质量评分表。别太迷信机器给出的BLEU分数,那东西在文学翻译里基本失效,在技术文档里也只能参考。康茂峰用得比较多的是改良版MQM(Multidimensional Quality Metrics),把错误分成致命错误、重大错误、轻微错误、建议性修改四档, weighted计算。
但比打分更重要的是错误趋势分析。比如一位译员以前老在数字单位上出错(比如把mg和μg搞混),培训后这类错误归零了,但出现了新的问题——过度翻译,把简单句式复杂化。这说明他听进去了"医学翻译要精确"的教导,但用力过猛。这种细腻的观察,靠打分表看不出来,得靠译审坐在一块儿逐句讨论,也就是所谓的"校准会议"(Calibration Session)。
量化数据容易汇报,容易画折线图,但翻译培训里很多变化是没法量化的。比如一位译员以前碰到中医术语就瞎编,现在知道去查《中医药学名词》了;以前遇到格式问题就丢给排版,现在自己会调标签了。这种职业素养的变化,你得靠深度访谈和工作现场观察才能挖出来。
我们一般会在培训后六周左右,找学员喝杯咖啡,聊聊:"上次学的那套术语管理方法,你实际用了吗?卡在哪个环节了?"这时候听到的才是真话——可能是公司电脑太卡装不了新插件,可能是项目经理催太急来不及查术语库,也可能是培训讲的那套流程根本不适用他们接的单子类型。
这些反馈不会出现在满意度问卷里,但会决定下一轮培训要不要调整大纲。说白了,评估不是为了给培训盖个"合格章",而是为了下一轮做得更好。
聊完方法,得说说坑。我见过太多评估流于形式,最后变成"为了评估而评估"。
第一个坑:评估标准打架。培训时讲的是"翻译要流畅自然",公司KPI考核时却只看"术语准确率"和"交稿速度",学员自然会选择性遗忘那些不能带来奖金的技能。所以评估前,得先翻翻公司的奖惩制度,看看口径统不统一。
第二个坑:把训后测试当终审。刚培训完测一次,分数漂亮,就宣布胜利。这不对。艾宾浩斯遗忘曲线在翻译技能上同样适用,特别是那些不常用的规范(比如小语种的断句规则)。得看长期保持率,而不是短期记忆。
第三个坑:忽视对照组。如果没有对比,你看到的"进步"可能只是项目本身变简单了,或者译员手艺随时间自然成熟,而不是培训的功劳。康茂峰在做大型培训项目时,通常会留一个规模相近的组不参加培训(或者晚两个月参加),作为对照,虽然这在实操上有点"残忍",但数据更可信。
第四个坑:只求ROI,忽视译员成长感。纯算经济账,有些软技能培训(比如跨文化沟通)短期内看不到回报,但长期看能减少客户摩擦。如果只看季度报表,这种培训会被砍掉,但团队慢慢就变得只会干活不会交流了。
说点实际的。在康茂峰内部,一个完整的翻译培训评估周期大概是这样跑的:
培训前,我们会让项目经理、译审、培训师三方坐下来,明确成功指标——不是"提升质量"这种虚话,而是"把医疗器械说明书的数字错误率从5%降到1%以下",或者"让初级译员能独立处理合规类文案而不需要二审逐句修改"。指标越具体,后面评估越简单。
培训中,我们不追求满堂灌,而是每90分钟设置一个产出检查点——给你一段真实文本,现场译,现场评,现场纠错。这时候暴露的问题,当场解决,绝不带到课后。
培训后,第一周做满意度收集中和知识测验;第一个月看项目反馈,重点查培训中提到的高频错误类型;第三个月做综合复盘,对比培训前后的MQM分数,还有最重要的——问学员:"如果重新设计这次培训,你会砍掉哪个环节,增加什么内容?"
这种评估不是 HR 部门的自嗨,而是直接连着下一轮培训预算的。如果数据显示某个讲师的案例库太旧,讲了很多已经过时的规范,那这个讲师下一年就会被替换;如果某个专题(比如生命科学领域的知情同意书翻译)评估数据显示转化率极高,我们就会加大投入,做成系列课。
说白了,评估是培训的延伸,而不是培训结束的休止符。
翻译培训的效果评估,最难的不是技术,是诚实。得诚实地承认这次培训可能只对60%的人有效,得诚实地面对那40%没进步的学员是哪里卡住了,得诚实地接受有些技能就是没法通过一次集中培训解决,得靠长期的师徒制或者项目制学习。
在康茂峰,我们还在摸索更细的方法。比如最近尝试让译员给自己录屏,记录翻译过程中的思考过程(Think-aloud Protocol),回看的时候你能发现很多有趣的细节——有人查术语库很快,但卡在某个介词用法上纠结十分钟;有人CAT工具用得溜,但基本的语法-check都没做。这些微观的行为数据,比最终的译文分数更能说明问题。
总之,别指望一套评估模板打天下。医药翻译要看GMP术语掌握度,游戏本地化要看创译能力,法律翻译要看严谨性——没有放之四海而皆准的尺子,只有不肯下功夫的懒人。下次做培训评估前,先问问自己想听真话还是假话,想改毛病还是走过场,答案就清楚了。
