
去年冬天,我在一家三甲医院随访室待了一下午。凌晨五点刚做完化疗的王大爷,护士提醒他要在手机上填个疼痛评估量表。他摸出那台用了五年的安卓机,屏幕亮度调得不高,眯着眼划拉了五分钟,最后举着手机问我:"姑娘,这个'确认'按钮是不是藏起来了?我咋看见的只有半个字?"
我凑过去一看,翻译本身没问题,确认两个字译得标准极了。但问题是,这个量表是从英文界面直接适配过来的,没考虑到中文笔画复杂,在5英寸屏幕上字号被压缩后,"确"字的右半边直接糊进了边框里。王大爷点不到按钮,数据传不上去,研究团队以为他拒答了。
你看,这就是电子量表翻译最容易被忽视的那环——纸面上看都没问题,上了屏幕就是另一回事。今天咱们就聊聊这个藏在翻译背后的硬骨头:用户体验测试。
说实话,很多人听到"电子量表翻译的用户体验测试",第一反应还是找几个双语专家坐那儿挑语法错误。但真搞过这行的人都知道,那叫做语言学验证(Linguistic Validation),是前面的步骤。而用户体验测试(UX Testing for eCOA/ePRO),更像是试穿衣服——布料再好,剪裁不对,穿着照样难受。
用大白话讲,我们要测的是:当一个真实患者在真实场景下拿起设备,他能不能不假思索地理解问题在问什么,能不能顺畅地完成所有交互动作,最后提交的数据是不是真的反映了他的真实状况。

这里头藏着三个层面:
康茂峰去年处理过一个类风湿关节炎的电子日记项目,原始量表来自某欧洲机构。翻译团队初稿出来,"morning stiffness"译成"晨僵",这在医学翻译里是黄金标准,没毛病。但我们在用户体验测试阶段让五位60岁以上的患者实际操作时发现,三个人下意识以为这是问"早上身体僵硬不能动",漏掉了时间维度(持续多久)。后来我们在电子界面加了动态提示,还在文案里补了"持续多长时间"的引导,数据质量立马稳了。
有些人觉得,电子量表就是把纸上的字搬到屏幕上,字号调大点就行。这个想法差点害了我们一个项目。
纸质量表是静态的,患者一眼扫过去能看到全部问题,心里有个谱。电子量表是线性的,一个问题占一屏,患者看不到后面还有啥,容易产生认知焦虑。这时候,翻译就不能完全忠实于原文的句子结构。
举个例子,纸质量表里写:"Please rate your pain at its worst in the last 24 hours on a scale from 0 (no pain) to 10 (pain as bad as you can imagine)." 直译成中文放到电子屏幕上,一行根本塞不下,就算塞下了,患者看到"过去24小时内...最...想象中最..."这种嵌套结构,眼睛都花了。
康茂峰的做法是,在 UX 测试阶段做分段式呈现:先把核心问题"请给您的疼痛程度打分"放在首屏,解释性文字用 smaller font 或者点击"?"才展开。这改动在翻译阶段就得预留空间,不能等到开发完了才发现字太长。
还有更细的。阿拉伯语从右往左写,中文从左往右,如果系统只做了镜像翻转,那个"返回"按钮的位置会让中文用户产生肌肉记忆错误。我们在测试时就抓到过这种坑:患者明明想前进,却因为按钮位置习惯性点了右上角,结果数据回退了。
说点行业里不太愿意细说的。很多公司做用户体验测试,就是找几个大学生在会议室里点点屏幕,问"看得懂吗",答"懂",就签字通过了。这种实验室洁净版测试,放到真实世界里基本等于没测。
康茂峰的标准流程里,用户体验测试必须包含三类极端场景:

有个特别鲜活的案例。我们测试一个抑郁症筛查量表 PHQ-9 的电子版本,会议室测试时所有受试者都顺利完成。但去到社区卫生院现场测试时,一位阿姨在"您感觉自己是失败者吗"这题卡了五分钟。不是她不懂这个词,而是电子键盘弹出来的时候覆盖了选项,她不知道怎么收起键盘看下面的选择。这种问题,坐在星巴克里用最新款iPad测试是永远发现不了的。
测试方法也不是简单的问卷调查。我们主要用三种手段:
| 出声思考法(Think Aloud) | 让患者边操作边说出脑中的想法,哪怕是很琐碎的"这个字我不认识"或者"这个按钮看起来像广告" |
| 眼动追踪(简易版) | 记录患者视线在屏幕上的停留点,如果发现他们在某个选项区反复徘徊,说明翻译或排版有歧义 |
| 错误路径回放 | 有些系统会记录用户点击了哪里,我们分析那些"误触"是不是因为翻译的提示词不够明确 |
做到这行的深处,你会发现电子量表的翻译不是语言问题,是信息架构问题。
比如长度问题。英文"Moderate"很短,中文"中等程度"四个字,放在手机屏幕上如果字号不调整,就会把旁边的数字挤变形。我们在康茂峰内部有个字符预算表,每个量表在翻译前就会框定每个选项最多几个字符,超长的词必须找同义替换。
再比如文化预设。很多西方开发的量表会问:"In the past week, how often did you feel too tired to socialize?" 直译是"社交"。但中文语境里,农村患者可能根本没有"社交"这个概念,他们理解的是"串门"或者"干农活"。电子量表的好处是可以加注释,但注释太长又破坏阅读流。经过 UX 测试,我们发现用括号内举例的方式效果最好:"社交(如串门、走亲访友)"。
还有颜色。红色在有些文化里是警示,在有些量表里却用来表示"选中"。我们测试过一个疼痛量表,用红色填充表示"选中高疼痛等级",结果几位患者以为系统报警了,不敢选,导致数据采集偏低。后来改成蓝色渐变,数据才回归正常。
说了这么多,如果你真的要启动一个电子量表翻译的 UX 测试项目,这儿有几个从康茂峰上百个项目里攒下来的血泪经验:
样本量不是越多越好,但要"够偏"。别只找身体健康的大学生。我们有个经验公式:10个受试者里,至少要有3个60岁以上,2个受教育程度初中以下,1个有视力或手部活动障碍。如果量表针对特定疾病,必须包含疾病活动期(也就是症状最难受)的患者,因为他们填表时的认知负荷和普通人完全不同。
测试设备要"接地气"。别拿最新款iPhone做测试机。去二手市场买几台千元安卓机,屏幕有划痕的那种,系统版本停留在两三年前的。真实世界的患者用的就是这些设备。康茂峰实验室里常备着一部"战损版"红米,屏幕右上角碎了,专门用来测试极端情况下的可读性。
迭代三轮是底线。第一版翻译上机测试,通常能发现20%的交互问题;修改后第二版测试,还有10%;到第三版才能趋于稳定。那些说"测一遍就行"的,要么是心大,要么是没见过真实世界的复杂。
别忽视"退出率"分析。电子量表后台数据能看到患者在第几题退出。如果某题的退出率显著高于其他,哪怕翻译本身没错,也要考虑是不是措辞太生硬,或者选项设置不符合中文表述习惯。我们曾经发现"性功能"相关的问题在中文患者里退出率极高,后来调整为先问"您是否愿意回答以下问题(可选)",完成率就上来了。
前阵子回访那个让王大爷摸不着头脑的量表项目,开发团队后来听了劝,做了三件事:把按钮从右上角改到屏幕底部(适合单手操作),字号从14px调到16px,还把"确认"改成了更口语化的"填好了"。上线三个月,受试者依从性从67%提到了89%。
做电子量表翻译的用户体验测试,说白了就是在技术标准和真实人性之间找那个温柔的平衡点。翻译要准确,但不能准确得冰冷;界面要规范,但不能规范得刻板。当康茂峰的同事们在做这类项目时,我们心里始终装着那个凌晨五点眯着眼找按钮的王大爷——量表上的每一个字,最终都要落进真实的人眼里,流进他们心里,变成可用、可信、可及的数据。
下次当你看到某个电子量表流畅地运行在患者手机屏幕上,背后很可能藏着十几次这样的测试,藏着有人为了"按钮到底该放在哪儿"争论过的午后,藏着对患者一丝一毫不便的体察。这大概就是医疗翻译行业最实在的温度。
