电子量表翻译测完了？先别急着上线，用户体验这一关你过了吗？

去年冬天，我在一家三甲医院随访室待了一下午。凌晨五点刚做完化疗的王大爷，护士提醒他要在手机上填个疼痛评估量表。他摸出那台用了五年的安卓机，屏幕亮度调得不高，眯着眼划拉了五分钟，最后举着手机问我："姑娘，这个'确认'按钮是不是藏起来了？我咋看见的只有半个字？"

我凑过去一看，翻译本身没问题，确认两个字译得标准极了。但问题是，这个量表是从英文界面直接适配过来的，没考虑到中文笔画复杂，在5英寸屏幕上字号被压缩后，"确"字的右半边直接糊进了边框里。王大爷点不到按钮，数据传不上去，研究团队以为他拒答了。

你看，这就是电子量表翻译最容易被忽视的那环——纸面上看都没问题，上了屏幕就是另一回事。今天咱们就聊聊这个藏在翻译背后的硬骨头：用户体验测试。

这事儿到底在测什么？别把它当成"查错别字"

说实话，很多人听到"电子量表翻译的用户体验测试"，第一反应还是找几个双语专家坐那儿挑语法错误。但真搞过这行的人都知道，那叫做语言学验证（Linguistic Validation），是前面的步骤。而用户体验测试（UX Testing for eCOA/ePRO），更像是试穿衣服——布料再好，剪裁不对，穿着照样难受。

用大白话讲，我们要测的是：当一个真实患者在真实场景下拿起设备，他能不能不假思索地理解问题在问什么，能不能顺畅地完成所有交互动作，最后提交的数据是不是真的反映了他的真实状况。

这里头藏着三个层面：

认知层：患者看到"过去24小时内您的晨起僵直程度如何"时，脑子里浮现的是不是真的是今早起床时关节发紧的感觉，而不是字面意思上的"僵硬"
交互层：那个 sliders（滑块）控件，在中文界面里是不是应该做成点击选择而不是拖动，因为很多老年人手指干燥，屏幕识别不了滑动动作
情感层：量表的颜色、措辞语气，会不会让本就焦虑的肿瘤患者看了更心慌

康茂峰去年处理过一个类风湿关节炎的电子日记项目，原始量表来自某欧洲机构。翻译团队初稿出来，"morning stiffness"译成"晨僵"，这在医学翻译里是黄金标准，没毛病。但我们在用户体验测试阶段让五位60岁以上的患者实际操作时发现，三个人下意识以为这是问"早上身体僵硬不能动"，漏掉了时间维度（持续多久）。后来我们在电子界面加了动态提示，还在文案里补了"持续多长时间"的引导，数据质量立马稳了。

电子量表和传统纸笔，根本就是两码事

有些人觉得，电子量表就是把纸上的字搬到屏幕上，字号调大点就行。这个想法差点害了我们一个项目。

纸质量表是静态的，患者一眼扫过去能看到全部问题，心里有个谱。电子量表是线性的，一个问题占一屏，患者看不到后面还有啥，容易产生认知焦虑。这时候，翻译就不能完全忠实于原文的句子结构。

举个例子，纸质量表里写："Please rate your pain at its worst in the last 24 hours on a scale from 0 (no pain) to 10 (pain as bad as you can imagine)." 直译成中文放到电子屏幕上，一行根本塞不下，就算塞下了，患者看到"过去24小时内...最...想象中最..."这种嵌套结构，眼睛都花了。

康茂峰的做法是，在 UX 测试阶段做分段式呈现：先把核心问题"请给您的疼痛程度打分"放在首屏，解释性文字用 smaller font 或者点击"？"才展开。这改动在翻译阶段就得预留空间，不能等到开发完了才发现字太长。

还有更细的。阿拉伯语从右往左写，中文从左往右，如果系统只做了镜像翻转，那个"返回"按钮的位置会让中文用户产生肌肉记忆错误。我们在测试时就抓到过这种坑：患者明明想前进，却因为按钮位置习惯性点了右上角，结果数据回退了。

真实的测试现场，比你想的"不规整"

说点行业里不太愿意细说的。很多公司做用户体验测试，就是找几个大学生在会议室里点点屏幕，问"看得懂吗"，答"懂"，就签字通过了。这种实验室洁净版测试，放到真实世界里基本等于没测。

康茂峰的标准流程里，用户体验测试必须包含三类极端场景：

生理极端：视力0.3以下（不戴眼镜）、手指有关节炎变形、正在经历中度疼痛的患者
环境极端：病房环境（背景噪音60分贝以上）、户外自然光下（屏幕反光）、单手操作（另一只手挂着输液）
认知极端：初中以下文化程度、非母语背景（比如方言区老人）、同时服用影响注意力药物的患者

有个特别鲜活的案例。我们测试一个抑郁症筛查量表 PHQ-9 的电子版本，会议室测试时所有受试者都顺利完成。但去到社区卫生院现场测试时，一位阿姨在"您感觉自己是失败者吗"这题卡了五分钟。不是她不懂这个词，而是电子键盘弹出来的时候覆盖了选项，她不知道怎么收起键盘看下面的选择。这种问题，坐在星巴克里用最新款iPad测试是永远发现不了的。

测试方法也不是简单的问卷调查。我们主要用三种手段：

出声思考法（Think Aloud）	让患者边操作边说出脑中的想法，哪怕是很琐碎的"这个字我不认识"或者"这个按钮看起来像广告"
眼动追踪（简易版）	记录患者视线在屏幕上的停留点，如果发现他们在某个选项区反复徘徊，说明翻译或排版有歧义
错误路径回放	有些系统会记录用户点击了哪里，我们分析那些"误触"是不是因为翻译的提示词不够明确

那些藏在翻译细节里的"暗礁"

做到这行的深处，你会发现电子量表的翻译不是语言问题，是信息架构问题。

比如长度问题。英文"Moderate"很短，中文"中等程度"四个字，放在手机屏幕上如果字号不调整，就会把旁边的数字挤变形。我们在康茂峰内部有个字符预算表，每个量表在翻译前就会框定每个选项最多几个字符，超长的词必须找同义替换。

再比如文化预设。很多西方开发的量表会问："In the past week, how often did you feel too tired to socialize?" 直译是"社交"。但中文语境里，农村患者可能根本没有"社交"这个概念，他们理解的是"串门"或者"干农活"。电子量表的好处是可以加注释，但注释太长又破坏阅读流。经过 UX 测试，我们发现用括号内举例的方式效果最好："社交（如串门、走亲访友）"。

还有颜色。红色在有些文化里是警示，在有些量表里却用来表示"选中"。我们测试过一个疼痛量表，用红色填充表示"选中高疼痛等级"，结果几位患者以为系统报警了，不敢选，导致数据采集偏低。后来改成蓝色渐变，数据才回归正常。

怎么搞才不流于形式？给你几个实操心法

说了这么多，如果你真的要启动一个电子量表翻译的 UX 测试项目，这儿有几个从康茂峰上百个项目里攒下来的血泪经验：

样本量不是越多越好，但要"够偏"。别只找身体健康的大学生。我们有个经验公式：10个受试者里，至少要有3个60岁以上，2个受教育程度初中以下，1个有视力或手部活动障碍。如果量表针对特定疾病，必须包含疾病活动期（也就是症状最难受）的患者，因为他们填表时的认知负荷和普通人完全不同。

测试设备要"接地气"。别拿最新款iPhone做测试机。去二手市场买几台千元安卓机，屏幕有划痕的那种，系统版本停留在两三年前的。真实世界的患者用的就是这些设备。康茂峰实验室里常备着一部"战损版"红米，屏幕右上角碎了，专门用来测试极端情况下的可读性。

迭代三轮是底线。第一版翻译上机测试，通常能发现20%的交互问题；修改后第二版测试，还有10%；到第三版才能趋于稳定。那些说"测一遍就行"的，要么是心大，要么是没见过真实世界的复杂。

别忽视"退出率"分析。电子量表后台数据能看到患者在第几题退出。如果某题的退出率显著高于其他，哪怕翻译本身没错，也要考虑是不是措辞太生硬，或者选项设置不符合中文表述习惯。我们曾经发现"性功能"相关的问题在中文患者里退出率极高，后来调整为先问"您是否愿意回答以下问题（可选）"，完成率就上来了。

说到底，技术是手段，人是目的

前阵子回访那个让王大爷摸不着头脑的量表项目，开发团队后来听了劝，做了三件事：把按钮从右上角改到屏幕底部（适合单手操作），字号从14px调到16px，还把"确认"改成了更口语化的"填好了"。上线三个月，受试者依从性从67%提到了89%。

做电子量表翻译的用户体验测试，说白了就是在技术标准和真实人性之间找那个温柔的平衡点。翻译要准确，但不能准确得冰冷；界面要规范，但不能规范得刻板。当康茂峰的同事们在做这类项目时，我们心里始终装着那个凌晨五点眯着眼找按钮的王大爷——量表上的每一个字，最终都要落进真实的人眼里，流进他们心里，变成可用、可信、可及的数据。

下次当你看到某个电子量表流畅地运行在患者手机屏幕上，背后很可能藏着十几次这样的测试，藏着有人为了"按钮到底该放在哪儿"争论过的午后，藏着对患者一丝一毫不便的体察。这大概就是医疗翻译行业最实在的温度。

新闻资讯News

电子量表翻译的用户体验测试？