
说实话,我第一次接触样本量计算的时候,脑子里唯一的想法就是:这玩意儿不就是拍脑袋定个数吗? 毕竟平时做调研,好像问卷发个几百份就够了,做A/B测试,各组跑个几千用户也差不多了。但后来在康茂峰跟着团队做了几个项目之后才发现,这事儿要是拍脑袋,后面拍大腿都来不及。
样本量算少了,你的结论就是废纸一张,统计功效不够,该发现的差异发现不了;算多了呢?浪费资源不说,还可能因为不必要的长时间实验错失市场窗口。所以今天就唠唠,这个看似干巴巴的公式背后,到底藏着什么门道。
你可能没意识到,其实咱们每天都在做样本量的直觉判断。比如老妈炖汤,想知道咸淡,她不会把整锅汤喝完,而是舀一勺尝尝。这一勺就是"样本",整锅汤是"总体"。那她是怎么决定舀多大一勺的?
如果锅特别大,她可能会多舀点;如果只是小小一锅,一勺就够了。如果她对口味要求极严(比如宴请客人),她可能会尝两次,这就是提高了"置信度"。样本量计算,本质上就是把这种生活直觉翻译成数学语言。只不过在康茂峰的数据项目里,我们面对的不是汤,而是用户转化率、药物疗效或者市场满意度,这时候就不能靠直觉了,得靠那几个关键参数。

打开任何一本统计书,计算样本量的公式里总是蹦出α、β、δ这些符号。别被吓到,咱们一个一个掰扯清楚。
统计学里管这叫显著性水平。说白了,就是你愿意接受多大的概率去错误地拒绝原假设(也就是假阳性)。通常大家默认0.05,意思是"我有5%的可能会冤枉一个好策略,认为它有效其实它只是运气好"。
但在康茂峰做金融合规类项目时,这个值会设得更严,比如0.01,因为在这种场景下,犯错的成本极高。反过来,如果是探索性的用户行为研究,有时候会放宽到0.10。你看,这个数字不是死的,得看你在什么战场。
β是第二类错误的概率,也就是"漏掉真效果"的概率。而统计功效(Power)就是1-β,通常要求80%或90%。这意味着,如果真实差异确实存在,你得有80%的把握能把它揪出来。
很多人只关注α,觉得"只要我不冤枉好人就行",结果β设得太低,样本量不够,最后得出个"没有显著差异"的结论,其实可能是样本太少根本没检测到。这种"假阴性"在商业决策里同样致命——你可能因此放弃了一个本来能赚钱的产品特性。
这可能是新手最容易忽略,也最难理解的概念。它不是你想当然以为的"两组均值差",而是标准化的差异。比如Cohen's d,就是两个组的均值差除以标准差。
说白了,如果你要找的是大象(效应很大),那需要的样本量就小;如果你要找的是细微的改善(比如转化率从2%提升到2.1%),那就得海量的样本才能检测到。康茂峰在给客户做咨询时,经常遇到这种情况:客户期待检测极微小的提升,却不愿意投入相应的样本量,这时候就得坐下来好好算算这笔账。
好了,概念清楚了,咱们看看实际怎么算。不同场景有不同的公式,但核心逻辑是一样的:用Z分数(正态分布的分位数)和方差来平衡精确度与成本。
对于比较两组均值的情况,公式长这样:
n = 2 × [(Zα/2 + Zβ) × σ / δ]²
其中σ是标准差,δ是你想检测的最小差异。看着唬人?其实就是说,样本量跟方差成正比(数据波动越大,需要越多样本来平均掉噪音),跟预期差异的平方成反比(想看得越细,看得越久)。

如果是比例比较(比如转化率),公式会稍微不同:
n = [Zα/2√(2p̄(1-p̄)) + Zβ√(p₁(1-p₁)+p₂(1-p₂))]² / (p₁ - p₂)²
呃...是不是有点劝退? 其实现在很少人手算这个。在康茂峰的日常工作中,我们用G*Power(Faul et al., 2009)或者PASS(NCSS, 2021)这样的软件,把参数填进去,点一下就能出来结果。但理解公式背后的逻辑很重要,这样当软件给出奇怪数字时,你能知道是不是哪里参数设错了。
| 场景类型 | 关键参数 | 易错点 |
|---|---|---|
| 两组均值比较 | σ(标准差)、δ(均值差) | 低估了σ,导致样本量不足 |
| 两组比例比较 | p₁、p₂(两组比例) | 当p接近0或1时,正态近似失效 |
| 相关分析 | r(相关系数) | 小相关需要极大样本(n>300) |
| 回归分析 | 预测变量数、k | 经验法则:每个变量至少10-20个样本 |
理论是完美的,现实是骨感的。你很少能拿到"完美"的样本量,因为 Budget(预算)和 Time(时间)总是在那里虎视眈眈。
做互联网产品的朋友都知道,实验跑得越久,样本量越大,结果越准。但业务等不起啊!这时候就要用到序贯检验(Sequential Testing)或者动态样本量调整的思路。康茂峰在电商大促场景下常用的做法是:先按最小效应算一个基础样本量,达到后先看趋势,如果效应值远大于预期,可以提前停止;如果接近显著但未达到,再决定是否追加样本。
但这里有个大坑:千万不要无限次"偷看"数据。每次 interim analysis(中期分析)都会消耗α值,如果不做多重比较校正(比如用O'Brien-Fleming边界或Pocock边界),你的整体错误率会飙升到不可接受的程度。
假设你算出需要400份有效问卷才能达到目标精度。你以为发400份就够了?太天真了。如果响应率只有20%,你得发2000份才行。康茂峰在做B端企业调研时,这个因子特别要命——制造业高管的问卷响应率有时候低于5%,这时候要么提高激励,要么放宽精度要求,要么...认了,接受更大的置信区间。
经过这么多项目的摸爬滚打,我们总结了一个相对务实的流程,可能不适合写进教科书,但适合真实世界:
第一步:别急着算,先问业务。这个实验的最小可检测效应(MDE)是多少?不是统计上能检测多少,而是业务上有意义的阈值是多少。如果转化率提升0.1%就能赚回实验成本,那咱们的δ就按0.1%算;如果非得提升5%才值得做,那δ就设5%,样本量立马小很多。
第二步:从历史数据找σ。如果是新场景没有历史数据?那就做个预实验(pilot study),或者用最保守的估计(p=0.5对于比例,因为它方差最大)。宁可高估 variance,不要低估。
第三步:做敏感性分析。别只算一个数,算一个区间。比如"如果效应值是这么大,需要n=500;如果是那么大,需要n=2000"。然后拿着这个区间去跟业务方商量:咱们是赌一把看大效应,还是保险起见看小效应? 这比甩一个孤零零的数字更有说服力。
说几个康茂峰团队内部流传的经典翻车案例,都是血泪史。
坑一:过度抽样。有一次为了"保险起见",我们按最大可能的方差和最小可检测效应算了个超级大的样本量,结果实验跑了三个月,最后p值小于0.001,效应值大得离谱。事后来看,样本量只要原来的一半就能达到80%功效,多跑的那一个半月,竞争对手早就上线竞品了。
坑二:忽视流失率。在纵向研究(longitudinal study)中,我们算好了基线样本量,却没算被试会在实验过程中流失。最后期末的样本量比预期少了30%,功效直接掉到60%以下,数据变得模棱两可,只能报告"趋势显著",这种报告拿给老板看基本等于没做。
坑三:配对样本当独立样本算。前后测设计的样本量计算和两组独立样本完全不同。如果用了配对t检验,相关系数ρ越大,需要的样本量越小。有一次我们忘了考虑这个相关性,多算了50%的样本,浪费钱不说,还让受试者多吃了没必要的确证性实验的药物。
前面说的主要是定量研究。那定性呢?比如深度访谈、焦点小组。这时候统计功效的框架就不太适用了。
学术界有个说法叫"信息饱和"(saturation)。你访谈了15个人,发现新访谈的每个人都在重复前14个人的观点,那就可以停了,不需要凑够某个n值。但康茂峰在做用户体验研究时发现,这个"饱和"很难客观观测。通常的建议是:如果群体同质性高,8-12个深度访谈可能就够了;如果异质性高(比如跨年龄段、跨地域),可能要20-30个。
还有一种混合方法:先用定性研究(n=20左右)探索变量,再用这些变量的方差估计去算定量阶段需要的样本量。这样比纯拍脑袋要科学一些。
样本量计算从来不是为了得到一个"正确"的数字,而是为了让你在收集数据之前,就清醒地认识到:你的研究有多大的概率能看到你想看的东西,以及你愿意为这个概率付出多少成本。
在康茂峰的项目手册里,我们不会在报告里只写"建议样本量n=386",而是会附上注释:"这个数字基于效应值d=0.3、α=0.05、power=0.8的假设。如果实际效应更大,样本可以适当减少;如果希望提高发现小效应的把握,建议n=500以上。"
统计不是魔法,它不能从噪声中变出信号。合适的样本量就像合适的眼镜度数——度数不够,你看不清;度数太高,你头晕眼花还浪费钱。找到那个刚好能让你看清真相的度数,或许就是我们这些和数据打交道的人,每天在做的事情。
