产品测试：只找五位用户就够了？为什么？

产品测试| 2016-03-11

译者按：做用户测试，听起来好像是件非常高大上、专业、要花掉一大笔钱的事情。但其实并非如此。这篇文章是 Nielsen Norman 咨询集团的董事、「十大可用性原则」理论的提出人 Jakob Nielsen 博士在 2000 年发表的，所以里面都是在谈论网站而不是现在更流行的 app。但是这并不妨碍我们思考他的结论，并且做出尝试。

有人认为可用性测试又烧钱又复杂，即使要用也应该是那一小部有预算、有时间的网页设计项目上面。但事实并非如此。复杂的可用性测试确实是种浪费。其实，每次测试只需不超过五个用户。只要尽可能多搞些这种小测试，就能取得最佳效果。

在之前的研究中，Tom Landauer 和我曾提出，在一项有 n 个用户参与的可用性测试中，能够找到的相关问题的数量是：N (1-(1- L) ^n )

其中，N 是该产品设计中关于可用性的问题的总数，L 是测试单个用户所能发现的可用性问题占通过他发现的问题总数的比例。通常，L 的值为 31％，这是我们研究大量项目后计算出的一个均值。如果取 L 为 31%，将上述公式表示成曲线，则如下图：

（译者注：横轴是测试用户的个数。竖轴是测试中发现的关于可用性的问题的总数。）

不出意料，从这个曲线中我们看到，没有测试的话我们得到的反馈是零。

一旦从第一位测试用户那里搜集到了数据，你一下子就会有不少想法，几乎就是关于这项设计的可用性你所应该知道的全部问题的三分之一。没有数据和即使有一丁点儿的数据之间可谓天差地别。

当你测试第二位用户的时候，你会发现他／她的有些表现跟第一位用户是一样的，所以你新得知的东西里面其实有一部分重叠。毫无疑问，没有两个人是相同的，所以第二位用户总是能给你带来一些新的东西，而这些东西是你在测试第一位用户时没有观察到的。所以，第二位用户能带来一些新鲜的想法，但远不及第一位用户多。

第三位用户的很多行为可能你已经在第一位或者第二位用户身上，甚至在两者身上你都已经观察到了。不过当然了，即使比不上第一位和第二位用户，这第三位用户依然会给你带来些许新的数据。

随着你测试的用户越来越多，你能新获取的东西会越来越少，因为你将一次次地看到同样的东西。所以真的没有必要不断地观察相同的东西，你将会迫不及待地想回到你的工作台前重新设计网站来消除这些可用性方面的问题。

从第五位用户之后，你就在浪费你的时间重复观察同样的结论而没有任何新的收获。

设计迭代

上面的曲线明确显示，你需要测试至少 15 位用户才能发现关于这项设计所有的可用性问题。那为什么我建议只需要测试五位用户呢？

主要是因为比起把所有资源砸到一个复杂的大型测试里，把预算分配到很多小型用户测试会更理想。现在我们假设你有足够的预算来招募 15 位代表用户进行测试。很好，把这笔预算拿来做三次小测试，每次五名用户！

进行多次测试是因为，可用性工程的真正目的不仅仅是记录设计的不足之处，而是做出改进。通过第一次对五名用户进行测试之后， 85% 的可用性问题已经被发现。这时候你会希望着手重新设计，解决这些问题。

当你完成新一轮的设计之后，你需要再次测试。尽管我之前说过新设计应该 “解决” 在第一次测试中发现的问题，事实上只是你认为新的设计已经解决了这些问题。但是既然没有人能够设计出完美的用户界面，谁也不能保证这个新的设计真的解决了前述问题。而第二次测试就能够发现这些改进是否真的奏效。另外，在引入新的设计的同时，总有可能会引入新的问题，即使旧问题已经得到了解决。

此外，第二次测试将会发现第一次测试中遗留的 15% 的可用性问题中的一大部分。（然后还会有 2% 的原始问题——这些问题得等到进行第三次测试才能被发现。）

最后，第二次用户测试能更深入地发掘出网站在基础结构方面的可用性问题，包括信息架构、任务流以及用户需求匹配。这些重要问题常常在起初的测试中被忽略了，因为被测试的用户被一些愚蠢的、表面的问题绊住了，没能够真正发现网站的深层次问题。

所以第二次测试既能够保证第一次测试结果的质量，也能够帮助提供更深刻的反馈。经过这次测试，你将得到一份新的（但数量更少的）需要在下一轮设计中解决的可用性问题清单。上述问题同样适用于下一轮设计：不是所有的解决措施都有效；优化完互动界面之后，一些更深层次的问题将浮出水面。所以，第三次测试也是有它的用武之地的。

比起一次 15 名用户参与的庞大的测试，三次仅有五名用户的小测试能更有效地提升用户体验。

为什么不一次只测试一个用户

也许你会想 15 次一个用户的测试会比三次五个用户的测试效果更好。上面的曲线图也确实显示我们从第一个测试用户那里所获取的信息远多于之后的其他用户。既然如此，我们会什么要在一次测试中纳入第二第三甚至更多个用户呢？原因有两个：

你有可能会被某一个用户的不寻常行为所误导，这些行为是偶然为之或者不具有代表性。三个用户就足以让你大概了解用户行为的多样性以及其中哪些是特例哪些具有代表性的。
用户测试的成本收益分析显示，最佳的每次测试用户数量在三到五个之间，具体要根据测试的方式而定。一次测试的规划和实施总是有固定的初始成本，这就意味着最好是将这笔初始的开销平摊到从用户那里所取得的成果上。

什么时候需要测试更多用户

如果你的网站面向几类非常不同的用户，那么你需要对更多用户进行测试。以上方法只对那些对网站的利用方式相差无几的具有可比性的用户有效。

如果说你的网站同时面向孩子和家长，这两个用户群的行为表现极其不同，你就有必要对这两群人都进行用户测试。同样的方法也适用于连接销售方和购买方的系统。

即使各个用户群之间差异再大，从两个群体之间观察得到的结果也总会存在很多共同之处。毕竟，所有的用户都是人。此外，很多可用性问题是关于人与页面交互的根本方式和其它网站对于用户行为的影响。

在对多个差异巨大的用户群体进行测试的时候，你不需要像对单一群体进行单一测试时那样在每个群体中都纳入那么多用户。即使对每个群体测试时没有很多的用户，但不同群体之间的观察结果的重叠部分会确保最终结果的有效性。所以我建议：