手机版 欢迎访问人人都是自媒体网站
在“A/B测试”和“竞品分析”中,我们如何判断两个版本的产品设计的差别?
上节《数据的比较分析(一):我们达到或者超过目标了吗?》我们讲述的是产品改版基于目标指标,我们距离还有多远,从而制定改进的产品迭代的策略。
而这节讲到不同版本之间的差异,主要用在“A/B测试”和“竞品分析”中,我们需要判断两个版本的产品设计的差别,如转化率、任务时长、排名;仅仅通过描述性的统计并宣称一个设计的好坏是远远不够的,这时候我们就会发现统计学的必要性。
一、我们从“组内比较”和“组间比较”说起这里我们常常会涉及到的是“组内比较”和“组间比较”。
组内比较一般来说是让通一组人参加两个不同版本的设计,这两个版本可能是竞品,可能是一个公司不同产品经理或者UI设计师设计出来的作品;这样的试验好处在于可以排除个体差异对测试结果的混淆。
在这类测试中你需要对用户先接触哪个产品做平衡处理,从而将学习效应的影响降到最低。
如果让用户先体验A产品,无论结果是支持或者否定A产品,都可能存在由于顺序造成的用户偏差风险,这时候组内设计发挥的作用是,将检测结果的差异归因产品间有差异(而非个体的差异),且同样的样本可以检测到更小的差异。
组间设计组间设计比较的是不同的用户使用不同的产品,不同的用户和不同的设计都会带来变化;所有我们必须检验均值间的差异是否比不同的用户所带来的差异更大。
这里要特别说明一下A/B测试,现在我们常用的AB测试一般来说都是测量的是转化率这个指标,但是转化率这个指标我觉得是一个综合指标,一个转化目标是受很多因素来影响的,例如例如转化目标受产品的可用性、LITT模型等等。
而且在测试期间,为了保证不同版本的测试差异最小,需要的是同一时间、同一场景、同一用户样本,所有这这期间在最短的时间内达到需要的样本容量的话,所受的影响因素会最小。
所以很多AB测试的产品都需要使用的产品在日活达到1000UV以上,这样就能在最短的时间内,达到想要的样本容量。
二、在比较分析时受影响的因素(1)实验的类型:首先要确定这是组内试验还是组间试验?
(2)样本的大小:其次相对而言是大样本还是小样本?
(3)数量的类型:最后看数据的类型,是连续性数据还是离散型二分式数据?
三、连续型数据的对比 1. 组内比较——配对t检验关于t值得计算方法:
我们得到检验统计量(t)值之后,为了确实是否差异显著,需要在t表(t-table)中查p 值(p-value),也可以使用Excel公式=TDIST()来计算或者核算值。该计算方法无论大小样本都适用。
关于差异的置信区间的计算方法:
配对t检验中的p值只用来告诉我们差异是否显著,但是我们做比较的时候我们还想知道差异究竟有多大既常说的“效应量”;随着样本容量增大(至少100以上),检测结果很容易出现统计显著差异,而实际的效应量却不显著。
差异的置信区间有助于区分细微的(即便是统计显著性的)差异和值得引起使用者注册的差异。
计算差异分数的置信区间如下:
组间比较的时候,不同用户使用不同的产品;不同用户和不同设计都会带来变化。必须建议均值间的差异是否比不同用户所带来的差异更大。
关于t值得计算方法:
这属于双样本t检验,得出的t值需要使用Excel公式=TDIST(t,自由度,样本组数量),通过这个公式来得到p-value值,最后确定两个样本直接是否存在统计的显著性。
关于差异的置信区间的计算方法:
在计算特定水平置信度和自由度下的临界值时的计算方法是:
Copyright © 2018 DEDE97. 织梦97 版权所有 京ICP