数据是如何“骗”你的？聊聊数据分析可能遇到的坑

时间：2021-02-07 09:26|来源：网络整理|编辑：采集侠|点击：次

马克吐温：“世界上有三种谎言，分别是谎言、该死的谎言、和统计数字。”

数据是不是最客观？最真实？

其实挺多人都有点迷信数据，因为数字不会说谎，考了100分就是比考了99分高。但现实生活远比考试复杂，我们每天主动或被动接触大量数据，可能是行业报告、媒体报道，也可能是产品广告，做决策的时候也往往要看到数据才安心。其实，数据很多时候并不那么“单纯”，用数据的人也有意无意会犯错，所以很多时候太过迷信数据，反而容易出问题。

所以今天从数据来源偏差、数据解读陷阱、人为操控误导这三方面来聊聊数据的“坑”，希望你看完后能了解些套路，再看报告或数据时多个心眼，带着怀疑的精神看数据。不要掉入陷阱，

数据是如何“骗”你的？聊聊数据分析可能遇到的坑

一、数据来源偏差 1. 样本量和代表性

你可能听说过“黑巧克力能减肥”这个说法。2015年约翰波哈诺博士在一篇期刊上登出了这项研究成果，媒体记者们一看，呦，可以搞个大新闻啊，把传统观念批判一下，纷纷转载。

但其实这个事件都是波哈诺杜撰出来的，他随便找了16个人做样本基数，然后就推导出这么个结论，目的就是想看看谣言怎么变成权威媒体的头条。研究发表后没有一个记者来联系他问他这个实验的样本量是多少、代表性怎么样、过程是否合理，直接就发表和引用了“研究成果”。直到现在，还有些自媒体或者微商们在拿这条假消息当论据。

数据是如何“骗”你的？聊聊数据分析可能遇到的坑

我们为什么要关注样本量和样本代表性？

比如你要想知道年轻人对流量明星的态度，但是年轻人有好几亿，也不可能挨个问对吧。所以要抽样，抽出几百一千个人，用他们的态度去代表整体人群的态度。但是你找了800个小哥哥的粉丝，200个纯路人，得出来的结果肯定是好好好，棒棒棒啊。

所以，样本量和代表性是决定数据结果靠不靠谱的前提条件。

大厂们虽然看起来有“大”数据，但是由于数据孤岛的存在，其实数据也是有偏向的。比如阿里固然有淘宝几亿用户的消费数据，但是也拿不到这几亿用户的微信数据。而且大数据基本都是行为数据，和真实态度、心理预期等等态度数据还有有差别，再有就是用相关性推测因果也有不少坑。

第三方机构发布的数据报告，有些也号称是大数据，数据库里有几百几千万样本，但其实不是全集数据，多多少少也会有些偏向性。特别是在互联网行为、消费行为上，我个人感觉很多数据都是偏高的。

还有就是朋友圈问卷，最近有些同学在写论文收数据，在同学群和朋友圈发问卷当然会是比较省时省力的。但是因为答题的人背景都比较接近，所以回收回来的数据不做处理也会有些偏差，比如你想测一下某个产品定价，这个产品面向普通大众、中低产消费者，但是填问卷的都是你的研究生同学，大家收入和消费能力可能是比普通大众高一些的，收回来的定价结果可能就偏高了。所以在处理和解读时都得注意，万一最后影响论文答辩，还请去翟博士微博底下留言发泄。

针对这些问题，正规的调查是比较看重数据源的，会通过设置配额、分层抽样、分散抽样点位、小群体加权等等方式来尽可能消除偏差，让一两千样本能代表广泛人群。但是很多时候也办法尽善尽美，还是会有很多问题。其实统计数据的抽样误差是个很大的话题，感兴趣的话可以看看《简单统计学》《赤裸裸的统计学》，里面有挺多案例，而且门槛不高，不太需要数学功底。

作为非专业人士的我们，其实看报告或者看数据时主要还是留个心眼。看看有没有提到数据源，数据源可能带来哪种偏差，带着思考去看报告。如果看到一些数据结论和你的认知有差别、甚至是相反的，不用立刻相信结论，扭转认知，而是先想一想这数据来源靠谱嘛，发数据的机构有目的吗。另外，也不用太纠结于具体数字（因为大概率都是不准的），而是去看数字背后的趋势、比较、差异。

2. 问题缺陷

刚才我们也提到大数据更多是行为数据，有时要拿到态度数据，还是要靠用问卷问问题的方式。在用问卷收集数据时，如何问对问题就很有讲究了。

特别是有些机构或商家，为了得到自己想要的数据“证据”，会故意问有偏向的问题。也有些时候是写问题的人没有好好站在被访者的角度去思考和设计问题，结果费了半天力，拿到的数据其实是无效的。比如这几种情况：

（1）正面诱导

上一篇：以抖音留存分析为例，用数据分析改进业务下一篇：昨天数据为何跌了30%？4个技巧轻松应对老板发问

热门导读

编辑推荐