手机版 欢迎访问人人都是自媒体网站
编辑导语:如今在这个大数据时代,我们的日常都被计算在其中,最常见的就是线上购物软件的算法,根据大数据对你进行标签化,推送你可能喜欢的商品;本文作者详细分析了大数据时代的双刃剑,我们一起来看一下。
最近接连温习了几本数据相关的书,作为数学系毕业的学生,虽然毕业多年都无缘从事数据相关的职业,基础的理论知识也基本化整为零,但我对数据一直都蛮感兴趣的,在此也想分享下我的一些看法。
“一家公司宣布3003人持有该公司的股份,每人平均持有660股。”
乍一看,优秀优秀。
别急着鼓掌,这个令人惊叹的数据背后还有另一信息没有透露:“公司累计200万股股票,其中三大股东的股份占了3/4,而剩下的3000人总共持有的股份只占1/4“。
同样的,之前民间盛传的腾讯人均月薪7.18万,看起来是否也颇为可疑?
首先,这数据精确得让人吃惊;其次,未加说明的平均数都是耍流氓;最后,即便你做了大样本调查,可收入作为敏感信息,免不了参杂虚报和瞒报的情况,可信度也要大打折扣——这种话题作为媒体的噱头听听就好,当真了可是要伤心的。
但事实上,人容易为数据痴迷。
学生的能力不好评估,但考试成绩和学位证书可以佐证,于是家长们争先恐后地帮孩子报了补习班;了解一个陌生人很难,但朋友圈和Facebook提供了一个渠道,于是我们都执着于在网上塑造一个理想人设。
看吧,我们一直置身于大数据的热潮中。
我的大学朋友基本上都在从事大数据计算相关的职业,平常我们闲聊时,或多或少会感叹大数据给我们带来的双刃剑。
在充斥数据和算法的年代,究竟是数据为我,还是我为数据?数据是不是就等于我们自己?这个命题太大,我只能随波逐流。
今天主要是想认真探讨下,这么多年来,你我曾经陷入的数据陷阱以及我们能采取的行动。
一、数据会说谎?大数据是个好工具,尤其到了现在,它早已被放大了光环,给我们带来了诸多便利;你浏览过什么,对什么感兴趣,推荐算法总是能精准地匹配你的口味(或者说,大数据定义了你的口味)。
当然,唱衰大数据的人也不少:“数据只是证实了显而易见的事实。”不少人对此不屑一顾。
然而,我最近看到的几个案例,都不止一次地让我啼笑皆非:数据一次又一次地证明了很多我们想当然的推测跟真实是不相符的。
你可能会认为,在暴力电影放映后的当天,那些有攻击性的年轻人会更易怒,犯罪率铁定会上升;但事实上,有经济学家通过数据分析,在电影结束后到次日的凌晨,犯罪率持续在下降;一方面暴力电影让潜在的暴力人群离开了街头,另一方面由于影院几乎不供应酒类饮品,减少了酒精有关的犯罪活动。
大数据为人我们提供了一个新维度的视角,覆盖面较单一的意会更广,让我们对世界的认知也更立体了。
也正是因为如此,我在看一些调研报告的时候发现,这把双刃剑的另一面,终于还是现出了他的真面目。
1. 相关性而非因果性大数据显示,某地某时段起飞了多少只白天鹅,据此推断天鹅都是白的。
这显然太扯了,但你敢拍着胸脯保证自己没掉过这类圈套吗?
甚至有些时候,如果我们无法证明自己想要证明的东西,下意识地就会展示一些其他东西,并假装他们是一样的;毕竟现在统计数据让人目不暇接,几乎没人会察觉到其中的差别,不是吗?
说到这我也不得不反思,我难道没有过吗?掀开这层遮羞布,坦白说,不少情况下当我试图争取更多的权益和话语权时,不自觉地也使了这样的把戏。
运用“看似相关的数据”作为论据,要么是无心之失,要么就是惯用伎俩。
学生时代当我还对数学建模竞赛上心时,考题要求预测一个数值变化趋势,我当时就默默发现了一个“秘密”,即/——给你一组数据,你可以使用任一种范式去找到一个看似好使的指标,但换一组数据,这个指标就失灵了;变量太多,你能试验的样本太少,于是你很容易发现这种假相关性,更别提你想基于这个相关性去推导因果性了。
退一步来说,即便我们通过一个人平常访问网站的内容,监察到他有了犯罪的冲动,那到底是抓他还是不抓他?如果我们不能保证自己是正义的,那么我们也不会在意自己是否邪恶。
有些人很擅长利用现有数据去预估接下来的数据变化,可能是多维度的观察,也可能是有了足够的数据样本;但是,数据会变,我们会变,如果你迷信数据而忽视本质,那么大数据就不能用于预测,只能预测有意会的预测。
Copyright © 2018 DEDE97. 织梦97 版权所有 京ICP