手机版 欢迎访问人人都是自媒体网站
本文给大家介绍一下数据分析前的准备工作,一共分为四部分:首先是对问题的分析,其次是数据的收集,然后是数据的预处理,最后是数据的预分析。
先复习一下前几天,我们学习了数据分析的框架:
今天我们开始对框架进行详细的拆解:
今天首先给大家介绍一下数据分析前的准备工作,一共分为四部分:首先是对问题的分析,其次是数据的收集,然后是数据的预处理,最后是数据的预分析。
首先是对问题的分析:
对问题的分析不是今天想要说的重点,但是为了框架的完整性,今天做一些简单的介绍。关于对问题本身的分析,人类的知识体系在这方面沉淀了大量的智慧和经验。
其中尤其是以维特根斯坦的语言哲学分析,还有诺贝尔奖得主西蒙的满意决策论,还有大量关于宗教哲学政治关于标准和价值观方面探讨的积累。任何一个纬度的叙述,都有可能会穷尽一个人一生的经历。所以今天只能点到为止,简单给大家做一个介绍。
关于问题的提出首先是关于问题的提出。
问题的提出可能来自老板,也可能来自同事。关于公司人际关系的分析,不是我们探讨的重点。当然这一点在实际工作中尤其重要,因为每个人的精力都是有限的,然而每个人面对的任务其实是无限的,我们必须有选择的去完成一些对我们同时对公司重要的项目。
我们首先来看一下,当我们面对一个提出的问题的时候,我们是在提问什么?
在大多数时候都觉得当我们需要去解决一个问题的时候,我们需要创造性的提供一种解决方案,实际情况可能和我们的常识不是很一样。
我们可以想象这样一种情景:
通常认为,在回答一个问题之前,你必须提出那个问题。或者,换个比喻的说法,要找的东西必须是已经丢失的东西。
但这是不是真的呢?当一个人发现了一个金矿脉时,是不是大自然丢失了这个金矿脉呢?
如果我们能找到我们不曾丢失的金子,我们就有可能回答我们未曾问过的问题。
现实工作中,我们很多时候当面对一个问题的时候,我们往往需要自己寻找一个解决方案,而不是去创造一个解决方法,所以我们工作的重点应该是怎么去和我们已有的积累形成联系,或者用更加数学化的语言描述说。怎么将现实问题映射到我们的模型空间中去,这应该是我们的工作重点。
关于问题种类的分析有问题种类的分析,我们先来看一下我们为什么要分析一个问题的种类。现实中我们面临的实际问题,它的表达形式可能是千变万化的。然而我们资源是有限的,又不能为每一种问题都去积累经验,都去建立模型。我们只能为一些包含重要特征的问题,去建立模型空间。
所以当我们面临一个问题的时候,首先应该去看一下这个问题,它本质上在说什么,它的标准形式是什么样的。
这个过程中,我们首先要做的第一步需要剥离自然语言。这一点比较容易理解,我们平时在说话的过程中,语言中有很多冗余的成分。我们首先要做的就是把这些冗余的成分删除掉,其次是把我们一些似是而非的名词替换成我们的标准名词。经过对自然语言的整理之后,我们更容易发现一个问题的本质。
举个例子:可能大家会更加明白,比如:甲方爸爸给了这样一个需求:俺们公司最近遇到了一件特别闹心的事情,一举办活动,活跃用户就少很多,我们很着急,你们快来帮我们看看巴拉巴拉。
以上这段话转化一下就是: 举办活动 和 活跃用户的相关性分析。
用集合的语言和系统泡泡图,去重新描述问题。去把一个在复杂现实情景中的问题,转化为若干研究对象和这些研究对象之间的关系的问题。
当工作进行到这一步的时候,我们就已经已经可以清晰的看出一个问题说出的类别了。 一般在世界上所有的问题都大概可以分为三类:
首先是一类探索是什么的问题,也就是关于一些科学性的问题。这一类问题的核心特征是科学研究中对准确率要求非常高,一般要达到99.7%以上。在工作中,要求可能并不需要这么高。
还有一类问题是关于为什么的问题,也就是关于一些价值评价标准的问题。日常所说的宗教哲学政治探讨的问题,都属于这个范畴。这个问题的特征是特别讲究多远,从本质上来看,各个价值观之间它们是没有可比性的。然而这只是理论上的,实际生活中还是会看到很多大家因为不同价值观真的面红耳赤的情况,这一类问题在研究过程中非常体现的是组织的价值观,还有上级的价值观。
Copyright © 2018 DEDE97. 织梦97 版权所有 京ICP