手机版 欢迎访问人人都是自媒体网站
先看下数据科学的世界观,参考下面的思维导图:
有了世界观,我们可以开始搭建自己的知识大厦了。在搭建知识大厦之前,先需要建立知识的框架,然后才能高效的填充知识。所以今天我们先建立框架。
数据分析的三大框架数据科学的框架分为三部分:底层技术框架/数据分析框架/工具选择框架,接下来依次给大家介绍:
1. 底层技术框架底层技术框是数据科学的基础设施,我们有所了解就好,处理框架和处理引擎负责对数据系统中的数据进行计算。
流处理系统:流处理系统会对随时进入系统的数据进行计算。相比批处理模式,这是一种截然不同的处理方式。流处理方式无需针对整个数据集执行操作,而是对通过系统传输的每个数据项执行操作。
流处理中的数据集是“无边界”的,这就产生了几个重要的影响:
完整数据集只能代表截至目前已经进入到系统中的数据总量。
工作数据集也许更相关,在特定时间只能代表某个单一数据项。
批处理系统:批处理在大数据世界有着悠久的历史,批处理主要操作大容量静态数据集,并在计算过程完成后返回结果。
批处理模式中使用的数据集通常符合下列特征:
有界:批处理数据集代表数据的有限集合;
持久:数据通常始终存储在某种类型的持久存储位置中;
大量:批处理操作通常是处理极为海量数据集的唯一方法。
批处理非常适合需要访问全套记录才能完成的计算工作,例如:在计算总数和平均数时,必须将数据集作为一个整体加以处理,而不能将其视作多条记录的集合。这些操作要求在计算进行过程中数据维持自己的状态。
2. 日常监控框架数据数据分析的工作分为俩部分,日常长远工作(相当于养兵千日)和针对项目/公司需求做的及时响应(相当于用兵一时)。
日常长远的工作主要是日常监控系统。
2.1 日常监控系统主要分为:测量/建立标准/发现异常
首先是测量
测量就是将具体的产品和业务转化为数据的过程.本质上来看,这个过程相当于把一个现实世界的对象映射到我们的抽象空间里,先天的会存在很大的误差,但是意义重大,统一了我们看待业务的方式。从此之后,我们对于业务的讨论都在一样的标准上进行。同时,也由于测量的先天误差,测量值得不断更新。
举个栗子:一个内容产品建立业务指标的逻辑 假设你是内容运营,需要对现有的业务做一个分析,提高内容相关数据,你会怎么做呢?
我们把金字塔思维转换一下,就成了数据分析方法了, 从内容运营的流程开始,它是:内容收集——内容编辑发布——用户浏览——用户点击——用户阅读——用户评论或转发——继续下一篇浏览。 这是一个标准的流程,每个流程都有指标可以建立。内容收集可以建立热点指数,看哪一篇内容比较火。用户浏览用户点击则是标准的PV和UV统计,用户阅读是阅读时长。
2.2 建立标准和发现异常
有业务指标体系,我们就可以监控产品了,那么数据的波动一定是因为产品本身的问题吗?其实不然。
想象这样一种场景:你在一家做玩具跨境电商的公司,在3月份,发现公司玩具销量出现大幅下滑,结果做了很多分析,提出了N种解决方案,依然收效甚微。被老板一顿痛骂之后,苦恼的回家,打开电视一开,新闻联播说:中美贸易危机,出口行业受较大影响,领导表示亲切关怀.。
原来数据异常,并不是公司的问题,而是整个环境变了,而我们却用了大量的时间精力分析自己的问题。
所以我们要建立正常的标准,我们每次比较都是预期标准比较的,而不是和0比较,也不是和最好的情况比较。
常见的基准:同行业平均水平/宏观经济指标/公司运营活动预期。
发现异常:设定标准偏离正常标准3%算作异常,值得我们深入分析。
其实数据分析的日常工作,还可以包括丰富企业的模型库,这一点在下一部分的叙述会有所涉猎。
3. 面向项目的问题分析框架上面介绍完了数据分析师的日常工作,接下来介绍工作的另一部分——解决项目实际问题。
3.1 发现并明确问题
问题的来源包括这几个方面:
(1)业务部门的问题需求
(2)监控发现的异常数据
提出一个好问题,往往比找到答案重要。
业务部门直接给出的问题往往模糊不清,我们需要去分析问题的本质,把他进行简化抽象。
(3)对问题进行本质分析
剥离自然语言,最后语句中只包含俩类语句结构:A是B,A属于B。
转化为集合语言或者系统语言。
(4)把问题归结到几种常见问题类型,或者转化为常见问题的组合,问题的本质类型
价值判断类,相当于为什么的问题。
首先应该明确判断的标准,然后进行打分。
现实类,相当于是什么和怎么办的问题,可以近似为是因果/相关关系探索类的问题。
问题的衍生类型:
预测问题:相当于因果关系探索;
决策问题:相当于价值判断类问题+因果关系探索;
分析原因问题:相当于因果关系类问题。
3.2 问题的全方位分析
文献综述(俗称百度,当然不仅仅包含百度)
针对提出的问题,搜寻前人的分析,总结前人的经验。常见的高质量数据源:知乎、知网、谷歌学术。
问题的探索性分析:
Copyright © 2018 DEDE97. 织梦97 版权所有 京ICP