手机版 欢迎访问人人都是自媒体网站

当前位置:主页 > 体验 >

数据分析的三大框架:底层技术、分析建模、工具选择

时间:2021-07-30 09:38|来源:网络整理|编辑:|点击:

 数据分析的三大框架:底层技术、分析建模、工具选择

先看下数据科学的世界观,参考下面的思维导图:

 数据分析的三大框架:底层技术、分析建模、工具选择

有了世界观,我们可以开始搭建自己的知识大厦了。在搭建知识大厦之前,先需要建立知识的框架,然后才能高效的填充知识。所以今天我们先建立框架。

数据分析的三大框架

数据科学的框架分为三部分:底层技术框架/数据分析框架/工具选择框架,接下来依次给大家介绍:

1. 底层技术框架

底层技术框是数据科学的基础设施,我们有所了解就好,处理框架和处理引擎负责对数据系统中的数据进行计算。

流处理系统:流处理系统会对随时进入系统的数据进行计算。相比批处理模式,这是一种截然不同的处理方式。流处理方式无需针对整个数据集执行操作,而是对通过系统传输的每个数据项执行操作。

流处理中的数据集是“无边界”的,这就产生了几个重要的影响:

完整数据集只能代表截至目前已经进入到系统中的数据总量。

工作数据集也许更相关,在特定时间只能代表某个单一数据项。

批处理系统:批处理在大数据世界有着悠久的历史,批处理主要操作大容量静态数据集,并在计算过程完成后返回结果。

批处理模式中使用的数据集通常符合下列特征:

有界:批处理数据集代表数据的有限集合;

持久:数据通常始终存储在某种类型的持久存储位置中;

大量:批处理操作通常是处理极为海量数据集的唯一方法。

批处理非常适合需要访问全套记录才能完成的计算工作,例如:在计算总数和平均数时,必须将数据集作为一个整体加以处理,而不能将其视作多条记录的集合。这些操作要求在计算进行过程中数据维持自己的状态。

2. 日常监控框架

数据数据分析的工作分为俩部分,日常长远工作(相当于养兵千日)和针对项目/公司需求做的及时响应(相当于用兵一时)。

日常长远的工作主要是日常监控系统。

2.1 日常监控系统主要分为:测量/建立标准/发现异常

首先是测量

测量就是将具体的产品和业务转化为数据的过程.本质上来看,这个过程相当于把一个现实世界的对象映射到我们的抽象空间里,先天的会存在很大的误差,但是意义重大,统一了我们看待业务的方式。从此之后,我们对于业务的讨论都在一样的标准上进行。同时,也由于测量的先天误差,测量值得不断更新。

举个栗子:一个内容产品建立业务指标的逻辑 假设你是内容运营,需要对现有的业务做一个分析,提高内容相关数据,你会怎么做呢?

我们把金字塔思维转换一下,就成了数据分析方法了, 从内容运营的流程开始,它是:内容收集——内容编辑发布——用户浏览——用户点击——用户阅读——用户评论或转发——继续下一篇浏览。 这是一个标准的流程,每个流程都有指标可以建立。内容收集可以建立热点指数,看哪一篇内容比较火。用户浏览用户点击则是标准的PV和UV统计,用户阅读是阅读时长。

 数据分析的三大框架:底层技术、分析建模、工具选择

2.2 建立标准和发现异常

有业务指标体系,我们就可以监控产品了,那么数据的波动一定是因为产品本身的问题吗?其实不然。

想象这样一种场景:你在一家做玩具跨境电商的公司,在3月份,发现公司玩具销量出现大幅下滑,结果做了很多分析,提出了N种解决方案,依然收效甚微。被老板一顿痛骂之后,苦恼的回家,打开电视一开,新闻联播说:中美贸易危机,出口行业受较大影响,领导表示亲切关怀.。

原来数据异常,并不是公司的问题,而是整个环境变了,而我们却用了大量的时间精力分析自己的问题。

所以我们要建立正常的标准,我们每次比较都是预期标准比较的,而不是和0比较,也不是和最好的情况比较。

常见的基准:同行业平均水平/宏观经济指标/公司运营活动预期。

发现异常:设定标准偏离正常标准3%算作异常,值得我们深入分析。

其实数据分析的日常工作,还可以包括丰富企业的模型库,这一点在下一部分的叙述会有所涉猎。

3. 面向项目的问题分析框架

上面介绍完了数据分析师的日常工作,接下来介绍工作的另一部分——解决项目实际问题。

3.1 发现并明确问题

问题的来源包括这几个方面:

(1)业务部门的问题需求

(2)监控发现的异常数据

提出一个好问题,往往比找到答案重要。

业务部门直接给出的问题往往模糊不清,我们需要去分析问题的本质,把他进行简化抽象。

(3)对问题进行本质分析

剥离自然语言,最后语句中只包含俩类语句结构:A是B,A属于B。

转化为集合语言或者系统语言。

(4)把问题归结到几种常见问题类型,或者转化为常见问题的组合,问题的本质类型

价值判断类,相当于为什么的问题。

首先应该明确判断的标准,然后进行打分。

现实类,相当于是什么和怎么办的问题,可以近似为是因果/相关关系探索类的问题。

问题的衍生类型:

预测问题:相当于因果关系探索;

决策问题:相当于价值判断类问题+因果关系探索;

分析原因问题:相当于因果关系类问题。

3.2 问题的全方位分析

文献综述(俗称百度,当然不仅仅包含百度)

针对提出的问题,搜寻前人的分析,总结前人的经验。常见的高质量数据源:知乎、知网、谷歌学术。

问题的探索性分析:

Copyright © 2018 DEDE97. 织梦97 版权所有 京ICP