手机版 欢迎访问人人都是自媒体网站
从疫情爆发到现在,你是不是也跟我一样,每天起床都要点开丁香医生,看一下疫情最新情况?截止现在,丁香医生疫情地图被浏览27亿次。如此火爆的背后,丁香医生的项目有没有借鉴性呢?本文以疫情地图为例,来讲讲数据分析师做项目的思路。
我将项目分析总结为五步法:数据收集、定义问题、数据清洗、数据分析、输出报告。今天我将对每一步进行业务上的拆解。
数据分析五步法
一、定义问题分析的重中之重是定义问题。这个项目的需求是什么?想达到的效果是什么?
丁香医生想做一款实时更新疫情数据的产品,方便用户了解实时疫情动态。
那用户是谁?用户最关心什么?
丁香医生的用户是老百姓,咱老百姓最关心的呢,是今天又确诊多少人,疑似多少人,死亡多少人,以及治愈多少人,疫情是不是往好的方向发展……
依照《精益数据分析》提出的“第一关键指标法”,我们提炼出关键指标:确诊人数、疑似人数、死亡人数、治愈人数。
关键指标
同时,咱老百姓除了想知道整个疫情发展,也很关心自己城市的情况,因此将关键指标按省份、城市细分。疫情地图就包含了全国确诊人数热力图,各省、各市的关键指标。
各省份、城市关键指标
二、数据采集数据真实可信是数据分析的前提。丁香医生的数据来源于国家卫健委、各省市卫健委、各省市政府、港澳台等官方渠道,来源权威。
咱们数据分析师日常怎么收集数据呢?
内部数据:天天需要。公司把数据存放在自家服务器或阿里云等第三方平台,通过SQL获取。
外部数据:也很重要,较难获取。可以用国家统计局、中国人民银行等公布的数据;使用第三方数据库,如万德、国泰安、锐思等数据库下载数据;或使用爬虫,爬到自己想要的数据。
三、数据清洗数据清洗几乎占用数据分析师80%的时间。在这里,丁香医生主要涉及去重和口径一致。
(1)去重
上面收集来的数据,各个渠道会不会重复统计呢?比如国家卫健委、省卫健委和省政府公布的数据中,肯定有重复部分,需要我们去掉重复值。
丁香医生也曾重复统计过,导致新增确诊人数变多,不过很快纠正了。
(2)口径一致
报表上线后,口径变化是大忌。2月12日,确诊口径由单一核酸检测,新加入临床诊断,确诊人数大增,一下多了1万多人。
如果是数据分析师随意调整统计口径,那就要背锅走人了;如果是老板要改口径,数据分析师就得想想该怎么妥善处理了。
丁香医生是怎么做的呢?
当日确诊人数爆增,丁香医生用虚线表示增长,并且右上方备注“临床诊断病例的影响”。这样做既反映了真实情况,也解释了因统计口径变化,导致数据异常增长。
口径变化导致的激增
四、数据分析数据收集和清洗是基本能力,数据分析才是核心竞争力。
我们在思考用什么指标来做分析时,可以参考《精益数据分析》里,关于“什么是好的数据指标”的总结:
好的数据指标是比较性的(较昨日、新增疑似、新增确诊……);
好的数据指标是简单易懂的(确诊、死亡、治愈……);
好的数据指标是一个比率(病死率=死亡人数/确诊人数、治愈率=治愈人数/确诊人数);
好的数据指标会改变行为(通过新增确诊走势,了解疫情是否正在缓解,指定方针)。
Copyright © 2018 DEDE97. 织梦97 版权所有 京ICP