手机版 欢迎访问人人都是自媒体网站
本故事纯属虚构。
故事发生在花果山,主人公是一只初入职场的小猴子,名叫“嗨皮君”,他刚刚被水帘洞科技有限公司录用为数据分析专员。他的老板就是大名鼎鼎的数据分析师“猴子”,公司里的人都尊称他为“齐天大圣”。
花果山最近出现了一些状况,某些猴子感染了不明病毒,导致花果山发生了严重的疫情。现在水帘洞科技有限公司的员工都只能在家办公。
这天,老板齐天大圣通过“猴信”(花果山全民都在用的IM软件)找到嗨皮君,他说:“嗨皮君,你刚进公司不久,需要尽快熟悉公司的业务。现在还不能上班,但也不能把这些时间浪费了。这样,我给你一份数据,你好好研究分析一下,下周给我一份数据分析报告。”
接到任务,嗨皮君心里十分紧张:这可是进入公司的第一个任务啊,一定要好好表现!于是他认认真真地观看了老板齐天大圣以前做过的数据分析教学视频,还在网上查阅了很多相关资料。
以下便是嗨皮君的思考和写作过程:
一、分析背景及目的数据源:Baby Goods Info Data-数据集-阿里云天池
这是一份母婴产品的销售数据,数据集各字段的含义如下:
我们需要从这些数据中发现某些规律或者异常,进而给运营团队提出建议。
二、分析思路从“产品”和“用户”两个角度来分析:
1. 产品角度分析销量随时间变化有什么规律
分析哪些是热销产品,哪些是滞销产品,它们有什么特征
2. 用户角度分析婴儿年龄和销量之间有什么关系
分析婴儿生日和销量之间有什么关系
三、分析过程 1. 数据清洗(1)确定分析表
把列名替换成中文,调整列宽和列与列的顺序:
(2)多删少补
① 处理重复项
由上述结果可见,并未发现重复项。
② 处理空值项
处理结果发现,产品信息表中的空值项均出现在商品属性字段下,由于商品属性是特定值,不可预估,在缺乏其他数据源的情况下没有办法进行填补,因此暂时忽略这些空值项。
婴儿信息表中未发现有空值项。
(3)一致化处理
把“购买时间”和“婴儿生日”用分列功能转换为日期格式,把“婴儿性别”转换成其真实含义。
(4)异常值处理
① 删除性别异常值
婴儿出生时的性别只有男和女两种可能,经过上面的清洗步骤,发现婴儿性别出现了异常值,删除掉。
② 删除日期异常值
经排序后观察发现,购买时间的区间范围是[2012/7/2,2015/2/5],没有极端异常值。
婴儿生日的区间范围是[1984/6/16,2015/8/15],产品销售时间在2012年~2015年,却出现了生日是1984年的婴儿,显然这个1984/6/16的项是异常项,故需删除。
Copyright © 2018 DEDE97. 织梦97 版权所有 京ICP