手机版 欢迎访问人人都是自媒体网站

当前位置:主页 > 体验 >

以英国某电商平台的年销售数据为例,讲讲从数据清洗到可视化的整个流程怎么做

时间:2020-12-07 09:24|来源:网络整理|编辑:采集侠|点击:

 以英国某电商平台的年销售数据为例,讲讲从数据清洗到可视化的整个流程怎么做

数据对于互联网+的商业模式存在巨大的价值,在业务中我们遇到的瓶颈往往通过数据分析,可以发现问题以及解决问题的对策。

本文对英国某电商平台的年销售数据进行分析:

一、报告梗概 1. 报告背景及目的

报告对在取数区间内的某电商平台内的所有交易记录进行了分析,平台主要销售独特的全时礼品,公司的许多客户都是批发商。为了更好地了解平台的经营状况,对销售数据进行分析,提出优化平台运营的策略,从而为平台创造更多价值。

1. 数据来源及说明

数据来源于UCI加州大学欧文分校机器学习库,是一个跨国数据集,其中包含2010年12月1日至2011年12月9日之间在英国注册的非商店在线零售的所有交易。

数据集含有8个字段,其含义如下:

InvoiceNo: 6位的发票号,系统为每笔交易自动分配的6为不同的数字序列,如果是以c开头则表明该订单被取消。

StockCode: 产品编号,每一种不同类别的商品对应不同的编号。

Description: 对产品类别的描述。

Quantity: 每次交易的某种产品的购买数量。

InvoiceDate: 每笔交易产生时的日期时间。

UnitPrice: 产品的单价,单位是英镑。

CustomerID: 5位编码的客户id,每个客户的id都不相同。

Country: 客户来源的国家。

二、数据预处理情况 1. 重复值处理

整个数据集有541909条数据,其中完全重复的数据有5268条,剔除后剩下536641条交易数据。

2. 缺失值处理

Description和CustomerID两个字段即商品描述和客户ID有缺失值,其中Descriptio缺失1454条,占总数据量的0.27%;CustomerID缺失135037行,占总数据量的25.2%。

因为商品描述是文本类型数据、对于本分析的结果不重要且缺失值占比非常小,所以不对其进行充填。

对于CustomerID,缺失量占到了总数居的四分之一且其本身对分析结果有重要意义,必须对其填充。在已验证当前CustomerID中没有0值的前提下,充填方式选择为用0代替缺失的CustomerID值。至此,缺失值处理完毕。

3. 异常值处理

基于业务常识,商品单价和商品数量应为正数,查看数据时发现这两种类型的异常值。

取出来查看后,发现由两种原因造成:

订单被取消即发票号以C开头的记录(共11761条);

坏账数据即发票号以A开头的记录(共2条)。

对于被取消的订单:由于没有发生实质交易,对平台的交易数据不存在影响故直接删除,但后续可以针对这部分数据可以尝试分析挖掘取消背后的原因;

对于坏账:数据量极小,且坏账金额也极其微小,在此也选择直接删除。

处理完异常值后,总的有效数据量为524878条。

4. 新增字段

为方便后续的时间序列分析,新增交易时间date字段(具体到日)和交易月份month字段;为方便后续的金额分析,新增交易金额SumCost字段(交易金额等于商品数量乘以商品单价)。

至此,数据预处理完成,截取部分有效数据如下所示:

 以英国某电商平台的年销售数据为例,讲讲从数据清洗到可视化的整个流程怎么做

三、订单分析 1. 描述性分析

在订单层面,描述性的统计信息如下图:

 以英国某电商平台的年销售数据为例,讲讲从数据清洗到可视化的整个流程怎么做

平台在此期间总共有19960笔有效订单,每笔平均购买279件商品,笔均消费533英镑,这两者都超过了各自的中位数水平。

说明订单总体差异很大,尤其是笔均消费超过了Q3分位数。

最大的一笔订单中购买了将近81000件商品,最大的单笔消费也高达168469——说明平台用户以批发商为主且存在购买力极强的客户。

2. 订单商品数量分布

剔除离群值,筛选出购买商品件数小于2000的订单绘制商品数量分布图如下:

 以英国某电商平台的年销售数据为例,讲讲从数据清洗到可视化的整个流程怎么做

分布图呈现典型的长尾分布,大部分订单内的商品数量在250以内,大额数量订单稀少。

3. 订单金额分布

剔除离群值,筛选出单笔金额小于1000英镑的订单绘制金额分布图如下:

 以英国某电商平台的年销售数据为例,讲讲从数据清洗到可视化的整个流程怎么做

分布图有长尾趋势,金额主要分布在400英镑以内,说明绝大部分客户在该平台上的消费金额预算为400英镑以内,在350英镑左右出现了最多的订单数。

4. 分析小结

平台在2010年12月1日至2011年12月9日一年多的时间中产生有效交易19960笔,总销售额为8,887,209英镑,平均每日交易54笔,笔均购买量279件商品,笔均消费533英镑。

Copyright © 2018 DEDE97. 织梦97 版权所有 京ICP