手机版 欢迎访问人人都是自媒体网站
数据对于互联网+的商业模式存在巨大的价值,在业务中我们遇到的瓶颈往往通过数据分析,可以发现问题以及解决问题的对策。
本文对英国某电商平台的年销售数据进行分析:
一、报告梗概 1. 报告背景及目的报告对在取数区间内的某电商平台内的所有交易记录进行了分析,平台主要销售独特的全时礼品,公司的许多客户都是批发商。为了更好地了解平台的经营状况,对销售数据进行分析,提出优化平台运营的策略,从而为平台创造更多价值。
1. 数据来源及说明数据来源于UCI加州大学欧文分校机器学习库,是一个跨国数据集,其中包含2010年12月1日至2011年12月9日之间在英国注册的非商店在线零售的所有交易。
数据集含有8个字段,其含义如下:
InvoiceNo: 6位的发票号,系统为每笔交易自动分配的6为不同的数字序列,如果是以c开头则表明该订单被取消。
StockCode: 产品编号,每一种不同类别的商品对应不同的编号。
Description: 对产品类别的描述。
Quantity: 每次交易的某种产品的购买数量。
InvoiceDate: 每笔交易产生时的日期时间。
UnitPrice: 产品的单价,单位是英镑。
CustomerID: 5位编码的客户id,每个客户的id都不相同。
Country: 客户来源的国家。
二、数据预处理情况 1. 重复值处理整个数据集有541909条数据,其中完全重复的数据有5268条,剔除后剩下536641条交易数据。
2. 缺失值处理Description和CustomerID两个字段即商品描述和客户ID有缺失值,其中Descriptio缺失1454条,占总数据量的0.27%;CustomerID缺失135037行,占总数据量的25.2%。
因为商品描述是文本类型数据、对于本分析的结果不重要且缺失值占比非常小,所以不对其进行充填。
对于CustomerID,缺失量占到了总数居的四分之一且其本身对分析结果有重要意义,必须对其填充。在已验证当前CustomerID中没有0值的前提下,充填方式选择为用0代替缺失的CustomerID值。至此,缺失值处理完毕。
3. 异常值处理基于业务常识,商品单价和商品数量应为正数,查看数据时发现这两种类型的异常值。
取出来查看后,发现由两种原因造成:
订单被取消即发票号以C开头的记录(共11761条);
坏账数据即发票号以A开头的记录(共2条)。
对于被取消的订单:由于没有发生实质交易,对平台的交易数据不存在影响故直接删除,但后续可以针对这部分数据可以尝试分析挖掘取消背后的原因;
对于坏账:数据量极小,且坏账金额也极其微小,在此也选择直接删除。
处理完异常值后,总的有效数据量为524878条。
4. 新增字段为方便后续的时间序列分析,新增交易时间date字段(具体到日)和交易月份month字段;为方便后续的金额分析,新增交易金额SumCost字段(交易金额等于商品数量乘以商品单价)。
至此,数据预处理完成,截取部分有效数据如下所示:
在订单层面,描述性的统计信息如下图:
平台在此期间总共有19960笔有效订单,每笔平均购买279件商品,笔均消费533英镑,这两者都超过了各自的中位数水平。
说明订单总体差异很大,尤其是笔均消费超过了Q3分位数。
最大的一笔订单中购买了将近81000件商品,最大的单笔消费也高达168469——说明平台用户以批发商为主且存在购买力极强的客户。
2. 订单商品数量分布剔除离群值,筛选出购买商品件数小于2000的订单绘制商品数量分布图如下:
分布图呈现典型的长尾分布,大部分订单内的商品数量在250以内,大额数量订单稀少。
3. 订单金额分布剔除离群值,筛选出单笔金额小于1000英镑的订单绘制金额分布图如下:
分布图有长尾趋势,金额主要分布在400英镑以内,说明绝大部分客户在该平台上的消费金额预算为400英镑以内,在350英镑左右出现了最多的订单数。
4. 分析小结平台在2010年12月1日至2011年12月9日一年多的时间中产生有效交易19960笔,总销售额为8,887,209英镑,平均每日交易54笔,笔均购买量279件商品,笔均消费533英镑。
Copyright © 2018 DEDE97. 织梦97 版权所有 京ICP