手机版 欢迎访问人人都是自媒体网站

当前位置:主页 > 体验 >

信用卡欺诈数据的分析-excel篇

时间:2021-08-02 09:21|来源:网络整理|编辑:|点击:

本篇文章为大家提供了数据集分析的思路和步骤,同时也分享了自己的经验。

 信用卡欺诈数据的分析-excel篇

一、背景

反欺诈是一项识别服务,是对交易诈骗、网络诈骗、电话诈骗、盗卡盗号等行为的一项风险识别。其核心是通过大数据的收集、分析和处理,建立反欺诈信用评分和反欺诈模型,解决不同场景中的风险问题。

信用卡反欺诈案例的数据分析思路

国内常见的提供反欺诈服务的公司有:同盾科技,百融金服,众安保险的Xmodel,腾讯的天御借贷反欺诈AF,阿里云的云盾,蚂蚁金服的蚁盾;模式多为Sass服务,产品形态为客户端控制台+服务端调用反欺诈API。

二、数据集分析

数据样本为2013年9月欧洲持卡人在两天内进行的284,808笔信用卡交易,其中493笔是欺诈交易。数据集非常不平衡,被盗刷占所有交易的0.173%。

它只包含作为PCA转换结果的数字输入变量。不幸的是,由于保密问题,我们无法提供有关数据的原始功能和更多背景信息。

特征V1,V2,… V28是使用PCA获得的主要组件,没有用PCA转换的唯一特征是“时间”和“量”。

特征“时间”包含数据集中每个事务和第一个事务之间经过的秒数。特征“金额”是交易金额,此特征可用于实例依赖的成本认知学习。特征“类”是响应变量,如果发生被盗刷,则取值1,否则为0。

数据来源:https://www.kaggle.com/mlg-ulb/creditcardfraud/kernels

包含:Time(交易时间,需将s转化为hh-mm-ss形式),V1~V28(经PCA转换后的数字变量),Amount(交易金额),Class(交易类型,1为欺诈,0为正常)

三、分析思路

在已知欺诈交易和非欺诈交易的情况下,分析两类的交易指标的四分位数、最大值、最小值、标准差、方差;四分位数和最大最小值可以绘制出该指标的箱线图,找出离群点,也可以观察出该指标中数据的离散程度;

通过方差观察该指标数据的稳定程度,通过标准差观察该指标数据的偏离程度,一般都应符合正态分布;做出图形后,观察欺诈交易在图形中的分布;

通过时间分析,寻找欺诈交易在哪些时间点发生的概率更高;

通过金额分析,寻找欺诈交易金额在哪个区间范围内概率更高,对比非欺诈交易金额的区间范围i;

通过对V1~V28的分析,寻找该字段下欺诈交易与非欺诈交易各自的规则;

通过以上的分析,寻找欺诈交易和非欺诈交易的各自特性,当有新的一笔交易进入时,判断其属于哪一类的概率更高;

由于数据集受限,如果能对单个交易账户分析,在数据中增加交易地点、交易商户类别、交易频率的指标都可以使得分析更全面。

四、分析步骤

第一步:检查数据,是否有缺失值,数据类型是否符合将要进行的分析,结果为无缺失值,同时将欺诈交易与正常交易区分为两个工作表,方便后面分析;数据总计为28.4万条;

第二步:将时间换算为小时,总计为48小时,以1小时为间隔进行分组;

1. 分析交易时间与交易量的关系

信用卡欺诈数据的分析

信用卡欺诈数据的分析

信用卡欺诈数据的分析

信用卡欺诈数据的分析

正常交易特点:

正常交易分布聚集度明显,主要集中上午9点-下午23点,在凌晨0点-上午7点交易量较

欺诈交易特点:

欺诈交易的时间离散度高,但在峰值迹象出现在两天的凌晨2-3点第一天的11-12点,在上午7-12点下午2-10点,两个时间段的总量分别为88笔、97笔,且每1小时的交易量都比较平均。

综合以上:

凌晨0点-4点间的交易,为欺诈交易的概率高;在上午9点-下午10点间,欺诈交易多伪装成正常交易。

2. 分析交易金额与交易量的关系

Copyright © 2018 DEDE97. 织梦97 版权所有 京ICP