手机版 欢迎访问人人都是自媒体网站

当前位置:主页 > 体验 >

数据分析:员工离职预测分析

时间:2021-01-08 09:14|来源:网络整理|编辑:采集侠|点击:

 数据分析:员工离职预测分析

一、概述

项目数据来源:https://tianchi.aliyun.com/dataset/dataDetail?dataId=4574

数据分析工具:本次案在例中,我所需要做的便是通过已有的信息进行预测员工未来的动向,即判断该员工未来是否会离职。其中训练数据主要包括1100条记录,31个字段。此次数据分析所用到的工具有:excel,tableau

二、数据分析基本步骤

(1)明确业务需求;

(2)数据采集 ;

(3)数据处理

(4)数据探索分析(数据的描述性分析);

(5)综合数据分析;

1. 明确业务需求

面对公司留不住人,人员流动大等问题,本文对取自于“阿里天池”关于职工数据集的数据进行分析,挖掘出哪些数据对于离职率有贡献,预测哪些人最后会流动。

2. 数据采集

项目数据集取自“阿里天池”,相关网址链接请参看概述。其中训练数据主要包括1100条记录,31个字段。主要字段说明如下:

(1)Age:员工年龄(1表示已经离职,2表示未离职,这是目标预测值)

(2)Attrition:员工是否已经离职(Non-Travel表示不出差,Travel_Rarely表示不经常出差,Travel_Frequently表示经常出差)

(3)BusinessTravel:商务差旅频率(Sales表示销售部,Research & Development表示研发部,Human Resources表示人力资源部)

(4)Department:员工所在部门(Sales表示销售部,Research & Development表示研发部,Human Resources表示人力资源部)

(5)DistanceFromHome:公司跟家庭住址的距离,(从1到29,1表示最近,29表示最远)

(6)Education:员工的教育程度(从1到5,5表示教育程度最高)

(7)EducationField:员工所学习的专业领域(Life Sciences表示生命科学,Medical表示医疗,Marketing表示市场营销,Technical Degree表示技术学位,Human Resources表示人力资源,Other表示其他)

(8)EmployeeNumber:员工号码;

(9)EnvironmentSatisfaction:员工对于工作环境的满意程度(从1到4,1的满意程度最低,4的满意程度最高)

(10)Gender:员工性别(Male表示男性,Female表示女性);

(11)JobInvolvement:员工工作投入度(从1到4,1为投入度最低,4为投入度最高)

(12)JobLevel:职业级别(从1到5,1为最低级别,5为最高级别)

(13)JobRole:工作角色 (Sales Executive是销售主管,Research Scientist是科学研究员,Laboratory Technician实验室技术员,Manufacturing Director是制造总监,Healthcare Representative是医疗代表,Manager是经理,Sales Representative是销售代表,Research Director是研究总监,Human Resources是人力资源)

(14)JobSatisfaction:工作满意度(从1到4,1代表满意程度最低,4代表满意程度最高)

(15)MaritalStatus:员工婚姻状况(Single代表单身,Married代表已婚,Divorced代表离婚)

(16)MonthlyIncome:员工月收入(范围在1009到19999之间)

(17)NumCompaniesWorked:员工曾经工作过的公司数

(18)Over18:年龄是否超过18岁

(19)OverTime:是否加班(Yes表示加班,No表示不加班)

(20)PercentSalaryHike:工资提高的百分比

(21)PerformanceRating:绩效评估

(22)RelationshipSatisfaction:关系满意度(从1到4,1表示满意度最低,4表示满意度最高)

(23)StandardHours:标准工时

(24)StockOptionLevel:股票期权水平

(25)TotalWorkingYears:总工龄

(26)TrainingTimesLastYear:上一年的培训时长(从0到6,0表示没有培训,6表示培训时间最长)

(27)WorkLifeBalance:工作与生活平衡程度(从1到4,1表示平衡程度最低,4表示平衡程度最高)

(28)YearsAtCompany:在目前公司工作年数

(29)YearsInCurrentRole:在目前工作职责的工作年数

(30)YearsSinceLastPromotion:距离上次升职时长

(31)YearsWithCurrManager:跟目前的管理者共事年数

3. 数据清洗

我们使用的数据是excel文件格式,其中自变量30个,因变量为1个(是否离职)。

数据集字符型字段有7个(BusinessTravel/ Department/EducationField/Gender/JobRole/MaritalStatus/Over18/OverTime)数值型字段有24个。

其中将单一变量删除(年满18岁、标准工时、员工编号为常量),部分数值变量<=3的字段也删除,此类数据对于分析预测不具有代表性。

同时观察数据,针对字段值不满一年的数据均用0代替,没有缺失值, 因此不用处理缺失值.

对于记录来说, 其没有唯一标识的字段, 因此会存在重复记录, 这里采取“重复值处理”和“数据一致化”处理;

通过tableau作图观察各自变量对是否离职影响程度大小,

图一:删除单一变量&常量

4. 数据理解

我们使用的数据是EXCEL数据文件格式,其中自变量30个,因变量为是否离职。下表对所有变量进行了说明,以便更好的理解数据。

 数据分析:员工离职预测分析

5. 数据探索性分析

(1)人力资源总体情况

离职人员178人,占比16.18%;在职人员922人,占比83.82%

 数据分析:员工离职预测分析


(2)职工年龄,性别与是否离职的关系

由下图可以看出,离职人员偏年轻化,峰值出现在28-32岁,其中男性离职人数大于女性人数。

 数据分析:员工离职预测分析


(3)职工婚况,离家距离与是否离职的关系

Copyright © 2018 DEDE97. 织梦97 版权所有 京ICP