提交需求
赛事与广告咨询合作,请填写需求表单,我们会在第一时间与您联系!
数据分析5步骤
提出问题
理解数据
数据清洗
构建模型
数据可视化
一、提出问题
不同年龄的商品购买量;
商品品类在男婴、女婴的消费分布;
二、理解数据
在阿里云天池上获取了儿童电商相关的数据
在任意单元格上,单击鼠标右键,点击设置单元格格式;
对照如下表格,确定数据类型;(注:字符串类型左对齐、数字类型右对齐)
3.为了方便后面分析,我需要把表2中的出生日期、性别合并到表1中,这里需要用到Vlookup函数,利用用户ID去获取表2中的出生日期、性别
4.根据出生日期、购买日期算出儿童购买年龄=(购买日期-出生日期)/365
三、数据清洗
选择子集
列名重命名
删除重复值
缺失值处理
一致化处理
数据排序
异常值处理
1.选择子集
选择数据分析需要用到的列,不需要的列通过点击鼠标右键>点击隐藏,如果需要把隐藏的列展示出来,可以先全选表格,点击鼠标右键>点击取消隐藏。
2.列名重命名
商品表格字段:
user_id:用户ID
auction_id:用户行为
cat_id:商品种类编号
cat:商品序列号
property:商品属性
buy_mount:购买数量
day:购买日期
商品表格字段 婴儿信息字段:
user_id:用户ID
birthday:出生日期
gender:性别
婴儿信息字段 3.删除重复值
因为用户ID是唯一标识,所以通过这一列的值去确定有没有重复值。在选项卡点击数据>点击删除重复项。
4.缺失值处理
因为用户ID是信息的唯一标识,所以通过用户ID去确定其他列有没有缺失的数值,如果有缺失值,该如何对缺失值进行处理,有4种方法:
人工补全缺失值
删除缺失值
平均值代替缺失值
统计模型代替缺失值
这里针对人工补全缺失值详细说明一下,选择整列>点击编辑>点击查找>点击定位>点击定位条件>选择空值>点击确定,定位到缺失值后,先输入值,输入完成后点击ctrl+enter,其他空白单元格都变成了刚刚输入的值。
5.一致化处理
有些单元格的多个值,这会影响到后面数据分析的结果,所以需要做一致化的处理。可以使用Excel的分列功能,将某一列按照特定的规则拆分,需要注意的是分列功能会覆盖到右列单元格,所以在分列之前先把要分列的列复制到最后一列,复制后可以把原来的列隐藏掉。
然后通过下面步骤,完成分列,选择数据选项卡>选择分割符号>点击下一步>勾选连续分隔符号视为单个处理、勾选其他(在输入框中输入要进行分割的符号)>点击下一步>点击完成
有些列虽然有数字,但是是文本格式,不方便后面计算,计算的时候可能会用到Excel函数。可以按照下面步骤,计算值,选中要插入函数的单元格>点击公式选项卡下面的插入函数功能>选择函数要输入的数据>点击确定
常用函数如下:
Find查找一个字符串在另一个字符串中出现的起始位置
Find(要查找的字符串,字符串所在单元格位置)
截取字符串中的内容:left,Right,Mid
left/Right(字符串所在单元格位置,从左/右开始到XX位置进行截取)
Mid(字符串所在单元格位置,开始位置,截取长度)
find函数与left、Right、Mid函数配合使用,可以截取字符串中的任何内容。
通过筛选功能,可以查看哪些数值有错误,点击数据选项卡下的筛选,在弹出的弹框中拉倒最下面
6数据排序
把年龄项按照降序排列,点击功能区的排序和筛选,在出现的弹框中注意勾选扩展选定区域。
7.异常值处理
筛选出异常值,隐藏有异常值的行,再把完整数值行/列复制到新的表格里,因为如果在原表格,后面用到数据透视表分析的时候,也会取异常值,所以需要把需要分析的值复制到新建的表格。
四、构建模型
现在针对刚开始提出的问题构建模型:
不同年龄的商品购买量
插入数据透视表,把年龄项拖入行,把购买数量拖入计数项
各商品品类男童、女童的购买量对比 插入数据透视表,把性别拖入行,购买数量拖入计数项,商品序列号拖入列
通过数据分析 >描述统计可以分析出消费者的年龄分布情况
五、数据可视化
大牛,别默默的看了,快登录帮我点评一下吧!:)
登录 立即注册