Python数据分析

Python数据分析

数据分析2022年04月-2022年10月
店铺头像
张然
案例介绍

实验背景:

分析kaggle官网下载的泰坦尼克号数据集并且建立模型

 

实现过程:

1. 展示已有数据

     a. 总体存活比

     b.不同社会等级、性别、家庭成员数量和年龄的存活情况(分别列图)

     c.不同舱门上船、社会地位与性别的存活情况

2. 数据处理

     a.特征处理

①减少不必要特征

姓名与幸存者数据关系不大,使用Mr、Royalty等具有地位特征的词汇进行取代

②简化特征

将家庭成员数量划分为1-3三个档位,不再使用具体数字

处理船票编号特征时发现许多人使用了相同的船票编号,可以推断家庭成员共用同一编号的船票,判断依据是列出了相同票号的乘客数量,与家庭成员数量的统计相同

因此也将票号列为1-3三个档位

     b.缺失数据补充

舱门、票价特征的缺失使用众数填补

     c.个别数据排除

由于本实验的目的是建立模型,需要排除个别特例避免模型过于个性

分析数据得出,相同姓氏的家庭组中,普遍为男性死亡,女性和儿童的存活率较高。因此选出家庭中只有男性存货的个别数据进行强制修改

3.分析数据建立幸存者模型

交叉验证测试简单机器学习模型性能

建立随机森林模型,使用以上特征优化后数据进行训练,使用网格搜索进行模型调优

训练优化后模型

4.未知数据测试

将预测结果与之前已知结果进行对比: