实验背景:
分析kaggle官网下载的泰坦尼克号数据集并且建立模型
实现过程:
1. 展示已有数据
a. 总体存活比
b.不同社会等级、性别、家庭成员数量和年龄的存活情况(分别列图)
c.不同舱门上船、社会地位与性别的存活情况
2. 数据处理
a.特征处理
①减少不必要特征
姓名与幸存者数据关系不大,使用Mr、Royalty等具有地位特征的词汇进行取代
②简化特征
将家庭成员数量划分为1-3三个档位,不再使用具体数字
处理船票编号特征时发现许多人使用了相同的船票编号,可以推断家庭成员共用同一编号的船票,判断依据是列出了相同票号的乘客数量,与家庭成员数量的统计相同
因此也将票号列为1-3三个档位
b.缺失数据补充
舱门、票价特征的缺失使用众数填补
c.个别数据排除
由于本实验的目的是建立模型,需要排除个别特例避免模型过于个性
分析数据得出,相同姓氏的家庭组中,普遍为男性死亡,女性和儿童的存活率较高。因此选出家庭中只有男性存货的个别数据进行强制修改
3.分析数据建立幸存者模型
交叉验证测试简单机器学习模型性能
建立随机森林模型,使用以上特征优化后数据进行训练,使用网格搜索进行模型调优
训练优化后模型
4.未知数据测试
将预测结果与之前已知结果进行对比: