“泰坦尼克号”的沉没是历史上最臭名昭著的海难之一。1912年4月15日,泰坦尼克号在处女航中与冰山相撞后沉没,2224名乘客和机组人员中有1502人死亡。这场耸人听闻的悲剧震惊了国际社会,并导致了更好的船舶安全条例。造成沉船事故的原因之一是没有足够的救生艇供乘客和机组人员使用。虽然在沉没中幸存了一些运气,但一些人比其他人更容易生存,如妇女、儿童和上层阶级。请根据这些数据(见数据来源)实现以下目标。在这个挑战中,我们要求你们完成对什么样的人可能生存的分析。特别是,我们要求你运用机器学习的工具来预测哪些乘客在悲剧中幸存下来。码所需数据下载地址:https://www.kaggle.com/c/titanic/data
- PassengerId : Id, 具有唯一标识的作用, 即一个人员对应一个Id.
- Survived : 是否幸存, 1表示是 0则表示否
- Pclass : 船舱等级, 1: 一等舱, 2: 二等舱, 3: 三等舱
- Name : 姓名
- Sex : 性别, female女性, male男性
- Age : 年龄
- SibSp : 同船配偶以及兄弟姐妹的人数
- Parch : 同船父母或者子女的人数
- Ticket : 船票
- Fare : 票价
- Cabin : 舱位
- Embarked : 登船港口
- 建模流程:问题定义-数据导入-数据清洗-数据划分-构建模型-模型预测-模型评价-模型调优-模型应用
- 使用rpart包做决策树模型
- 使用rpart.plot包做决策树结果可视化分析
- 模型性能评价工具:混淆矩阵