在一幢建筑里要看到三样东西:它是否被正确的选址,它是否被牢固的奠基,它是否被成功的建造——约翰·沃尔夫冈·冯·歌德
大家好,我是今天的值班编辑,今天是中华民族最隆重、最热闹的传统节日,小编在此祝您全家新年快乐。财源滚滚随春到,喜气洋洋伴福来。骐骥一跃奔锦绣,大地流金万象新。高居宝地财兴旺,福照家门富生辉。欢聚一堂迎新春,欢天喜地度佳节。
小编之前在这个公众号里面挖过一个坑,写过一篇文章《25行python代码实现一个机器学习项目》,在文章中,小编用25行python代码训练的机器学习分类模型(决策树模型)的准确率得分为0.65,距离1.0还比较遥远。今天就来讲一讲如何提高模型的准确率。
2)特征工程
特征工程(Feature Engineering)指的是从现有的训练数据中提取更多有效特征出来的神操作。
比如数据类型转化、标准化、归一化、分箱、one-hot编码、缺失值填充、特征选择、降维、组合等等。
特征工程可以说是机器学习项目中最苦最累最没有技术含量的活(IT民工的说法不是白来的),但通常也是见效最快的方法。
既然说到了“工程“二字,小编就再罗索几句。通常一个机器学习工程师都把自己的技术方向称为”策略方向”,以区别于”工程方向“; 并且,”策略方向“的工程师通常会鄙视”工程方向“的工程师,好像自己天生就高人一等的样子。
4)模型调参
通常,一个模型都有几个参数可以调整,这些参数被称为“超参数”。我们可以想办法寻找到这些参数的最优值,当然,有时候超参数的默认值就已经足够好了。调参也是要花不少时间的,毕竟每一次参数的调整都意味着重新训练一次模型。
对pclass特征进行one-hot编码并填充回df(编码并填充之后就可以删除原始特征了)、对age特征用中位数填充缺失值并且转化为int:
组合Parch 和 SibSp两个特征,生成新的特征family,并且把它二值化为0或1(有没有家属);
对Fare特征也使用中位数来补全缺失数据:
生成x与y,初始化随机森林模型,开始训练、预测、评估: