2019-12-04

今天的科研还是没有啥进展嘞~嗯,早上上了两节课,打游戏打到整个人心态都崩了~也不晓得是我太菜还是对面太强,下午和晚上就是开会开会~

学习还是有那么一点收获的~大猪蹄子要解决这样的问题, 数据集有10个字段,想根具其中9个字段来分析预测那第10个字段的值,也就是根据原来的数据预测第十个字段是0还是1。

那么可以把这个问题看做预测问题,也可以看做是分类问题,那么就引入了随机森林的概念,随机森林由多颗决策树组成,首先构造多颗决策树,根据不同树的预测结果,选取其中较好的结果,哈哈~如下面可爱的图所示。


随机森林

在网上找到了相应的代码,并且在python上面跑通啦,这个代码是一个简单的小例子,精度不是很高~只有0.6。上代码的链接:https://blog.csdn.net/colourful_sky/article/details/82082854

除了进行预测之外还有一个问题就是这个代码输入的数据是float类型的,但是现实生活中的需求数据是以字符串的形式存储的,因此引入了第二个问题就是如何将汉字的字符串转化为float类型数据的问题。在这里可以使用get_dummies()函数,这个函数的作用相当于对数据进行one-hot表示,就可以将字符串转为向量的形式。但向量的形式还不能直接进行应用,引出来了第三个问题就是如何将向量表示为一个float类型,这里可以应用向量的范数,就可以得到相应向量的模值。

向量范数计算

恩~这个问题就这样解决了,虽然应用的技术都很low,后期如果想高大上的操作需要费一番功夫的,但是也算是按着要求都做到啦~从这里收获了一点就是拿着问题去找答案,一步一步的解决,就可以发现事情变得很easy啦~吼吼 今天没有完成自己的事情,也算是有点收获的~happy

你可能感兴趣的:(2019-12-04)