杨文龙的博客 » Blog Archive » 随机森林（Random Forest） - 个人技术笔记 - 热爱创新发明，专注机器学习、算法、深度学习、自然语言处理及人工智能

随机森林（Random Forest）

发布时间：2016-01-28 栏目：机器学习评论：0 Comments

随机森林顾名思义，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为那一类。

随机森林的优点有：

1. 对于很多种资料，它可以产生高准确度的分类器。

2. 它可以处理大量的输入变量。

3. 它可以在决定类别时，评估变量的重要性。

4. 在建造森林时，它可以在内部对于一般化后的误差产生不偏差的估计。

5. 它包含一个好方法可以估计遗失的资料，并且，如果有很大一部分的资料遗失，仍可以维持准确度。

6. 它提供一个实验方法，可以去侦测 variable interactions 。

7. 对于不平衡的分类资料集来说，它可以平衡误差。

8. 它计算各例中的亲近度，对于数据挖掘、侦测偏离者（outlier）和将资料视觉化非常有用。

9. 使用上述。它可被延伸应用在未标记的资料上，这类资料通常是使用非监督式聚类。也可侦测偏离者和观看资料。

10. 学习过程是很快速的。

缺点：

1. 随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟

2. 对于有不同级别的属性的数据，级别划分较多的属性会对随机森林产生更大的影响，所以随机森林在这种数据上产出的属性权值是不可信的。

参数的调整和选择：

1. 决策树的数量

2. 决策树的最大深度

3. 信息增益的计算标准/公式

4. 其他

留下评论

You must be logged in to post a comment.

相册集

关于自己

杨文龙，微软Principal Engineering Manager, 曾在各家公司担任影像技术资深总监、数据科学团队资深经理、ADAS算法总监、资深深度学习工程师等职位，热爱创新发明，专注于人工智能、深度学习、图像处理、机器学习、算法、自然语言处理及软件等领域，目前发明有国际专利19篇，中国专利28篇。

联系我

个人技术笔记

welonshen@gmail.com

2015 in Shanghai

个人技术笔记

随机森林（Random Forest）

留下评论

近期文章

近期评论

文章归档

分类目录

功能

热情读者

作者其他介绍

友情链接

相册集

关于自己

联系我