无法理解ID3算法
本文关键字:ID3 算法 | 更新日期: 2023-09-27 18:03:05
维基百科确实有ID3算法的定义,但它非常复杂。是否有任何链接以易于理解的方式解释这个概念?
维基百科有很多复杂的理论和公式。我确实理解了什么是熵。但我不明白什么是增益。
我认为Wiki页面基本上明确了这个概念,尽管一些例子会有所帮助。您可以查看有关此主题的佛罗里达大学页面和ICL页面。当涉及到这样的主题(机器学习和数据挖掘)时,你应该总是考虑阅读安德鲁·摩尔@ CMU的材料,我发现这些材料非常有帮助。
但是,这是我的两点看法:
熵表示消息中包含的信息(不确定性)的期望值。由于我们在这里考虑的是决策树,增益是我们对一个属性进行分割时熵的差值(即,原始熵和不同分支熵的权重平均值之间的差值)。由于这是减少的不确定性,这只是我们通过拆分该属性获得的信息。
此外,我们在学习数据挖掘课程时使用了《数据挖掘:基于教程的方法》作为文本,这是一本很好很容易的书。