计算机科学 > 机器学习
[提交于 2025年7月30日
]
标题: 基于聚类的随机森林可视化与解释
标题: Cluster-Based Random Forest Visualization and Interpretation
摘要: 随机森林是一种用于自动分类数据集的机器学习方法,由大量决策树组成。 虽然这些随机森林通常比单个决策树具有更高的性能并能更好地泛化,但它们也更难以解释。 本文提出了一种可视化方法和系统,以提高随机森林的可解释性。 我们对相似的树木进行聚类,使用户能够在不需要详细分析每个单独的决策树或解释整个森林的过度简化的总结的情况下,理解模型的一般表现。 为了有意义地对决策树进行聚类,我们引入了一种新的距离度量,该度量考虑了成对决策树的决策规则以及预测结果。 我们还提出了两种新的可视化方法,用于可视化聚类和单独的决策树:(1) 特征图,用于可视化决策树中特征的拓扑位置,以及(2) 规则图,用于可视化决策树的决策规则。 我们通过一个关于“玻璃”数据集的案例研究以及一个小规模的用户研究来证明我们方法的有效性,该数据集是一个相对复杂的标准机器学习数据集。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.