计算机科学 > 人工智能
[提交于 2015年12月3日
]
标题: 交叉猫:一种用于分析异质性高维数据的全贝叶斯非参数方法
标题: CrossCat: A Fully Bayesian Nonparametric Method for Analyzing Heterogeneous, High Dimensional Data
摘要: 存在对统计方法的广泛需求,这些方法能够在不施加限制性或不透明建模假设的情况下分析高维数据集。 本文描述了一种通用领域数据分析方法,称为CrossCat。 CrossCat推断数据的多个不重叠视图,每个视图由变量的一个子集组成,并使用单独的非参数混合模型来对每个视图进行建模。 CrossCat基于数据表的分层、非参数模型中的近似贝叶斯推理。 该模型包括数据表列上的狄利克雷过程混合,其中每个混合成分本身是行上的独立狄利克雷过程混合;内部混合成分是简单的参数模型,其形式取决于表中的数据类型。 CrossCat结合了混合建模和贝叶斯网络结构学习的优势。 与混合建模类似,CrossCat可以通过假定潜在变量来对广泛的分布类进行建模,并且为预测提供可以高效条件化和采样的表示。 与贝叶斯网络类似,CrossCat表示变量之间的依赖关系和独立关系,因此在存在多个统计信号时仍能保持准确性。 推断是通过可扩展的吉布斯抽样方案完成的;本文展示了它在实践中效果良好。 本文还包括对多达1000万单元的异构表格数据的实证结果,例如医院费用和质量指标、投票记录、失业率、基因表达测量值以及手写数字图像。 CrossCat推断的结构在多个领域中与已接受的发现和常识知识一致,并且预测准确性与生成性、判别性和无模型替代方法相当。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.