计算机科学 > 数据结构与算法
[提交于 2026年1月8日
]
标题: 通过高效高维稀疏傅里叶变换学习混合模型
标题: Learning Mixture Models via Efficient High-dimensional Sparse Fourier Transforms
摘要: 在本工作中,我们给出了一种${\rm poly}(d,k)$时间和样本的算法,用于高效学习 $k$个球形分布的混合参数,在 $d$维空间中。 与所有以前的方法不同,我们的技术适用于重尾分布,并包括甚至没有有限协方差的例子。 我们的方法在聚类分布具有足够重尾的特征函数时有效。 这样的分布包括拉普拉斯分布,但关键的是排除了高斯分布。 所有以前的学习混合模型的方法都隐式或显式地依赖于低阶矩。 即使对于拉普拉斯分布的情况,我们证明任何此类算法都必须使用超多项式数量的样本。 因此,我们的方法增加了绕过矩方法限制的技术短列表。 令人惊讶的是,我们的算法不需要聚类均值之间的最小分离。 这与球形高斯混合形成鲜明对比,其中即使在信息论上,最小的$\ell_2$-分离也是可证明必要的 [Regev 和 Vijayaraghavan '17]。 我们的方法与现有技术很好地结合,并允许获得“两种世界最佳”保证的混合模型,其中每个组件要么具有重尾特征函数,要么具有轻尾特征函数的次高斯尾部。 我们的算法基于通过高效高维稀疏傅里叶变换学习混合模型的新方法。 我们认为这种方法将在统计估计中找到更多应用。 作为例子,我们给出了一个对抗噪声无关对手的一致鲁棒均值估计算法,该模型在多重假设检验文献中具有实际动机。 它由其中一位作者最近的硕士论文正式提出,并已激发后续工作。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.