Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2601.05157

帮助 | 高级搜索

计算机科学 > 数据结构与算法

arXiv:2601.05157 (cs)
[提交于 2026年1月8日 ]

标题: 通过高效高维稀疏傅里叶变换学习混合模型

标题: Learning Mixture Models via Efficient High-dimensional Sparse Fourier Transforms

Authors:Alkis Kalavasis, Pravesh K. Kothari, Shuchen Li, Manolis Zampetakis
摘要: 在本工作中,我们给出了一种${\rm poly}(d,k)$时间和样本的算法,用于高效学习 $k$个球形分布的混合参数,在 $d$维空间中。 与所有以前的方法不同,我们的技术适用于重尾分布,并包括甚至没有有限协方差的例子。 我们的方法在聚类分布具有足够重尾的特征函数时有效。 这样的分布包括拉普拉斯分布,但关键的是排除了高斯分布。 所有以前的学习混合模型的方法都隐式或显式地依赖于低阶矩。 即使对于拉普拉斯分布的情况,我们证明任何此类算法都必须使用超多项式数量的样本。 因此,我们的方法增加了绕过矩方法限制的技术短列表。 令人惊讶的是,我们的算法不需要聚类均值之间的最小分离。 这与球形高斯混合形成鲜明对比,其中即使在信息论上,最小的$\ell_2$-分离也是可证明必要的 [Regev 和 Vijayaraghavan '17]。 我们的方法与现有技术很好地结合,并允许获得“两种世界最佳”保证的混合模型,其中每个组件要么具有重尾特征函数,要么具有轻尾特征函数的次高斯尾部。 我们的算法基于通过高效高维稀疏傅里叶变换学习混合模型的新方法。 我们认为这种方法将在统计估计中找到更多应用。 作为例子,我们给出了一个对抗噪声无关对手的一致鲁棒均值估计算法,该模型在多重假设检验文献中具有实际动机。 它由其中一位作者最近的硕士论文正式提出,并已激发后续工作。
摘要: In this work, we give a ${\rm poly}(d,k)$ time and sample algorithm for efficiently learning the parameters of a mixture of $k$ spherical distributions in $d$ dimensions. Unlike all previous methods, our techniques apply to heavy-tailed distributions and include examples that do not even have finite covariances. Our method succeeds whenever the cluster distributions have a characteristic function with sufficiently heavy tails. Such distributions include the Laplace distribution but crucially exclude Gaussians. All previous methods for learning mixture models relied implicitly or explicitly on the low-degree moments. Even for the case of Laplace distributions, we prove that any such algorithm must use super-polynomially many samples. Our method thus adds to the short list of techniques that bypass the limitations of the method of moments. Somewhat surprisingly, our algorithm does not require any minimum separation between the cluster means. This is in stark contrast to spherical Gaussian mixtures where a minimum $\ell_2$-separation is provably necessary even information-theoretically [Regev and Vijayaraghavan '17]. Our methods compose well with existing techniques and allow obtaining ''best of both worlds" guarantees for mixtures where every component either has a heavy-tailed characteristic function or has a sub-Gaussian tail with a light-tailed characteristic function. Our algorithm is based on a new approach to learning mixture models via efficient high-dimensional sparse Fourier transforms. We believe that this method will find more applications to statistical estimation. As an example, we give an algorithm for consistent robust mean estimation against noise-oblivious adversaries, a model practically motivated by the literature on multiple hypothesis testing. It was formally proposed in a recent Master's thesis by one of the authors, and has already inspired follow-up works.
主题: 数据结构与算法 (cs.DS) ; 机器学习 (cs.LG); 机器学习 (stat.ML)
引用方式: arXiv:2601.05157 [cs.DS]
  (或者 arXiv:2601.05157v1 [cs.DS] 对于此版本)
  https://doi.org/10.48550/arXiv.2601.05157
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Shuchen Li [查看电子邮件]
[v1] 星期四, 2026 年 1 月 8 日 17:47:58 UTC (96 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
查看许可
当前浏览上下文:
cs.DS
< 上一篇   |   下一篇 >
新的 | 最近的 | 2026-01
切换浏览方式为:
cs
cs.LG
stat
stat.ML

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号