统计学 > 方法论
[提交于 2025年10月4日
]
标题: 超越正则化:固有稀疏主成分分析
标题: Beyond Regularization: Inherently Sparse Principal Component Analysis
摘要: 稀疏主成分分析(稀疏PCA)是一种在多元分析中用于降维的广泛应用技术,解决了标准PCA的两个关键局限性。 首先,稀疏PCA可以在高维低样本量的情况下实现,例如基因微阵列。 其次,它通过将成分正则化为零来提高可解释性。 然而,稀疏奇异向量的过度正则化可能导致它们与总体奇异向量有很大偏差,可能错误地表示数据结构。 此外,稀疏奇异向量通常不是正交的,导致组件之间存在共享信息,这使得方差解释的计算变得复杂。 为了解决这些挑战,我们提出了一种反映数据矩阵固有结构的稀疏PCA方法。 具体来说,我们识别数据矩阵中的不相关子矩阵,这意味着协方差矩阵表现出稀疏块对角结构。 这种稀疏矩阵在高维设置中很常见。 这种数据矩阵的奇异向量本质上是稀疏的,这在提高可解释性的同时捕捉了底层数据结构。 此外,这些奇异向量在构造上是正交的,确保它们不共享信息。 我们通过模拟展示了我们方法的有效性,并提供了实际数据应用。 本文的补充材料可在在线获取。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.