统计学 > 方法论
[提交于 2024年7月8日
]
标题: 大规模线性分类的多分辨率子采样
标题: Multi-resolution subsampling for large-scale linear classification
摘要: 子采样是大数据时代平衡统计效率和计算效率的一种流行方法。大多数方法旨在选择具有信息量或代表性的样本点,以实现对完整数据的良好总体信息捕获。本研究认为,采样技术应根据精心设计的数据划分推荐用于我们关注的区域,而汇总度量足以收集其余部分的信息。我们提出了一种多分辨率子采样策略,该策略结合了由汇总度量描述的整体信息和从选定的子样本点获得的局部信息。我们证明,所提出的方法将导致更有效的基于子样本的估计器,适用于一般的大规模分类问题。此外,我们建立了所提出方法的一些渐近性质,并探讨了与现有子采样程序的联系。最后,我们通过模拟和真实世界实例展示了所提出的子采样策略。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.