Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > stat > arXiv:2407.05691

帮助 | 高级搜索

统计学 > 方法论

arXiv:2407.05691 (stat)
[提交于 2024年7月8日 ]

标题: 大规模线性分类的多分辨率子采样

标题: Multi-resolution subsampling for large-scale linear classification

Authors:Haolin Chen, Holger Dette, Jun Yu
摘要: 子采样是大数据时代平衡统计效率和计算效率的一种流行方法。大多数方法旨在选择具有信息量或代表性的样本点,以实现对完整数据的良好总体信息捕获。本研究认为,采样技术应根据精心设计的数据划分推荐用于我们关注的区域,而汇总度量足以收集其余部分的信息。我们提出了一种多分辨率子采样策略,该策略结合了由汇总度量描述的整体信息和从选定的子样本点获得的局部信息。我们证明,所提出的方法将导致更有效的基于子样本的估计器,适用于一般的大规模分类问题。此外,我们建立了所提出方法的一些渐近性质,并探讨了与现有子采样程序的联系。最后,我们通过模拟和真实世界实例展示了所提出的子采样策略。
摘要: Subsampling is one of the popular methods to balance statistical efficiency and computational efficiency in the big data era. Most approaches aim at selecting informative or representative sample points to achieve good overall information of the full data. The present work takes the view that sampling techniques are recommended for the region we focus on and summary measures are enough to collect the information for the rest according to a well-designed data partitioning. We propose a multi-resolution subsampling strategy that combines global information described by summary measures and local information obtained from selected subsample points. We show that the proposed method will lead to a more efficient subsample-based estimator for general large-scale classification problems. Some asymptotic properties of the proposed method are established and connections to existing subsampling procedures are explored. Finally, we illustrate the proposed subsampling strategy via simulated and real-world examples.
评论: 40页
主题: 方法论 (stat.ME) ; 统计理论 (math.ST)
引用方式: arXiv:2407.05691 [stat.ME]
  (或者 arXiv:2407.05691v1 [stat.ME] 对于此版本)
  https://doi.org/10.48550/arXiv.2407.05691
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Jun Yu [查看电子邮件]
[v1] 星期一, 2024 年 7 月 8 日 07:46:24 UTC (13,317 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
stat.ME
< 上一篇   |   下一篇 >
新的 | 最近的 | 2024-07
切换浏览方式为:
math
math.ST
stat
stat.TH

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号