统计学 > 机器学习
[提交于 2025年10月19日
]
标题: 用于可靠统计推断的预测增强树
标题: Prediction-Augmented Trees for Reliable Statistical Inference
摘要: 机器学习(ML)在预测任务中的显著成功促使科学家将ML预测作为科学发现流程的核心组成部分。 这由AlphaFold(Jumper等,2021年)的里程碑式成就所体现。 在本文中,我们研究如何在统计分析数据以促进科学发现时安全地使用ML预测。 特别是,我们遵循Angelopoulos等(2023年)引入的框架。 在这个框架中,我们假设可以访问一小部分$n$黄金标准标记样本,一个数量大得多的$N$未标记样本集,以及一个可用于填补未标记数据点标签的ML模型。 我们引入了两种新的增强学习估计器:(1)预测增强残差树(PART),以及(2)预测增强求积(PAQ)。 这两种估计器相比Angelopoulos等(2023年)和Angelopoulos等(2024年)分别引入的PPI和PPI++现有估计器具有显著优势。 PART是一种基于决策树的估计器,使用贪心准则构建。 我们首先描述PART的渐近分布,并展示如何构建有效的置信区间。 然后我们证明PART在生态学、天文学和人口普查报告等领域的实际数据集中优于现有方法。 这导致了更具信心的估计器,这是由于同时使用了黄金标准样本和机器学习预测。 最后,我们通过探索PAQ来正式证明PART的优势,PAQ是一种在考虑PART的树深度趋于无穷时的极限情况下出现的估计方法。 在输入数据的适当假设下,我们证明PAQ的方差以$O(N^{-1} + n^{-4})$的速度缩小,显著优于现有方法的$O(N^{-1}+n^{-1})$速度。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.