统计学 > 应用
[提交于 2011年1月5日
]
标题: 重复使用、回收、重新评估:通过高效贝叶斯序列计算应对大规模数据中的流感问题
标题: Reuse, recycle, reweigh: Combating influenza through efficient sequential Bayesian computation for massive data
摘要: 千兆字节和太兆字节规模的大型数据集与日益复杂的统计工具相结合,使得分析接近计算可行性的边界。面对这种计算负担,通过将数据集分割成更易于处理的大小来妥协,会导致分层分析,脱离了最初数据收集所依据的背景。在贝叶斯框架下,这些分层分析会产生中间结果,通常使用点估计进行比较,但这些点估计未能考虑这些结果所近似的分布之间的变异性和相关性。然而,尽管最初的妥协导致一般无法进行使用单一联合分层模型的更合理的分析,我们可以通过扩展动态迭代重加权MCMC算法来规避这一结果,并利用这些中间结果。通过这种方法,我们通过使用重要性权重重新加权这些可用的结果,将它们再循环到一个如今可处理的联合分层模型中。我们将此技术应用于来自687个流感A病毒基因组(跨越13年)的分层分析产生的中间结果,使我们能够在分层统计框架内重新审视关于流感进化历史的相关假设。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.