统计学 > 机器学习
            [提交于 2025年10月13日
            
            
            
            ]
          
          标题: 基于距离协方差的随机森林迁移学习:误差界限和电子健康记录应用
标题: Transfer Learning with Distance Covariance for Random Forest: Error Bounds and an EHR Application
摘要: 随机森林由于在结构化表格数据上相对于其他方法的广泛优越性,是机器学习应用的重要方法。 我们提出了一种非参数回归中的迁移学习方法,使用基于距离协方差的特征权重的中心随机森林(CRF),假设未知的源和目标回归函数在少数特征上不同(稀疏不同)。 我们的方法首先通过源域训练的CRF预测目标域的响应,获得残差。 然后,我们在独立样本中,根据特征与残差之间的样本距离协方差,以特征分割概率成比例的方式,对残差拟合另一个CRF。 我们推导了该过程的均方误差率的上界,作为样本大小和差异维度的函数,从理论上证明了随机森林中迁移学习的优势。 在模拟中,我们展示了对于CRF得到的结果也适用于具有数据驱动特征分割选择的标准随机森林(SRF)方法。 除了迁移学习外,我们的结果还显示了在某些情况下基于距离协方差的权重对RF性能的好处。 我们的方法在使用大型多医院电子健康记录数据集(包含20万名ICU患者的数据)预测较小床位目标医院的ICU患者死亡率时表现出显著的提升。
          当前浏览上下文: 
        
          
        
        
        
        
        
stat.ML
          
          
          
          
          
          
            
            
            
          
        文献和引用工具
与本文相关的代码,数据和媒体
            alphaXiv (什么是 alphaXiv?)
          
        
            CatalyzeX 代码查找器 (什么是 CatalyzeX?)
          
        
            DagsHub (什么是 DagsHub?)
          
        
            Gotit.pub (什么是 GotitPub?)
          
        
            Hugging Face (什么是 Huggingface?)
          
        
            带有代码的论文 (什么是带有代码的论文?)
          
        
            ScienceCast (什么是 ScienceCast?)
          
        演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.
 
  