计算机科学 > 计算机视觉与模式识别
[提交于 2025年8月3日
]
标题: 通过级联双尺度重建,最小高分辨率补丁足以表示全幻灯片图像
标题: Minimal High-Resolution Patches Are Sufficient for Whole Slide Image Representation via Cascaded Dual-Scale Reconstruction
摘要: 全切片图像(WSI)分析由于其千兆像素规模和稀疏分布的诊断区域而仍然具有挑战性。 多实例学习(MIL)通过将WSI建模为补丁的集合来进行切片级预测,从而缓解了这一问题。 然而,大多数MIL方法强调聚合器设计,而忽视了特征提取阶段的特征提取器的影响,该阶段通常在自然图像上进行预训练。 这导致领域差距和次优表示。 自监督学习(SSL)通过预训练任务在弥合领域差距方面显示出前景,但它仍然主要依赖于通用骨干网络,因此需要将WSIs分割成小补丁。 这不可避免地分割了组织学结构,并生成了冗余且相互依赖的补丁,这反过来会降低聚合器性能并大幅增加训练成本。 为了解决这一挑战,我们提出了一种级联双尺度重建(CDSR)框架,证明每张WSI仅需平均9个高分辨率补丁即可实现稳健的切片级表示。 CDSR采用两阶段的选择性采样策略,从模型基础和语义角度识别最具信息量的代表性区域。 然后将这些补丁输入到局部到全局网络中,通过整合细粒度局部细节与全局上下文信息来重建空间一致的高分辨率WSI表示。 与现有的密集采样或SSL流程不同,CDSR针对效率和形态保真度进行了优化。 在Camelyon16、TCGA-NSCLC和TCGA-RCC上的实验表明,CDSR在下游分类任务中实现了准确率提升6.3%和ROC曲线下面积提升5.5%,每个数据集平均仅使用7,070(总数量的4.5%)个高分辨率补丁,优于在超过10,000,000个补丁上训练的最先进方法。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.