Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > eess > arXiv:2508.14931v1

帮助 | 高级搜索

电气工程与系统科学 > 图像与视频处理

arXiv:2508.14931v1 (eess)
[提交于 2025年8月19日 ]

标题: 压力下的像素:探索高分辨率医学影像中基础模型的微调范式

标题: Pixels Under Pressure: Exploring Fine-Tuning Paradigms for Foundation Models in High-Resolution Medical Imaging

Authors:Zahra TehraniNasab, Amar Kumar, Tal Arbel
摘要: 基于扩散的基础模型的进展提高了文本到图像的生成,但大多数努力仅限于低分辨率设置。 随着高分辨率图像合成在各种应用中变得越来越重要,特别是在医学成像领域,微调成为适应这些强大的预训练模型以满足特定任务需求和数据分布的关键机制。 在本工作中,我们进行了一项系统研究,考察在扩展到高分辨率512x512像素时,各种微调技术对图像生成质量的影响。 我们基准测试了一组多样化的微调方法,包括完整的微调策略和参数高效的微调(PEFT)。 我们分析了不同的微调方法如何影响关键质量指标,包括Fréchet Inception Distance(FID)、Vendi分数和提示图像对齐。 我们还评估了在数据稀缺条件下生成图像在下游分类任务中的实用性,结果表明,当使用合成图像进行分类器训练和在真实图像上进行评估时,特定的微调策略可以提高生成保真度和下游性能。 我们的代码可通过项目网站获取 - https://tehraninasab.github.io/PixelUPressure/.
摘要: Advancements in diffusion-based foundation models have improved text-to-image generation, yet most efforts have been limited to low-resolution settings. As high-resolution image synthesis becomes increasingly essential for various applications, particularly in medical imaging domains, fine-tuning emerges as a crucial mechanism for adapting these powerful pre-trained models to task-specific requirements and data distributions. In this work, we present a systematic study, examining the impact of various fine-tuning techniques on image generation quality when scaling to high resolution 512x512 pixels. We benchmark a diverse set of fine-tuning methods, including full fine-tuning strategies and parameter-efficient fine-tuning (PEFT). We dissect how different fine-tuning methods influence key quality metrics, including Fr\'echet Inception Distance (FID), Vendi score, and prompt-image alignment. We also evaluate the utility of generated images in a downstream classification task under data-scarce conditions, demonstrating that specific fine-tuning strategies improve both generation fidelity and downstream performance when synthetic images are used for classifier training and evaluation on real images. Our code is accessible through the project website - https://tehraninasab.github.io/PixelUPressure/.
主题: 图像与视频处理 (eess.IV) ; 图形学 (cs.GR)
引用方式: arXiv:2508.14931 [eess.IV]
  (或者 arXiv:2508.14931v1 [eess.IV] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.14931
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Zahra TehraniNasab [查看电子邮件]
[v1] 星期二, 2025 年 8 月 19 日 19:01:19 UTC (410 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
eess.IV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs
cs.GR
eess

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号