Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2508.00750

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2508.00750 (cs)
[提交于 2025年8月1日 ]

标题: SU-ESRGAN:用于卫星和无人机影像超分辨率的语义和不确定性感知ESRGAN,适用于跨领域评估的微调

标题: SU-ESRGAN: Semantic and Uncertainty-Aware ESRGAN for Super-Resolution of Satellite and Drone Imagery with Fine-Tuning for Cross Domain Evaluation

Authors:Prerana Ramkumar
摘要: 生成对抗网络(GANs)已经实现了图像的现实超分辨率(SR),然而,它们在语义一致性以及每个像素的置信度方面存在不足,这限制了它们在关键遥感应用中的可信度,如灾害响应、城市规划和农业。 本文介绍了语义和不确定性感知的ESRGAN(SU-ESRGAN),这是第一个为卫星图像设计的SR框架,结合了ESRGAN、通过DeepLabv3进行分割损失以保留类别细节以及蒙特卡洛丢弃以生成像素级不确定性图。 SU-ESRGAN在航空图像上的结果(PSNR、SSIM、LPIPS)与基准ESRGAN相当。 这种新模型在使用广角(FoV)相机的卫星系统或无人机(UAVs)中具有价值,以空间分辨率为代价换取覆盖范围。 模块化设计允许在无人机数据管道中集成,用于机载或后期处理SR,以增强由于运动模糊、压缩和传感器限制导致的图像。 此外,该模型进行了微调,以评估其在跨域应用中的性能。 测试是在两个基于无人机的数据集上进行的,这两个数据集在高度和成像视角上有所不同。 微调模型的性能评估显示,对航空海事无人机数据集有更强的适应性,其成像特征与训练数据一致,突显了在SR应用中领域感知训练的重要性。
摘要: Generative Adversarial Networks (GANs) have achieved realistic super-resolution (SR) of images however, they lack semantic consistency and per-pixel confidence, limiting their credibility in critical remote sensing applications such as disaster response, urban planning and agriculture. This paper introduces Semantic and Uncertainty-Aware ESRGAN (SU-ESRGAN), the first SR framework designed for satellite imagery to integrate the ESRGAN, segmentation loss via DeepLabv3 for class detail preservation and Monte Carlo dropout to produce pixel-wise uncertainty maps. The SU-ESRGAN produces results (PSNR, SSIM, LPIPS) comparable to the Baseline ESRGAN on aerial imagery. This novel model is valuable in satellite systems or UAVs that use wide field-of-view (FoV) cameras, trading off spatial resolution for coverage. The modular design allows integration in UAV data pipelines for on-board or post-processing SR to enhance imagery resulting due to motion blur, compression and sensor limitations. Further, the model is fine-tuned to evaluate its performance on cross domain applications. The tests are conducted on two drone based datasets which differ in altitude and imaging perspective. Performance evaluation of the fine-tuned models show a stronger adaptation to the Aerial Maritime Drone Dataset, whose imaging characteristics align with the training data, highlighting the importance of domain-aware training in SR-applications.
主题: 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG); 图像与视频处理 (eess.IV)
引用方式: arXiv:2508.00750 [cs.CV]
  (或者 arXiv:2508.00750v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.00750
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Prerana Ramkumar [查看电子邮件]
[v1] 星期五, 2025 年 8 月 1 日 16:25:21 UTC (594 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs
cs.CV
eess
eess.IV

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号