Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > eess > arXiv:2508.10605

帮助 | 高级搜索

电气工程与系统科学 > 图像与视频处理

arXiv:2508.10605 (eess)
[提交于 2025年8月14日 ]

标题: DIVA-VQA:检测UGC视频质量中的帧间变化

标题: DIVA-VQA: Detecting Inter-frame Variations in UGC Video Quality

Authors:Xinyi Wang, Angeliki Katsenou, David Bull
摘要: 用户生成(视频)内容(UGC)的快速增长推动了对无参考(NR)感知视频质量评估(VQA)的研究需求。 NR-VQA是社交媒体和流媒体应用中大规模视频质量监控的关键组成部分,在这些应用中无法获得原始参考。 本文提出了一种基于帧间变化驱动的时空碎片化的新颖NR-VQA模型。 通过利用这些帧间差异,该模型在多个层次上逐步分析质量敏感区域:帧、块和碎片化帧。 它整合了与残差对齐的帧、碎片化残差和碎片化帧,以有效捕捉全局和局部信息。 该模型提取二维和三维特征,以表征这些时空变化。 在五个UGC数据集上进行的实验以及与最先进模型的对比表明,我们的方法在平均等级相关性方面排名前二(DIVA-VQA-L: 0.898 和 DIVA-VQA-B: 0.886)。 该方法在低运行时复杂度下实现了改进的性能,与现有最快的NR-VQA方法相比,DIVA-VQA-B排名首位,DIVA-VQA-L平均排名第三。 代码和模型可在以下位置公开获取:https://github.com/xinyiW915/DIVA-VQA.
摘要: The rapid growth of user-generated (video) content (UGC) has driven increased demand for research on no-reference (NR) perceptual video quality assessment (VQA). NR-VQA is a key component for large-scale video quality monitoring in social media and streaming applications where a pristine reference is not available. This paper proposes a novel NR-VQA model based on spatio-temporal fragmentation driven by inter-frame variations. By leveraging these inter-frame differences, the model progressively analyses quality-sensitive regions at multiple levels: frames, patches, and fragmented frames. It integrates frames, fragmented residuals, and fragmented frames aligned with residuals to effectively capture global and local information. The model extracts both 2D and 3D features in order to characterize these spatio-temporal variations. Experiments conducted on five UGC datasets and against state-of-the-art models ranked our proposed method among the top 2 in terms of average rank correlation (DIVA-VQA-L: 0.898 and DIVA-VQA-B: 0.886). The improved performance is offered at a low runtime complexity, with DIVA-VQA-B ranked top and DIVA-VQA-L third on average compared to the fastest existing NR-VQA method. Code and models are publicly available at: https://github.com/xinyiW915/DIVA-VQA.
评论: 6页,1图。已被接受在2025年IEEE国际图像处理会议(ICIP)上发表
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV); 多媒体 (cs.MM)
引用方式: arXiv:2508.10605 [eess.IV]
  (或者 arXiv:2508.10605v1 [eess.IV] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.10605
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Xinyi Wang [查看电子邮件]
[v1] 星期四, 2025 年 8 月 14 日 12:47:42 UTC (6,412 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
eess.IV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs
cs.CV
cs.MM
eess

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号