Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > eess > arXiv:2508.06182

帮助 | 高级搜索

电气工程与系统科学 > 图像与视频处理

arXiv:2508.06182 (eess)
[提交于 2025年8月8日 ]

标题: 基于临床指导的数据合成用于喉部病变检测

标题: Clinically-guided Data Synthesis for Laryngeal Lesion Detection

Authors:Chiara Baldini, Kaisar Kushibar, Richard Osuala, Simone Balocco, Oliver Diaz, Karim Lekadir, Leonardo S. Mattos
摘要: 尽管计算机辅助诊断(CADx)和检测(CADe)系统在各个医学领域取得了显著进展,但它们在耳鼻喉科等专业领域中的应用仍然有限。 在后者中,当前的评估方法高度依赖于操作者的专业知识,病变的高异质性使诊断变得复杂,尽管活检仍然是金标准,但其成本和风险都很高。 对于专业的内窥镜CADx/e系统来说,一个关键瓶颈是缺乏具有足够变异性以实现现实世界泛化的良好标注数据集。 本研究介绍了一种新方法,该方法利用潜在扩散模型(LDM)结合ControlNet适配器,根据临床观察生成喉内窥镜图像-标注对。 该方法通过将扩散过程条件化,生成具有现实感、高质量和临床相关性的图像特征,从而解决数据稀缺问题,这些特征能够捕捉多种解剖状况。 所提出的方法可以用于扩展CADx/e模型的训练数据集,增强喉科学的评估过程。 事实上,在下游检测任务中,仅添加10%的合成数据就使模型内部测试时的喉部病变检测率提高了9%,在跨域外部数据上的检测率提高了22.1%。 此外,通过让5名不同专业水平的耳鼻喉科专家对合成图像与真实图像的区分信心进行评分,评估了生成图像的真实性。 这项工作有望加速喉部疾病诊断自动化工具的发展,提供一种解决数据稀缺问题的方案,并展示了合成数据在现实场景中的适用性。
摘要: Although computer-aided diagnosis (CADx) and detection (CADe) systems have made significant progress in various medical domains, their application is still limited in specialized fields such as otorhinolaryngology. In the latter, current assessment methods heavily depend on operator expertise, and the high heterogeneity of lesions complicates diagnosis, with biopsy persisting as the gold standard despite its substantial costs and risks. A critical bottleneck for specialized endoscopic CADx/e systems is the lack of well-annotated datasets with sufficient variability for real-world generalization. This study introduces a novel approach that exploits a Latent Diffusion Model (LDM) coupled with a ControlNet adapter to generate laryngeal endoscopic image-annotation pairs, guided by clinical observations. The method addresses data scarcity by conditioning the diffusion process to produce realistic, high-quality, and clinically relevant image features that capture diverse anatomical conditions. The proposed approach can be leveraged to expand training datasets for CADx/e models, empowering the assessment process in laryngology. Indeed, during a downstream task of detection, the addition of only 10% synthetic data improved the detection rate of laryngeal lesions by 9% when the model was internally tested and 22.1% on out-of-domain external data. Additionally, the realism of the generated images was evaluated by asking 5 expert otorhinolaryngologists with varying expertise to rate their confidence in distinguishing synthetic from real images. This work has the potential to accelerate the development of automated tools for laryngeal disease diagnosis, offering a solution to data scarcity and demonstrating the applicability of synthetic data in real-world scenarios.
主题: 图像与视频处理 (eess.IV) ; 计算机视觉与模式识别 (cs.CV)
引用方式: arXiv:2508.06182 [eess.IV]
  (或者 arXiv:2508.06182v1 [eess.IV] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.06182
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Chiara Baldini [查看电子邮件]
[v1] 星期五, 2025 年 8 月 8 日 09:55:54 UTC (4,654 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
查看许可
当前浏览上下文:
eess
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs
cs.CV
eess.IV

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号