计算机科学 > 计算机视觉与模式识别
            [提交于 2025年8月3日
            
            
            
            ]
          
          标题: EgoTrigger:面向全天节能智能眼镜的人类记忆增强的音频驱动图像捕捉
标题: EgoTrigger: Toward Audio-Driven Image Capture for Human Memory Enhancement in All-Day Energy-Efficient Smart Glasses
摘要: 全天候智能眼镜有望成为能够持续上下文感知的平台,这使它们在我们的日常生活中能够提供前所未有的帮助。 然而,集成用于人类记忆增强的多模态AI代理并执行持续感知,对全天候使用提出了主要的能效挑战。 实现这种平衡需要智能、上下文感知的传感器管理。 我们的方法EgoTrigger利用麦克风的音频提示来选择性地激活耗电的相机,从而在保持人类记忆增强的大量实用性的同时实现高效的感知。 EgoTrigger使用轻量级的音频模型(YAMNet)和自定义分类头,从手-物体交互(HOI)音频提示(如抽屉打开的声音或药瓶打开的声音)触发图像捕获。 除了在QA-Ego4D数据集上进行评估外,我们还引入并在Human Memory Enhancement Question-Answer(HME-QA)数据集上进行了评估。 我们的数据集包含340个由人类标注的第一人称QA对,来自完整的Ego4D视频,这些视频经过筛选以确保它们包含音频,重点关注对于上下文理解和记忆至关重要的HOI时刻。 我们的结果表明,EgoTrigger平均可以使用54%更少的帧,在节省耗电感知组件(例如相机)和下游操作(例如无线传输)的能量方面显著节省,同时在情景记忆任务的数据集上达到相当的性能。 我们认为这种上下文感知的触发策略代表了实现节能、功能强大的全天候智能眼镜的有前途的方向——支持诸如帮助用户回忆他们把钥匙放在哪里或有关他们的日常活动的信息(例如服药)等应用。
文献和引用工具
与本文相关的代码,数据和媒体
            alphaXiv (什么是 alphaXiv?)
          
        
            CatalyzeX 代码查找器 (什么是 CatalyzeX?)
          
        
            DagsHub (什么是 DagsHub?)
          
        
            Gotit.pub (什么是 GotitPub?)
          
        
            Hugging Face (什么是 Huggingface?)
          
        
            带有代码的论文 (什么是带有代码的论文?)
          
        
            ScienceCast (什么是 ScienceCast?)
          
        演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.
 
  