Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2508.01915v1

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2508.01915v1 (cs)
[提交于 2025年8月3日 ]

标题: EgoTrigger:面向全天节能智能眼镜的人类记忆增强的音频驱动图像捕捉

标题: EgoTrigger: Toward Audio-Driven Image Capture for Human Memory Enhancement in All-Day Energy-Efficient Smart Glasses

Authors:Akshay Paruchuri, Sinan Hersek, Lavisha Aggarwal, Qiao Yang, Xin Liu, Achin Kulshrestha, Andrea Colaco, Henry Fuchs, Ishan Chatterjee
摘要: 全天候智能眼镜有望成为能够持续上下文感知的平台,这使它们在我们的日常生活中能够提供前所未有的帮助。 然而,集成用于人类记忆增强的多模态AI代理并执行持续感知,对全天候使用提出了主要的能效挑战。 实现这种平衡需要智能、上下文感知的传感器管理。 我们的方法EgoTrigger利用麦克风的音频提示来选择性地激活耗电的相机,从而在保持人类记忆增强的大量实用性的同时实现高效的感知。 EgoTrigger使用轻量级的音频模型(YAMNet)和自定义分类头,从手-物体交互(HOI)音频提示(如抽屉打开的声音或药瓶打开的声音)触发图像捕获。 除了在QA-Ego4D数据集上进行评估外,我们还引入并在Human Memory Enhancement Question-Answer(HME-QA)数据集上进行了评估。 我们的数据集包含340个由人类标注的第一人称QA对,来自完整的Ego4D视频,这些视频经过筛选以确保它们包含音频,重点关注对于上下文理解和记忆至关重要的HOI时刻。 我们的结果表明,EgoTrigger平均可以使用54%更少的帧,在节省耗电感知组件(例如相机)和下游操作(例如无线传输)的能量方面显著节省,同时在情景记忆任务的数据集上达到相当的性能。 我们认为这种上下文感知的触发策略代表了实现节能、功能强大的全天候智能眼镜的有前途的方向——支持诸如帮助用户回忆他们把钥匙放在哪里或有关他们的日常活动的信息(例如服药)等应用。
摘要: All-day smart glasses are likely to emerge as platforms capable of continuous contextual sensing, uniquely positioning them for unprecedented assistance in our daily lives. Integrating the multi-modal AI agents required for human memory enhancement while performing continuous sensing, however, presents a major energy efficiency challenge for all-day usage. Achieving this balance requires intelligent, context-aware sensor management. Our approach, EgoTrigger, leverages audio cues from the microphone to selectively activate power-intensive cameras, enabling efficient sensing while preserving substantial utility for human memory enhancement. EgoTrigger uses a lightweight audio model (YAMNet) and a custom classification head to trigger image capture from hand-object interaction (HOI) audio cues, such as the sound of a drawer opening or a medication bottle being opened. In addition to evaluating on the QA-Ego4D dataset, we introduce and evaluate on the Human Memory Enhancement Question-Answer (HME-QA) dataset. Our dataset contains 340 human-annotated first-person QA pairs from full-length Ego4D videos that were curated to ensure that they contained audio, focusing on HOI moments critical for contextual understanding and memory. Our results show EgoTrigger can use 54% fewer frames on average, significantly saving energy in both power-hungry sensing components (e.g., cameras) and downstream operations (e.g., wireless transmission), while achieving comparable performance on datasets for an episodic memory task. We believe this context-aware triggering strategy represents a promising direction for enabling energy-efficient, functional smart glasses capable of all-day use -- supporting applications like helping users recall where they placed their keys or information about their routine activities (e.g., taking medications).
评论: 15页,6图,6表。已接受为ISMAR 2025的TVCG期刊论文
主题: 计算机视觉与模式识别 (cs.CV) ; 新兴技术 (cs.ET); 人机交互 (cs.HC); 机器学习 (cs.LG); 声音 (cs.SD); 音频与语音处理 (eess.AS)
引用方式: arXiv:2508.01915 [cs.CV]
  (或者 arXiv:2508.01915v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.01915
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Akshay Paruchuri [查看电子邮件]
[v1] 星期日, 2025 年 8 月 3 日 20:51:23 UTC (2,585 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
查看许可
当前浏览上下文:
cs.CV
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs
cs.ET
cs.HC
cs.LG
cs.SD
eess
eess.AS

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号