Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2510.16635v1

帮助 | 高级搜索

计算机科学 > 多智能体系统

arXiv:2510.16635v1 (cs)
[提交于 2025年10月18日 ]

标题: 通过检索推理资源和多智能体分析进行提示优化

标题: Prompt Optimization via Retrieved Reasoning Assets and Multi-Agent Analysis

Authors:Wonduk Seo, Juhyeon Lee, Junseo Koh, Hyunjin An, Jian Park, Seunghyun Lee, Haihua Chen, Yi Bu
摘要: 提示优化已成为改进大型语言模型(LLMs)性能的有效替代方法,而不是重新训练。 然而,大多数现有方法将评估视为一个黑箱,仅依赖数值分数,而对提示成功或失败的原因提供有限的见解。 它们还高度依赖于试错式的改进,这难以解释和控制。 在本文中,我们引入了MA-SAPO,一种基于多智能体的评分感知提示优化框架。 与之前的方法相比,MA-SAPO显式地将评估结果与结构化推理相结合,以指导系统的编辑。 该框架具体包括两个阶段:在推理阶段,智能体协作解释指标分数,诊断弱点,并合成可重复使用的推理资产;在测试阶段,智能体检索这些资产以分析优化后的提示,并仅应用基于证据的编辑。 通过将评估信号转化为可解释的推理链,MA-SAPO生成的提示优化更加透明、可审计和可控。 在HelpSteer1/2基准上的实验表明,与单次提示、检索增强基线和先前的多智能体策略相比,取得了持续的改进,验证了我们方法的有效性。
摘要: Prompt optimization has emerged as an effective alternative to retraining for improving the performance of Large Language Models (LLMs). However, most existing approaches treat evaluation as a black box, relying solely on numerical scores while offering limited insight into why a prompt succeeds or fails. They also depend heavily on trial-and-error refinements, which are difficult to interpret and control. In this paper, we introduce MA-SAPO, a Multi-Agent framework for Score-Aware Prompt Optimization. Compared to prior methods, MA-SAPO explicitly couples evaluation outcomes with structured reasoning to guide systematic edits. The framework specifically consists of two stages: during the Reasoning Phase, agents collaboratively explain metric scores, diagnose weaknesses, and synthesize targeted refinements that are stored as reusable reasoning assets; during the Test Phase, agents retrieve these assets to analyze optimized prompts and apply only evidence-grounded edits. By turning evaluation signals into interpretable reasoning chains, MA-SAPO produces prompt refinements that are more transparent, auditable, and controllable. Experiments on the HelpSteer1/2 benchmarks demonstrate consistent improvements over single-pass prompting, retrieval-augmented baselines, and prior multi-agent strategies, validating the effectiveness of our approach.
评论: 预印本
主题: 多智能体系统 (cs.MA) ; 人工智能 (cs.AI); 计算与语言 (cs.CL); 人机交互 (cs.HC); 信息检索 (cs.IR)
引用方式: arXiv:2510.16635 [cs.MA]
  (或者 arXiv:2510.16635v1 [cs.MA] 对于此版本)
  https://doi.org/10.48550/arXiv.2510.16635
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Wonduk Seo [查看电子邮件]
[v1] 星期六, 2025 年 10 月 18 日 20:21:09 UTC (1,304 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
cs.MA
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-10
切换浏览方式为:
cs
cs.AI
cs.CL
cs.HC
cs.IR

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号