Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2601.05187

帮助 | 高级搜索

计算机科学 > 人工智能

arXiv:2601.05187 (cs)
[提交于 2026年1月8日 ]

标题: SimuAgent:一个基于大语言模型的Simulink建模助手,通过强化学习进行增强

标题: SimuAgent: An LLM-Based Simulink Modeling Assistant Enhanced with Reinforcement Learning

Authors:Yanchang Liang, Xiaowei Zhao
摘要: 大型语言模型(LLMs)已经革新了基于文本的代码自动化,但它们在图导向的工程工作流中的潜力仍鲜有探索。 我们引入了SimuAgent,一个为Simulink量身定制的基于LLM的建模和仿真代理。 SimuAgent用简洁的字典式Python表示代替冗长的XML,显著减少标记数量,提高可解释性,并实现快速的进程内仿真。 一种轻量级的计划-执行架构,经过两个阶段的训练,使代理具备低级别的工具技能和高级别的设计推理能力。 为了解决长视野任务中的稀疏奖励问题,我们提出了Reflection-GRPO(ReGRPO),它通过自我反思轨迹增强组相对策略优化(GRPO),提供丰富的中间反馈,加速收敛并提升鲁棒性。 在我们新发布的基准SimuBench上的实验表明,使用SimuAgent微调的Qwen2.5-7B模型在收敛速度和建模准确性方面优于标准的RL基线,并且在相同基准上使用少样本提示进行评估时甚至超过了GPT-4o。 消融实验确认,两阶段的课程学习和抽象-重建数据增强进一步提高了泛化能力。 SimuAgent在硬件要求适中的本地环境中进行训练和运行,为工业模型驱动工程提供了隐私保护、成本效益高的解决方案。 SimuAgent弥合了LLMs与图形建模环境之间的差距,为工业环境中的AI辅助工程设计提供了一个实用的解决方案。
摘要: Large language models (LLMs) have revolutionized text-based code automation, but their potential in graph-oriented engineering workflows remains under-explored. We introduce SimuAgent, an LLM-powered modeling and simulation agent tailored for Simulink. SimuAgent replaces verbose XML with a concise, dictionary-style Python representation, dramatically cutting token counts, improving interpretability, and enabling fast, in-process simulation. A lightweight plan-execute architecture, trained in two stages, equips the agent with both low-level tool skills and high-level design reasoning. To tackle sparse rewards in long-horizon tasks, we propose Reflection-GRPO (ReGRPO), which augments Group Relative Policy Optimization (GRPO) with self-reflection traces that supply rich intermediate feedback, accelerating convergence and boosting robustness. Experiments on SimuBench, our newly released benchmark comprising 5300 multi-domain modeling tasks, show that a Qwen2.5-7B model fine-tuned with SimuAgent converges faster and achieves higher modeling accuracy than standard RL baselines, and even surpasses GPT-4o when evaluated with few-shot prompting on the same benchmark. Ablations confirm that the two-stage curriculum and abstract-reconstruct data augmentation further enhance generalization. SimuAgent trains and runs entirely on-premise with modest hardware, delivering a privacy-preserving, cost-effective solution for industrial model-driven engineering. SimuAgent bridges the gap between LLMs and graphical modeling environments, offering a practical solution for AI-assisted engineering design in industrial settings.
主题: 人工智能 (cs.AI)
引用方式: arXiv:2601.05187 [cs.AI]
  (或者 arXiv:2601.05187v1 [cs.AI] 对于此版本)
  https://doi.org/10.48550/arXiv.2601.05187
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Yanchang Liang [查看电子邮件]
[v1] 星期四, 2026 年 1 月 8 日 18:10:35 UTC (907 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
查看许可
当前浏览上下文:
cs.AI
< 上一篇   |   下一篇 >
新的 | 最近的 | 2026-01
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号