计算机科学 > 人机交互
[提交于 2025年6月25日
]
标题: RecUserSim:一种用于评估对话推荐系统的现实且多样的用户模拟器
标题: RecUserSim: A Realistic and Diverse User Simulator for Evaluating Conversational Recommender Systems
摘要: 对话推荐系统(CRS)通过多轮交互增强用户体验,但评估CRS仍然具有挑战性。 用户模拟器可以通过与CRS的交互提供全面的评估,但构建真实且多样的模拟器却很困难。 尽管最近的工作利用大语言模型(LLMs)来模拟用户交互,但它们在跨不同场景模拟真实个体用户方面仍存在不足,并且缺乏明确的评分机制用于定量评估。 为解决这些差距,我们提出了RecUserSim,这是一个基于LLM代理的用户模拟器,在增强模拟的真实性和多样性的同时提供明确的评分。 RecUserSim具有几个关键模块:一个用于定义真实且多样的用户角色的配置文件模块,一个用于跟踪交互历史并发现未知偏好的记忆模块,以及一个受有限理性理论启发的核心动作模块,该模块能够在生成更细粒度的动作和个性化响应的同时实现细微的决策。 为了进一步增强输出控制,设计了一个精炼模块来微调最终响应。 实验表明,RecUserSim生成多样且可控的输出,并产生真实高质量的对话,即使使用较小的基础LLM也是如此。 RecUserSim生成的评分在不同的基础LLM之间表现出高度一致性,突显了其在CRS评估中的有效性。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.