Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2508.07353

帮助 | 高级搜索

计算机科学 > 人工智能

arXiv:2508.07353 (cs)
[提交于 2025年8月10日 ]

标题: 重新思考领域专用大语言模型基准构建:全面性与紧凑性方法

标题: Rethinking Domain-Specific LLM Benchmark Construction: A Comprehensiveness-Compactness Approach

Authors:Rubing Chen, Jiaxin Wu, Jian Wang, Xulu Zhang, Wenqi Fan, Chenghua Lin, Xiao-Yong Wei, Qing Li
摘要: 许多基准已被构建用于评估大型语言模型(LLMs)的领域特定能力,突显了有效且高效构建基准的必要性。 现有的领域特定基准主要关注扩展定律,依赖大量语料进行监督微调或生成广泛的题集以实现广泛覆盖。 然而,语料和问题答案(QA)集设计对领域特定LLMs的精确率和召回率的影响仍未被探索。 在本文中,我们解决了这一差距,并证明扩展定律并不总是特定领域基准构建的最佳原则。 相反,我们提出了Comp-Comp,一个基于全面性-紧凑性原则的迭代基准框架。 在这里,全面性确保领域的语义召回,而紧凑性提高精确度,指导语料和QA集的构建。 为了验证我们的框架,我们在一所著名的大学进行了案例研究,从而创建了XUBench,一个大规模且全面的封闭领域基准。 尽管我们在本工作中使用学术领域作为案例,但我们的Comp-Comp框架设计为可扩展至学术以外的领域,为各个领域的基准构建提供了有价值的见解。
摘要: Numerous benchmarks have been built to evaluate the domain-specific abilities of large language models (LLMs), highlighting the need for effective and efficient benchmark construction. Existing domain-specific benchmarks primarily focus on the scaling law, relying on massive corpora for supervised fine-tuning or generating extensive question sets for broad coverage. However, the impact of corpus and question-answer (QA) set design on the precision and recall of domain-specific LLMs remains unexplored. In this paper, we address this gap and demonstrate that the scaling law is not always the optimal principle for benchmark construction in specific domains. Instead, we propose Comp-Comp, an iterative benchmarking framework based on a comprehensiveness-compactness principle. Here, comprehensiveness ensures semantic recall of the domain, while compactness enhances precision, guiding both corpus and QA set construction. To validate our framework, we conducted a case study in a well-renowned university, resulting in the creation of XUBench, a large-scale and comprehensive closed-domain benchmark. Although we use the academic domain as the case in this work, our Comp-Comp framework is designed to be extensible beyond academia, providing valuable insights for benchmark construction across various domains.
主题: 人工智能 (cs.AI) ; 计算与语言 (cs.CL); 机器学习 (cs.LG)
引用方式: arXiv:2508.07353 [cs.AI]
  (或者 arXiv:2508.07353v1 [cs.AI] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.07353
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Rubing Chen [查看电子邮件]
[v1] 星期日, 2025 年 8 月 10 日 14:08:28 UTC (5,640 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.AI
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs
cs.CL
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号