Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2601.20981

帮助 | 高级搜索

计算机科学 > 神经与进化计算

arXiv:2601.20981 (cs)
[提交于 2026年1月28日 ]

标题: 通过物种分化在大型语言模型中多样化毒性搜索

标题: Diversifying Toxicity Search in Large Language Models Through Speciation

Authors:Onkar Shelar, Travis Desell
摘要: 进化提示搜索是针对大型语言模型(LLMs)进行红队测试的一种实用的黑盒方法,但现有方法通常会集中在一小类高性能提示上,限制了不同故障模式的覆盖范围。 我们提出了一种分物种的质量-多样性(QD)扩展方法ToxSearch,该方法可以并行维持多个高毒性提示生态位,而不是优化一个最佳提示。 ToxSearch-S通过一种搜索方法实现了无监督提示分物种,该方法维护具有示例领导者的容量有限的物种,一个用于异常值和新兴生态位的储备池,以及一种物种感知的父代选择机制,该机制在生态位内开发和跨生态位探索之间进行权衡。 发现ToxSearch-S比基线方法达到更高的峰值毒性($\approx 0.73$ vs. $\approx 0.47$)和极端更重的尾部(前10名中位数 $0.66$ vs. $0.45$),同时在中等毒性提示上保持相当的性能。 分物种还带来了在以主题为物种的分析下的更广泛的语义覆盖(更高的有效主题多样性 $N_1$ 和更大的独特主题覆盖 $K$)。 最后,形成的物种在嵌入空间中分离良好(平均分离比 $\approx 1.93$),并且表现出不同的毒性分布,表明分物种将对抗空间划分为行为差异化的生态位,而不是表面的词汇变体。 这表明我们的方法揭示了更广泛的攻击策略。
摘要: Evolutionary prompt search is a practical black-box approach for red teaming large language models (LLMs), but existing methods often collapse onto a small family of high-performing prompts, limiting coverage of distinct failure modes. We present a speciated quality-diversity (QD) extension of ToxSearch that maintains multiple high-toxicity prompt niches in parallel rather than optimizing a single best prompt. ToxSearch-S introduces unsupervised prompt speciation via a search methodology that maintains capacity-limited species with exemplar leaders, a reserve pool for outliers and emerging niches, and species-aware parent selection that trades off within-niche exploitation and cross-niche exploration. ToxSearch-S is found to reach higher peak toxicity ($\approx 0.73$ vs.\ $\approx 0.47$) and a extreme heavier tail (top-10 median $0.66$ vs.\ $0.45$) than the baseline, while maintaining comparable performance on moderately toxic prompts. Speciation also yields broader semantic coverage under a topic-as-species analysis (higher effective topic diversity $N_1$ and larger unique topic coverage $K$). Finally, species formed are well-separated in embedding space (mean separation ratio $\approx 1.93$) and exhibit distinct toxicity distributions, indicating that speciation partitions the adversarial space into behaviorally differentiated niches rather than superficial lexical variants. This suggests our approach uncovers a wider range of attack strategies.
评论: 预印本。12页
主题: 神经与进化计算 (cs.NE) ; 种群与进化 (q-bio.PE)
引用方式: arXiv:2601.20981 [cs.NE]
  (或者 arXiv:2601.20981v1 [cs.NE] 对于此版本)
  https://doi.org/10.48550/arXiv.2601.20981
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Onkar Shelar [查看电子邮件]
[v1] 星期三, 2026 年 1 月 28 日 19:29:54 UTC (4,048 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
查看许可
当前浏览上下文:
cs.NE
< 上一篇   |   下一篇 >
新的 | 最近的 | 2026-01
切换浏览方式为:
cs
q-bio
q-bio.PE

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号