计算机科学 > 计算与语言
[提交于 2025年8月5日
]
标题: 针对大语言模型的多数位感知水印技术
标题: Majority Bit-Aware Watermarking For Large Language Models
摘要: 大型语言模型(LLMs)在现实应用中的广泛部署引发了对其潜在滥用生成有害或欺骗性内容的担忧。 为解决这一问题,水印技术作为一种有前景的解决方案出现,通过在生成的文本中嵌入可识别的二进制信息,用于来源验证和滥用追踪。 尽管近期研究探索了能够嵌入丰富信息(如用户标识符)的多比特水印方案,但它们通常面临文本质量和解码准确性之间的基本权衡:为了确保可靠的消息解码,它们必须在编码过程中限制首选标记集合的大小,而这种限制会降低生成内容的质量。 在本工作中,我们提出了MajorMark,一种通过多数位感知编码改进这一权衡的新水印方法。 MajorMark根据消息的多数位选择首选标记集合,从而实现更大且更灵活的标记采样。 与之前依赖标记频率分析进行解码的方法不同,MajorMark采用基于聚类的解码策略,在首选标记集合较大时仍能保持高解码准确性,从而同时保持内容质量和解码准确性。 我们进一步引入了MajorMark$^+$,该方法将消息分成多个块,独立编码并确定性地解码每个块,从而进一步提高水印文本的质量并提升解码准确性。 在最先进的LLMs上的大量实验表明,我们的方法显著提高了解码准确性和文本生成质量,优于之前的多比特水印基线。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.