Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2407.01235

帮助 | 高级搜索

计算机科学 > 密码学与安全

arXiv:2407.01235 (cs)
[提交于 2024年7月1日 ]

标题: 大型语言模型的指纹

标题: A Fingerprint for Large Language Models

Authors:Zhiguang Yang, Hanzhou Wu
摘要: 近期进展表明,通过扩展预训练语言模型可以在许多下游任务上实现最先进的性能,促使大型语言模型(LLMs)成为人工智能领域的热门研究课题。然而,由于从头开始训练LLMs的资源密集型特性,保护LLMs的知识产权免受侵权变得紧迫且至关重要。 这激励了本文作者提出了一种针对LLMs的新颖黑盒指纹技术,该技术无需模型训练或微调。 我们首先证明LLMs的输出会形成一个独特的向量空间,与每个模型相关联。 我们将所有权认证问题建模为评估受害者模型空间与嫌疑模型输出空间之间相似性的任务。 为了解决这个问题,我们提出了两种解决方案,其中第一种方案涉及验证嫌疑大型模型的输出是否与受害者模型的输出处于相同的向量空间内,从而实现快速识别模型侵权行为;第二种方案则重构了LLMs输出和受害者模型的向量空间的联合,以应对受害者模型可能遭受的参数高效微调(PEFT)攻击。 实验结果表明,所提出的这项技术在所有权验证和对抗PEFT攻击方面表现出色。 这项工作揭示了LLMs的固有特性,并为黑盒场景下LLMs的所有权验证提供了一个有前景的解决方案,确保了效率、通用性和实用性。
摘要: Recent advances show that scaling a pre-trained language model could achieve state-of-the-art performance on many downstream tasks, prompting large language models (LLMs) to become a hot research topic in the field of artificial intelligence. However, due to the resource-intensive nature of training LLMs from scratch, it is urgent and crucial to protect the intellectual property of LLMs against infringement. This has motivated the authors in this paper to propose a novel black-box fingerprinting technique for LLMs, which requires neither model training nor model fine-tuning. We first demonstrate that the outputs of LLMs span a unique vector space associated with each model. We model the problem of ownership authentication as the task of evaluating the similarity between the victim model's space and the output's space of the suspect model. To deal with this problem, we propose two solutions, where the first solution involves verifying whether the outputs of the suspected large model are in the same space as those of the victim model, enabling rapid identification of model infringement, and the second one reconstructs the union of the vector spaces for LLM outputs and the victim model to address situations where the victim model has undergone the Parameter-Efficient Fine-Tuning (PEFT) attacks. Experimental results indicate that the proposed technique achieves superior performance in ownership verification and robustness against PEFT attacks. This work reveals inherent characteristics of LLMs and provides a promising solution for ownership verification of LLMs in black-box scenarios, ensuring efficiency, generality and practicality.
评论: https://scholar.google.com/citations?user=IdiF7M0AAAAJ&hl=zh-CN
主题: 密码学与安全 (cs.CR)
引用方式: arXiv:2407.01235 [cs.CR]
  (或者 arXiv:2407.01235v1 [cs.CR] 对于此版本)
  https://doi.org/10.48550/arXiv.2407.01235
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Hanzhou Wu [查看电子邮件]
[v1] 星期一, 2024 年 7 月 1 日 12:25:42 UTC (1,115 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CR
< 上一篇   |   下一篇 >
新的 | 最近的 | 2024-07
切换浏览方式为:
cs

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号