Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2510.13939v1

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2510.13939v1 (cs)
[提交于 2025年10月15日 (此版本) , 最新版本 2025年10月17日 (v2) ]

标题: 读者更喜欢由受版权书籍训练的AI生成的输出,而不是专家人类作家的输出

标题: Readers Prefer Outputs of AI Trained on Copyrighted Books over Expert Human Writers

Authors:Tuhin Chakrabarty, Jane C. Ginsburg, Paramveer Dhillon
摘要: 使用受版权保护的书籍训练人工智能模型,已导致作者提起大量诉讼,他们担心人工智能生成衍生内容的能力。然而,尚不清楚这些模型在模仿作者风格的同时,是否能够生成高质量的文学文本。 为了回答这个问题,我们进行了一项预先注册的研究,将MFA训练的专家作家与三个前沿人工智能模型:ChatGPT、Claude和Gemini进行比较,写作最多450字的段落,模仿50位获奖作者的不同风格。 在159名代表性专家和普通读者的盲测成对评估中,基于上下文提示的人工智能生成文本在风格忠实度(OR=0.16,p<10^8)和写作质量(OR=0.13,p<10^7)方面被专家强烈不喜欢,但对普通读者则结果混杂。 然而,在个别作者的全部作品上微调ChatGPT后,这些发现完全逆转:专家现在更喜欢人工智能生成的文本在风格忠实度(OR=8.16,p<10^13)和写作质量(OR=1.87,p=0.010)方面,普通读者也表现出类似的转变。 这些效应在不同作者和风格中具有普遍性。 微调后的输出很少被最佳人工智能检测器标记为人工智能生成的(3%的比率,相比之下上下文提示为97%)。 中介分析显示,这种逆转是因为微调消除了可检测的人工智能风格特点(例如陈词滥调密度),这些特点会损害上下文提示的输出。 虽然我们没有考虑将原始人工智能输出转化为连贯、可出版的散文所需的人类努力的额外成本,但每位作者的中位微调和推理成本为81美元,与典型的专业作家薪酬相比,大幅减少了99.7%。 因此,针对特定作者的微调使得读者更喜欢非逐字的人工智能写作,而非专家级的人类写作,这为版权的第四项合理使用因素提供了直接相关的实证证据,即“对源作品潜在市场或价值的影响”。
摘要: The use of copyrighted books for training AI models has led to numerous lawsuits from authors concerned about AI's ability to generate derivative content.Yet it's unclear whether these models can generate high quality literary text while emulating authors' styles. To answer this we conducted a preregistered study comparing MFA-trained expert writers with three frontier AI models: ChatGPT, Claude & Gemini in writing up to 450 word excerpts emulating 50 award-winning authors' diverse styles. In blind pairwise evaluations by 159 representative expert & lay readers, AI-generated text from in-context prompting was strongly disfavored by experts for both stylistic fidelity (OR=0.16, p<10^8) & writing quality (OR=0.13, p<10^7) but showed mixed results with lay readers. However, fine-tuning ChatGPT on individual authors' complete works completely reversed these findings: experts now favored AI-generated text for stylistic fidelity (OR=8.16, p<10^13) & writing quality (OR=1.87, p=0.010), with lay readers showing similar shifts. These effects generalize across authors & styles. The fine-tuned outputs were rarely flagged as AI-generated (3% rate v. 97% for in-context prompting) by best AI detectors. Mediation analysis shows this reversal occurs because fine-tuning eliminates detectable AI stylistic quirks (e.g., cliche density) that penalize in-context outputs. While we do not account for additional costs of human effort required to transform raw AI output into cohesive, publishable prose, the median fine-tuning & inference cost of $81 per author represents a dramatic 99.7% reduction compared to typical professional writer compensation. Author-specific fine-tuning thus enables non-verbatim AI writing that readers prefer to expert human writing, providing empirical evidence directly relevant to copyright's fourth fair-use factor, the "effect upon the potential market or value" of the source works.
评论: 预印本正在审稿中
主题: 计算与语言 (cs.CL) ; 计算机与社会 (cs.CY)
引用方式: arXiv:2510.13939 [cs.CL]
  (或者 arXiv:2510.13939v1 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2510.13939
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Tuhin Chakrabarty Mr [查看电子邮件]
[v1] 星期三, 2025 年 10 月 15 日 17:51:58 UTC (9,992 KB)
[v2] 星期五, 2025 年 10 月 17 日 04:21:56 UTC (9,992 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
cs.CL
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-10
切换浏览方式为:
cs
cs.CY

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号