Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2508.07673

帮助 | 高级搜索

计算机科学 > 人工智能

arXiv:2508.07673 (cs)
[提交于 2025年8月11日 ]

标题: 伦理2向量:对齐自动代理与人类偏好

标题: Ethics2vec: aligning automatic agents and human preferences

Authors:Gianluca Bontempi
摘要: 尽管智能代理被期望改善人类体验(或使其更高效),但从人类的角度来看,很难把握嵌入在代理行为中的显式或隐式伦理价值观。 这是众所周知的对齐问题,指的是设计与人类价值观、目标和偏好相一致的AI系统的挑战。 这个问题尤其具有挑战性,因为大多数人类的伦理考虑都涉及\emph{不可通约的}(即不可测量和/或不可比较)的价值和标准。 例如,考虑一个为癌症患者开处方的医疗代理。它如何考虑(和/或权衡)像人类生命的价值和治疗成本这样的不可比较方面? 现在,只有当我们定义一个共同的空间,在其中可以定义和使用度量时,人类和人工价值观之间的对齐才是可能的。 本文提出将传统的Anything2vec方法扩展到伦理领域,该方法已在许多类似且难以量化的情况下取得了成功(从自然语言处理到推荐系统和图分析)。 本文提出了一种将自动代理决策(或控制定律)策略映射到多变量向量表示的方法,该方法可用于比较和评估与人类价值观的对齐程度。 Ethics2Vec方法首先在自动代理执行二元决策的情况下进行介绍。然后讨论了自动控制定律(如自动驾驶汽车的情况)的向量化,以说明该方法如何扩展到自动控制设置。
摘要: Though intelligent agents are supposed to improve human experience (or make it more efficient), it is hard from a human perspective to grasp the ethical values which are explicitly or implicitly embedded in an agent behaviour. This is the well-known problem of alignment, which refers to the challenge of designing AI systems that align with human values, goals and preferences. This problem is particularly challenging since most human ethical considerations refer to \emph{incommensurable} (i.e. non-measurable and/or incomparable) values and criteria. Consider, for instance, a medical agent prescribing a treatment to a cancerous patient. How could it take into account (and/or weigh) incommensurable aspects like the value of a human life and the cost of the treatment? Now, the alignment between human and artificial values is possible only if we define a common space where a metric can be defined and used. This paper proposes to extend to ethics the conventional Anything2vec approach, which has been successful in plenty of similar and hard-to-quantify domains (ranging from natural language processing to recommendation systems and graph analysis). This paper proposes a way to map an automatic agent decision-making (or control law) strategy to a multivariate vector representation, which can be used to compare and assess the alignment with human values. The Ethics2Vec method is first introduced in the case of an automatic agent performing binary decision-making. Then, a vectorisation of an automatic control law (like in the case of a self-driving car) is discussed to show how the approach can be extended to automatic control settings.
主题: 人工智能 (cs.AI) ; 机器学习 (cs.LG)
引用方式: arXiv:2508.07673 [cs.AI]
  (或者 arXiv:2508.07673v1 [cs.AI] 对于此版本)
  https://doi.org/10.48550/arXiv.2508.07673
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Gianluca Bontempi [查看电子邮件]
[v1] 星期一, 2025 年 8 月 11 日 06:52:46 UTC (487 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.AI
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-08
切换浏览方式为:
cs
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号