计算机科学 > 机器学习
[提交于 2025年10月29日
]
标题: flowengineR:R中公平和可重复工作流设计的模块化和可扩展框架
标题: flowengineR: A Modular and Extensible Framework for Fair and Reproducible Workflow Design in R
摘要: flowengineR是一个R包,旨在为构建可重复的算法工作流提供模块化和可扩展的框架,适用于通用的机器学习流水线。 它受到算法公平性领域迅速发展的启发,其中新的度量标准、缓解策略和机器学习方法不断出现。 在公平性中是一个核心挑战,但远远不止于此,现有工具包要么专注于单一干预措施,要么将可重复性和可扩展性作为次要考虑因素,而不是核心设计原则。 flowengineR通过引入数据分割、执行、预处理、训练、中间处理、后处理、评估和报告的标准引擎统一架构来解决这个问题。 每个引擎封装了一个方法任务,但通过轻量级接口进行通信,确保工作流保持透明、可审计且易于扩展。 尽管是在R中实现的,但flowengineR借鉴了工作流语言(CWL、YAWL)、面向图的可视化编程语言(KNIME)和R框架(BatchJobs、batchtools)的想法。 然而,它的重点不在于协调引擎以实现弹性并行执行,而是在于简单设置和管理不同的引擎作为数据结构。 这种正交化使得责任分布、独立开发和简化集成成为可能。 在公平性背景下,通过将公平性方法结构化为可互换的引擎,flowengineR使研究人员能够在建模流程中整合、比较和评估干预措施。 同时,该架构可以推广到可解释性、鲁棒性和合规性度量,而无需核心修改。 虽然由公平性驱动,但它最终提供了一个通用的基础架构,适用于任何需要可重复性、透明性和可扩展性的工作流环境。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.