定量生物学 > 基因组学
[提交于 2025年8月2日
]
标题: 一种用于泛癌RNA-Seq分类的新型cVAE增强深度学习框架
标题: A Novel cVAE-Augmented Deep Learning Framework for Pan-Cancer RNA-Seq Classification
摘要: 使用转录组(RNA-Seq)数据进行泛癌分类可以为肿瘤亚型和治疗选择提供信息,但由于维度极高和样本量有限而具有挑战性。 在本研究中,我们提出了一种新的深度学习框架,该框架使用类条件变分自编码器(cVAE)来增强泛癌基因表达分类的训练数据。 使用来自癌症基因组图谱(TCGA)的801个跨越5种癌症类型的肿瘤RNA-Seq样本,我们首先进行特征选择,将20,531个基因表达特征减少到500个变异程度最高的基因。 然后在这些数据上训练一个cVAE,以学习基于癌症类型的基因表达潜在表示,从而为每种肿瘤类别生成合成基因表达样本。 我们用这些cVAE生成的样本对训练集进行增强(使数据集大小翻倍),以减轻过拟合和类别不平衡问题。 随后在增强的数据集上训练一个两层多层感知机(MLP)分类器来预测肿瘤类型。 增强的框架在保留的测试集上实现了高分类准确率(约98%),明显优于仅在原始数据上训练的分类器。 我们展示了详细的实验结果,包括VAE训练曲线、分类器性能指标(ROC曲线和混淆矩阵)以及架构图,以说明该方法。 结果表明,基于cVAE的合成增强可以显著提高泛癌预测性能,尤其是对于代表性不足的癌症类别。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.