Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > q-bio > arXiv:2506.16359

帮助 | 高级搜索

定量生物学 > 定量方法

arXiv:2506.16359 (q-bio)
[提交于 2025年6月19日 (v1) ,最后修订 2025年7月17日 (此版本, v3)]

标题: SHREC:一种用于通过大型语言模型推进下一代计算表型分析的框架

标题: SHREC: A Framework for Advancing Next-Generation Computational Phenotyping with Large Language Models

Authors:Sarah Pungitore, Shashank Yadav, Molly Douglas, Jarrod Mosier, Vignesh Subbian
摘要: 目标:计算表型是中心信息学活动,所产生的队列支持各种应用。 然而,由于手动数据审查、自动化有限以及在不同来源之间适应算法的困难,它耗时较长。 由于大型语言模型(LLMs)在文本分类、理解和生成方面表现出令人鼓舞的能力,我们认为它们在传统上由人类专家执行的重复性手动审查任务中表现良好。 为了支持下一代计算表型方法,我们开发了SHREC,这是一个将LLMs全面集成到端到端表型管道中的框架。 方法:我们应用并测试了三种轻量级LLMs(Gemma2 270亿参数,Mistral Small 240亿参数,Phi-4 140亿参数)使用先前开发的ARF呼吸支持疗法的表型来分类概念和表型患者。 结果:所有模型在概念分类方面表现良好,最佳模型(Mistral)在所有相关概念上的AUROC为0.896。 对于表型分析,模型对所有表型表现出接近完美的特异性,而表现最好的模型(Mistral)在单一疗法表型上的平均AUROC达到0.853,尽管在多疗法表型上的表现较低。 结论:当前的轻量级LLMs可以可行地协助研究人员完成资源密集型的表型任务,如手动数据审查。 LLMs有若干优势支持其在计算表型中的应用,例如仅通过提示工程即可适应新任务以及整合原始电子健康记录(EHR)数据的能力。 推进下一代表型方法的未来步骤包括确定整合生物医学数据的最佳策略,探索LLMs如何推理,并推进生成模型方法。
摘要: Objective: Computational phenotyping is a central informatics activity with resulting cohorts supporting a wide variety of applications. However, it is time-intensive because of manual data review, limited automation, and difficulties in adapting algorithms across sources. Since LLMs have demonstrated promising capabilities for text classification, comprehension, and generation, we posit they will perform well at repetitive manual review tasks traditionally performed by human experts. To support next-generation computational phenotyping methods, we developed SHREC, a framework for comprehensive integration of LLMs into end-to-end phenotyping pipelines. Methods: We applied and tested the ability of three lightweight LLMs (Gemma2 27 billion, Mistral Small 24 billion, and Phi-4 14 billion) to classify concepts and phenotype patients using previously developed phenotypes for ARF respiratory support therapies. Results: All models performed well on concept classification, with the best model (Mistral) achieving an AUROC of 0.896 across all relevant concepts. For phenotyping, models demonstrated near-perfect specificity for all phenotypes, and the top-performing model (Mistral) reached an average AUROC of 0.853 for single-therapy phenotypes, despite lower performance on multi-therapy phenotypes. Conclusion: Current lightweight LLMs can feasibly assist researchers with resource-intensive phenotyping tasks such as manual data review. There are several advantages of LLMs that support their application to computational phenotyping, such as their ability to adapt to new tasks with prompt engineering alone and their ability to incorporate raw EHR data. Future steps to advance next-generation phenotyping methods include determining optimal strategies for integrating biomedical data, exploring how LLMs reason, and advancing generative model methods.
评论: 提交至npj数字医学
主题: 定量方法 (q-bio.QM)
引用方式: arXiv:2506.16359 [q-bio.QM]
  (或者 arXiv:2506.16359v3 [q-bio.QM] 对于此版本)
  https://doi.org/10.48550/arXiv.2506.16359
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Sarah Pungitore [查看电子邮件]
[v1] 星期四, 2025 年 6 月 19 日 14:35:23 UTC (252 KB)
[v2] 星期六, 2025 年 7 月 5 日 19:01:20 UTC (204 KB)
[v3] 星期四, 2025 年 7 月 17 日 00:41:59 UTC (270 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
q-bio.QM
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-06
切换浏览方式为:
q-bio

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号