统计学 > 方法论
            [提交于 2025年10月27日
            
             (v1)
            
            
              ,最后修订 2025年10月29日 (此版本, v2)]
          
          标题: 从随机性到信号:一种用于LLMs可靠测量的贝叶斯潜在状态模型
标题: From Stochasticity to Signal: A Bayesian Latent State Model for Reliable Measurement with LLMs
摘要: 大型语言模型(LLMs)越来越多地用于自动化商业中的分类任务,例如从文本中分析客户满意度。 然而,LLMs的固有随机性,即它们对同一输入产生不同输出的倾向,会引发一个重要的测量误差问题,通常在仅进行一次输出时被忽视,或通过诸如多数投票等临时方法来解决。 这些简单的方法无法量化不确定性,并可能导致总体水平指标的偏差估计。 在本文中,我们通过将LLM的变异性重新表述为统计测量误差问题,并引入一个贝叶斯潜在状态模型来解决这一问题,提出了一种系统性的解决方案。 我们的模型将真实的分类(例如,客户不满)视为一个未观察到的潜在变量,而多个LLM评分则作为该状态的噪声测量值。 该框架允许同时估计LLM的假阳性率和假阴性率、现象在总体中的基础率、每个个体观测值的真实状态的后验概率,以及任何业务干预对该潜在状态的因果影响。 通过模拟研究,我们证明了我们的模型能够在简单方法失败的情况下准确恢复真实参数。 我们得出结论,这种方法为将LLM的噪声、概率输出转化为科学和商业应用中准确且可操作的见解提供了一个通用且可靠的框架。
文献和引用工具
与本文相关的代码,数据和媒体
            alphaXiv (什么是 alphaXiv?)
          
        
            CatalyzeX 代码查找器 (什么是 CatalyzeX?)
          
        
            DagsHub (什么是 DagsHub?)
          
        
            Gotit.pub (什么是 GotitPub?)
          
        
            Hugging Face (什么是 Huggingface?)
          
        
            带有代码的论文 (什么是带有代码的论文?)
          
        
            ScienceCast (什么是 ScienceCast?)
          
        演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.
 
               
  