计算机科学 > 人工智能
[提交于 2025年8月1日
]
标题: 柏拉图式的贫困制图表示:统一的视觉语言代码还是代理引起的创新?
标题: Platonic Representations for Poverty Mapping: Unified Vision-Language Codes or Agent-Induced Novelty?
摘要: 我们研究社会经济指标如家庭财富是否会在卫星图像(捕捉物理特征)和互联网来源的文本(反映历史/经济叙述)中留下可恢复的痕迹。 使用来自非洲社区的人口与健康调查(DHS)数据,我们将Landsat图像与基于位置/年份的条件生成的大型语言模型(LLM)文本描述进行配对,并通过AI搜索代理从网络资源中检索文本。 我们开发了一个多模态框架,通过五个管道预测家庭财富(国际财富指数):(i) 对卫星图像的视觉模型,(ii) 仅使用位置/年的LLM,(iii) AI代理搜索/综合网络文本,(iv) 联合图像-文本编码器,(v) 所有信号的集成。 我们的框架带来了三个贡献。 首先,融合视觉和代理/LLM文本在财富预测中优于仅视觉基线(例如,在样本外分割中R平方为0.77 vs. 0.63),其中LLM内部知识比代理检索的文本更有效,提高了对跨国和跨时间泛化的鲁棒性。 其次,我们发现部分表示收敛:融合的视觉/语言模态嵌入相关性适中(对齐后中位数余弦相似度为0.60),表明存在共享的物质福祉潜在代码,同时保留互补细节,这与柏拉图表示假设一致。 尽管仅LLM文本表现优于代理检索的数据,这挑战了我们的代理诱导新颖性假设,但在某些分割中结合代理数据的适度增益弱支持了代理收集的信息引入了静态LLM知识未完全捕捉的独特表示结构这一观点。 第三,我们发布了一个大规模多模态数据集,包含超过60,000个DHS集群,与卫星图像、LLM生成的描述和代理检索的文本相关联。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.