大型语言模型在现实世界事件预测中的能力评估 / Future Is Unevenly Distributed: Forecasting Ability of LLMs Depends on What We're Asking
1️⃣ 一句话总结
本研究系统评估了大型语言模型在现实世界事件预测中的能力,发现其预测性能在不同领域和提示框架下存在显著差异,并揭示了模型在引入新闻上下文后出现的系统性失败模式。
2️⃣ 论文创新点
1. 预测能力的情境依赖性分析
- 创新点:系统评估了LLMs的预测能力如何随领域结构和提示框架变化
- 区别/改进:通过结合定性和定量指标(如准确性和Brier分数)进行综合评估,并引入新闻上下文以观察模型行为变化
- 意义:揭示了LLMs预测能力的高度可变性,为理解其在实际决策中的应用局限性提供了关键见解
2. 三级数据过滤管道
- 创新点:采用交易量过滤和两轮LLM分类的管道来构建高质量的预测基准数据集
- 区别/改进:通过交易量过滤去除低流动性市场问题,使用LLM分类器将问题分为六大类30个子类,再通过第二轮过滤去除局部化非预测性问题
- 意义:解决了预测市场数据噪声问题,创建了具有代表性的平衡评估数据集
3. 双条件评估框架
- 创新点:在无新闻上下文和带新闻上下文两种条件下评估LLMs的预测性能
- 区别/改进:通过对比两种条件,更清晰地揭示了外部信息对模型预测校准和准确性的影响
- 意义:为理解LLMs在真实世界预测任务中的信息利用能力提供了系统性的评估方法
4. 失败模式识别与分类
- 创新点:识别并分类了在预测过程中,特别是引入上下文信息时出现的重复失败模式
- 区别/改进:构建了失败模式分类法,突出了推理和校准分歧的关键点
- 意义:有助于诊断和缓解LLMs在预测任务中的系统性错误,提升模型可靠性
3️⃣ 主要结果与价值
结果亮点
- 不同模型在不同领域的表现存在显著差异,新闻上下文的加入对某些领域(如金融、体育)有积极影响,而对其他领域(如娱乐、科技)则可能因噪声放大和近期偏见产生负面影响
- 模型在引入新闻上下文后出现三种典型失败模式:新近性偏见、谣言过重和定义漂移,这些模式导致模型从正确预测转向错误预测
- 通过结构化预测提示设计,包括问题重复、正反论证、概率评估和置信度校准,能够减少模型过度自信和认知偏见
实际价值
- 为评估模型在现实世界复杂信息环境下的表现提供了全面方法,有助于更细致地理解模型能力
- 揭示了外部信息整合对预测准确性的双重影响,强调了信息质量比数量更重要
- 为改进模型鲁棒性提供了重要依据,对提升模型可靠性具有指导意义
4️⃣ 术语表
- Brier Score:用于评估概率预测准确性的指标,分数越低表示预测越准确
- ForecastBench:一个评估AI预测能力的结构化基准,使用来自真实预测市场(如Polymarket、Metaculus)的问题
- Expected Calibration Error (ECE):衡量模型预测置信度与其准确性之间一致性的指标,通过将预测按置信度分箱计算
- Recency Bias:新近性偏见,指模型在处理信息时过度重视近期新闻而忽视预训练中学到的历史趋势的倾向
- Gemini 2.5 Flash:用作LLM-as-a-Judge的分类器模型,用于将预测问题分类到不同类别
- volume filtering:基于交易量的过滤方法,用于去除低流动性市场对应的高度个性化问题
- superforecaster:超级预测者,指像Nate Silver那样能够进行高精度概率预测的专家,在提示中作为模型推理的参考标准
- 预测市场:一种基于事件结果进行预测和交易的市场机制
- 技术阻力位:市场价格难以突破的关键心理或技术价位,如6000点这样的整数关口
- AD/CVD:反倾销/反补贴税,是针对不公平贸易行为的贸易救济措施
- Section 301/IEEPA:美国贸易法中的行政授权条款,允许总统在不经过国会的情况下调整关税和实施贸易措施
- de minimis:关税征收的最低价值门槛,低于该价值的进口商品可免除关税