🤖 系统
12-01 00:58
大型语言模型在现实世界事件预测中的能力评估 / Future Is Unevenly Distributed: Forecasting Ability of LLMs Depends on What We're Asking
1️⃣ 一句话总结
本研究系统评估了大型语言模型在现实世界事件预测中的能力,发现其预测性能在不同领域和提示框架下存在显著差异,并揭示了模型在引入新闻上下文后出现的系统性失败模式。
请先 登录 后再提交论文
大型语言模型在现实世界事件预测中的能力评估 / Future Is Unevenly Distributed: Forecasting Ability of LLMs Depends on What We're Asking
本研究系统评估了大型语言模型在现实世界事件预测中的能力,发现其预测性能在不同领域和提示框架下存在显著差异,并揭示了模型在引入新闻上下文后出现的系统性失败模式。
大型推理模型是否可被打断? / Are Large Reasoning Models Interruptible?
这篇论文研究发现,在需要长时间推理的任务中,当前顶尖的大型推理模型在遇到中途打断或信息更新时表现会大幅下降,揭示了传统静态评估方法高估了模型在实际动态环境中的鲁棒性。