📄 论文总结
LiveTradeBench:利用大型语言模型寻找真实世界中的超额收益 / LiveTradeBench: Seeking Real-World Alpha with Large Language Models
1️⃣ 一句话总结
这篇论文提出了一个名为LiveTradeBench的实时交易测试平台,用于评估大型语言模型在动态金融市场中的决策能力,发现传统静态测试的高分并不代表实际交易表现优异,揭示了AI模型在真实不确定性环境下的能力差距。
请先 登录 后再提交论文
LiveTradeBench:利用大型语言模型寻找真实世界中的超额收益 / LiveTradeBench: Seeking Real-World Alpha with Large Language Models
这篇论文提出了一个名为LiveTradeBench的实时交易测试平台,用于评估大型语言模型在动态金融市场中的决策能力,发现传统静态测试的高分并不代表实际交易表现优异,揭示了AI模型在真实不确定性环境下的能力差距。
FinAuditing:一种基于财务分类结构的多文档基准,用于评估大语言模型 / FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs
这篇论文提出了首个针对财务审计任务的结构化多文档评估基准FinAuditing,通过测试13种主流大语言模型发现,它们在处理具有层次结构的财务数据时,准确性会大幅下降,揭示了现有模型在结构化财务推理方面的系统性不足。
FinLFQA:评估大语言模型在金融长文本问答中的归因文本生成能力 / FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering
这篇论文提出了一个名为FinLFQA的金融领域长文本问答基准,用于全面评估大语言模型在生成答案时提供可靠证据、数值推理和专业知识归因的能力,并发现细粒度指标对区分模型性能至关重要。
QuantAgent:基于价格驱动的多智能体大语言模型在高频交易中的应用 / QuantAgent: Price-Driven Multi-Agent LLMs for High-Frequency Trading
这篇论文提出了首个专为高频交易设计的多智能体大语言模型框架QuantAgent,通过四个分工明确的智能体分析短期市场信号,在多种金融工具测试中比传统方法预测更准、表现更好。
R&D-Agent-Quant:一种面向数据驱动因子与模型联合优化的多智能体框架 / R&D-Agent-Quant: A Multi-Agent Framework for Data-Centric Factors and Model Joint Optimization
这篇论文提出了一个名为RD-Agent(Q)的多智能体框架,通过自动化协调因子挖掘与模型优化,在减少70%因子数量的同时实现了比传统方法高两倍的金融市场年化收益,显著提升了量化策略的开发效率和稳健性。