arXiv最新AI论文速览速学

🔍

标签: #chain-of-thought ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Neural Garbage Collection: Learning to Forget while Learning to Reason 04-25

arXiv ID: 2603.15051

arXiv 提交日期: 2026-03-16

llm model training theory latent reasoning adaptive computation efficiency mathematical reasoning chain-of-thought

潜在思考：面向大语言模型隐式推理的自适应锚点优化方法 / Thinking in Latents: Adaptive Anchor Refinement for Implicit Reasoning in LLMs

1️⃣ 一句话总结

这篇论文提出了一种名为AdaAnchor的新方法，它让大语言模型在内部进行‘无声’的迭代思考，通过动态调整思考步骤来高效解决数学应用题，能在保持甚至提升准确率的同时，大幅减少输出文本的长度和计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.11041

arXiv 提交日期: 2026-03-11

agents computer vision multi-modal autonomous driving world dynamics chain-of-thought action reasoning vision-language-action

DynVLA：学习世界动态以实现自动驾驶中的行为推理 / DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving

1️⃣ 一句话总结

这篇论文提出了一种名为DynVLA的自动驾驶模型，它通过预测未来世界的紧凑动态变化来辅助决策，比单纯依赖文字或密集图像预测的方法更高效、更准确。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10725

arXiv 提交日期: 2026-03-11

audio natural language processing model evaluation speech deepfake detection large audio language models chain-of-thought interpretability generalization

迈向基于类人推理的鲁棒语音深度伪造检测 / Towards Robust Speech Deepfake Detection via Human-Inspired Reasoning

1️⃣ 一句话总结

这篇论文提出了一种结合大型音频语言模型和类人思维链推理的新框架，不仅能更有效地检测不同来源的伪造语音，还能为判断结果提供易于人类理解的解释。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08462

arXiv 提交日期: 2026-03-09

llm theory model training reasoning efficiency information bottleneck chain-of-thought reinforcement learning lossy compression

推理即压缩：通过条件信息瓶颈统一预算强制 / Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck

1️⃣ 一句话总结

这篇论文提出将大语言模型中的思维链推理视为一个压缩问题，通过一种新的条件信息瓶颈训练目标，在减少推理过程长度的同时，能更智能地保留关键逻辑信息，从而在控制计算成本的同时保持甚至提升任务准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08999

arXiv 提交日期: 2026-03-09

llm model evaluation natural language processing chain-of-thought self-consistency efficient inference uncertainty estimation adaptive sampling

学习何时采样：用于高效大语言模型思维链推理的置信度感知自一致性方法 / Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

1️⃣ 一句话总结

这篇论文提出了一种智能决策框架，通过分析大语言模型单次推理过程中的内部信号，自动判断何时需要额外采样多条推理路径来保证准确性，从而在基本不损失精度的前提下，大幅减少了计算开销。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.05167

arXiv 提交日期: 2026-03-05

llm model evaluation benchmark faithfulness evaluation chain-of-thought reasoning assessment judge llm process evaluation

C2-Faith：评估大语言模型作为思维链推理中因果与覆盖忠实性的评判者 / C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为C2-Faith的新基准，用于测试大语言模型能否有效评估思维链推理的忠实性（包括逻辑因果和步骤完整性），结果发现现有模型在不同任务上表现不一，且难以精确定位错误，为如何选用合适的AI评判者提供了实用指导。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02872

arXiv 提交日期: 2026-03-03

multi-modal model training model evaluation streaming reasoning video understanding chain-of-thought vision-language models efficiency

边看边想：面向大型视觉语言模型的流式思维链推理 / Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为‘边看边想’的新框架，让大型视觉语言模型能够像人类看视频流一样，一边接收图像帧一边实时进行推理，从而在保持高准确率的同时，大幅提升了处理视频的响应速度和效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01571

arXiv 提交日期: 2026-03-02

llm model training model evaluation generative reward models chain-of-thought reasoning mechanisms reinforcement learning benchmark

超越长度扩展：融合广度与深度以优化生成式奖励模型 / Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models

1️⃣ 一句话总结

这篇论文提出了一个名为Mix-GRM的新框架，通过结构化地结合广度推理（覆盖多维度原则）和深度推理（确保判断的实质性严谨性），而非简单地增加推理长度，来显著提升生成式奖励模型的评估性能，使其在多种任务上达到新的最佳水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21854

arXiv 提交日期: 2026-02-25

multi-modal llm benchmark few-shot learning in-context learning chain-of-thought multimodal evaluation model analysis

FewMMBench：一个用于多模态小样本学习的基准测试 / FewMMBench: A Benchmark for Multimodal Few-Shot Learning

1️⃣ 一句话总结

这篇论文提出了一个名为FewMMBench的综合性基准测试，专门用于评估多模态大语言模型在只提供少量示例（小样本）情况下的学习能力，并通过测试发现，当前模型在增加示例或使用复杂推理提示后性能提升有限，甚至可能下降。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21497

arXiv 提交日期: 2026-02-25

llm multi-modal model evaluation multimodal reasoning visual hallucination chain-of-thought training-free benchmark

看见它，说出它，搞定它：一种用于大型视觉语言模型视觉基础多模态推理的免训练迭代框架 / See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

1️⃣ 一句话总结

这篇论文提出了一种无需额外训练、即插即用的轻量级方法，通过让大型视觉语言模型在推理的每一步都严格依据图像证据来生成回答，有效解决了多模态推理中视觉幻觉传播导致答案错误的问题，显著提升了多个基准测试的准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.15051

1️⃣ 一句话总结

arXiv ID: 2603.11041

1️⃣ 一句话总结

arXiv ID: 2603.10725

1️⃣ 一句话总结

arXiv ID: 2603.08462

1️⃣ 一句话总结

arXiv ID: 2603.08999

1️⃣ 一句话总结

arXiv ID: 2603.05167

1️⃣ 一句话总结

arXiv ID: 2603.02872

1️⃣ 一句话总结

arXiv ID: 2603.01571

1️⃣ 一句话总结

arXiv ID: 2602.21854

1️⃣ 一句话总结

arXiv ID: 2602.21497

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.15051 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.11041 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10725 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08462 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08999 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.05167 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02872 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01571 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21854 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21497 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.15051

arXiv ID: 2603.11041

arXiv ID: 2603.10725

arXiv ID: 2603.08462

arXiv ID: 2603.08999

arXiv ID: 2603.05167

arXiv ID: 2603.02872

arXiv ID: 2603.01571

arXiv ID: 2602.21854

arXiv ID: 2602.21497