arXiv最新AI论文速览速学

🔍

标签: #compositional reasoning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: When Verification Fails: How Compositionally Infeasible Claims Escape Rejection 04-14

arXiv ID: 2604.10990

arXiv 提交日期: 2026-04-13

natural language processing model evaluation benchmark scientific claim verification compositional reasoning evaluation benchmark model shortcuts closed-world assumption

当验证失败时：组合上不可行的主张如何逃脱被拒绝的命运 / When Verification Fails: How Compositionally Infeasible Claims Escape Rejection

1️⃣ 一句话总结

这篇论文发现，现有的科学主张验证模型存在一个普遍缺陷：它们只关注最显眼的证据，而忽略了组合性证据的整体验证，导致许多看似合理但实际矛盾的主张被错误接受。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.22042

arXiv 提交日期: 2026-03-23

multi-modal model training computer vision hyperbolic embeddings vision-language models part-whole relations uncertainty modeling compositional reasoning

双曲视觉语言模型中基于不确定性引导的、具有部分到整体语义代表性的组合对齐 / Uncertainty-guided Compositional Alignment with Part-to-Whole Semantic Representativeness in Hyperbolic Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为UNCHA的新方法，通过引入双曲不确定性来衡量图像中各个部分对整体场景的语义代表性差异，并利用这种不确定性来指导模型学习，从而让视觉语言模型能更准确地理解包含多个对象的复杂图像层次结构，并在多项基准测试中取得了领先性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.12266

arXiv 提交日期: 2026-03-12

multi-modal benchmark model evaluation multimodal reasoning compositional reasoning visual workflows verifiable evaluation mllm benchmarking

MM-CondChain：一个用于视觉基础深度组合推理的、可通过程序验证的基准 / MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为MM-CondChain的新基准测试，专门用来评估多模态大语言模型在理解复杂视觉场景后，进行多步骤、有条件分支的深度逻辑推理的能力，结果发现当前最先进的模型在这项任务上仍有很大挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03815

arXiv 提交日期: 2026-03-04

natural language processing computer vision multi-modal zero-shot learning prompt tuning open-vocabulary compositional reasoning embedding structure

面向开放词汇组合式零样本学习的结构感知提示自适应方法：从可见到未见 / Structure-aware Prompt Adaptation from Seen to Unseen for Open-Vocabulary Compositional Zero-Shot Learning

1️⃣ 一句话总结

这篇论文提出了一种名为SPA的结构感知提示自适应方法，它通过保持和利用语义概念在嵌入空间中的局部结构一致性，让AI模型能够像人类一样，通过已知的‘湿’和‘衬衫’等概念，来理解和识别未知的‘潮湿’和‘夹克’等新概念及其组合，从而显著提升了开放词汇场景下的组合式零样本学习性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14872

arXiv 提交日期: 2026-02-16

reinforcement learning theory model training rlvr learning dynamics transformers compositional reasoning fourier analysis

论RLVR在能力边缘的学习动态 / On the Learning Dynamics of RLVR at the Edge of Competence

1️⃣ 一句话总结

这篇论文通过理论分析和实验验证，揭示了基于可验证奖励的强化学习如何帮助模型解决复杂推理任务，关键在于训练数据中任务难度的平滑性：平滑的难度谱能产生‘接力效应’实现稳定提升，而突变的难度则会导致学习停滞和突然的‘顿悟’现象。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.02043

arXiv 提交日期: 2026-02-02

multi-modal model evaluation computer vision vision-language models compositional reasoning benchmark generation attribute binding synthetic data

Auto-Comp：一种用于可扩展组合性探测对比式视觉-语言模型的自动化流程 / Auto-Comp: An Automated Pipeline for Scalable Compositional Probing of Contrastive Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为Auto-Comp的自动化工具，它能大规模生成可控的测试数据，用于精准诊断当前主流视觉-语言模型在组合推理（比如正确绑定物体的颜色、位置等属性）上的普遍缺陷，并发现模型在复杂场景中会顾此失彼的深层矛盾。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.14870

arXiv 提交日期: 2025-12-16

multi-modal benchmark model evaluation video question answering multi-evidence integration video-llm evaluation benchmark compositional reasoning

HERBench：视频问答中多证据整合的基准测试 / HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering

1️⃣ 一句话总结

这篇论文提出了一个名为HERBench的新基准测试，专门用于评估AI模型在视频问答中整合多个分散证据的能力，发现当前最先进的模型在这方面存在严重不足，主要卡在‘找不到关键画面’和‘找到了也整合不了’两个瓶颈上。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.05272

arXiv 提交日期: 2025-12-04

computer vision multi-modal model training 4d scene reconstruction compositional reasoning attention mechanisms monocular video dynamic objects

无需见过真实场景，也能推断出组合式4D场景 / Inferring Compositional 4D Scenes without Ever Seeing One

1️⃣ 一句话总结

这篇论文提出了一种名为COM4D的新方法，它能够仅通过分析普通2D视频，就自动重建出包含多个静态和动态物体、且时空关系一致的完整4D（三维空间+时间）场景，而无需依赖任何现成的4D场景数据进行训练。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.10990

1️⃣ 一句话总结

arXiv ID: 2603.22042

1️⃣ 一句话总结

arXiv ID: 2603.12266

1️⃣ 一句话总结

arXiv ID: 2603.03815

1️⃣ 一句话总结

arXiv ID: 2602.14872

1️⃣ 一句话总结

arXiv ID: 2602.02043

1️⃣ 一句话总结

arXiv ID: 2512.14870

1️⃣ 一句话总结

arXiv ID: 2512.05272

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.10990 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.22042 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.12266 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03815 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14872 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.02043 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.14870 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.05272 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.10990

arXiv ID: 2603.22042

arXiv ID: 2603.12266

arXiv ID: 2603.03815

arXiv ID: 2602.14872

arXiv ID: 2602.02043

arXiv ID: 2512.14870

arXiv ID: 2512.05272