arXiv最新AI论文速览速学

🔍

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 150 最新: Scal3R: Scalable Test-Time Training for Large-Scale 3D Reconstruction 04-10

arXiv ID: 2509.04338

arXiv 提交日期: 2025-09-04

computer vision model training multi-modal dense geometry estimation diffusion transformers depth estimation normal estimation image editing

从编辑器到密集几何估计器 / From Editor to Dense Geometry Estimator

1️⃣ 一句话总结

这篇论文发现图像编辑模型比生成模型更适合用于密集几何估计任务，并提出了一个名为FE2E的新框架，通过改进训练目标和数据格式，无需额外数据就能在深度和法线估计上取得显著性能提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.04292

arXiv 提交日期: 2025-09-04

llm model evaluation benchmark instruction following cognitive inertia counter-intuitive ability adversarial evaluation alignment

逆向IFEval：大语言模型能否忘记顽固的训练惯例以遵循真实指令？ / Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?

1️⃣ 一句话总结

这篇论文提出了一个名为逆向IFEval的新基准测试，用于评估大语言模型在遇到与训练模式相冲突的反常指令时，能否克服固有偏见并正确执行任务，从而揭示其在非常规场景下的适应能力不足问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.04013

arXiv 提交日期: 2025-09-04

llm model evaluation benchmark robustness reliability paraphrasing linguistic variability evaluation methodology

基于基准测试的大语言模型评估的鲁棒性与可靠性研究 / On Robustness and Reliability of Benchmark-Based Evaluation of LLMs

1️⃣ 一句话总结

这篇论文通过系统测试发现，尽管大语言模型在基准测试中的排名相对稳定，但面对同一问题的不同表述时，其绝对性能会显著下降，这表明当前基于固定格式基准测试的评估方法可能无法准确反映模型在真实多变场景下的实际能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.04011

arXiv 提交日期: 2025-09-04

natural language processing llm model training named entity retrieval zero-shot learning contrastive learning representation learning entity embeddings

NER检索器：基于类型感知嵌入的零样本命名实体检索 / NER Retriever: Zero-Shot Named Entity Retrieval with Type-Aware Embeddings

1️⃣ 一句话总结

这篇论文提出了一种无需预定义实体类型、直接根据用户描述检索相关实体的新方法，通过优化大语言模型内部表示并训练轻量级网络，实现了高效且灵活的零样本实体检索。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.03888

arXiv 提交日期: 2025-09-04

llm model evaluation natural language processing adversarial robustness safety detection probing methods generalization failure representation analysis

虚假的安全感：为何基于探测的恶意输入检测方法难以泛化 / False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize

1️⃣ 一句话总结

这篇论文指出，当前基于探测的大语言模型恶意输入检测方法实际上只学会了识别表面的指令模式和触发词，而非真正理解语义上的危害性，导致其在新场景下表现不佳，揭示了这类方法存在的泛化能力缺陷。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.03867

arXiv 提交日期: 2025-09-04

llm natural language processing model evaluation pragmatic understanding linguistic depth benchmark evaluation semantic interpretation multilingual analysis

废话学：用深度解读无意义内容挑战大语言模型 / Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth

1️⃣ 一句话总结

这篇论文提出了‘废话学’概念，指那些语法通顺但含义矛盾或隐含深意的表达，并通过构建多语言数据集证明当前大语言模型难以理解这类文本的深层语义，揭示了模型在语用理解上的局限性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.03800

arXiv 提交日期: 2025-09-04

medical computer vision natural language processing 3d ct analysis vision-language modeling disease detection medical imaging diagnostic error reduction

MedVista3D：用于减少3D CT疾病检测、理解与报告中诊断错误的视觉语言建模 / MedVista3D: Vision-Language Modeling for Reducing Diagnostic Errors in 3D CT Disease Detection, Understanding and Reporting

1️⃣ 一句话总结

这篇论文提出了一个名为MedVista3D的创新框架，通过结合局部病灶检测与全局图像理解，并利用语义匹配技术生成一致的语言报告，有效减少了3D CT扫描中的诊断错误，在多种医疗任务中实现了领先性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.03516

arXiv 提交日期: 2025-09-03

natural language processing model evaluation aigc text-to-image benchmark composition reasoning evaluation framework

绘画比思考更容易：文本到图像模型能搭建舞台，但不能导演戏剧吗？ / Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?

1️⃣ 一句话总结

这篇论文提出了一个更全面的新基准T2I-CoReBench，用于评估文本生成图像模型，发现当前模型在复杂场景中构图能力有限，而根据文字提示进行逻辑推理的能力更差，是制约其发展的关键瓶颈。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.03059

arXiv 提交日期: 2025-09-03

llm model training data synthetic data generation chain-of-thought reasoning verification reinforcement learning benchmark evaluation

Loong：通过验证器大规模合成长链思维 / Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers

1️⃣ 一句话总结

这篇论文提出了一个名为Loong的开源框架，通过自动验证的合成数据生成和强化学习，帮助大语言模型在数学、化学等多种复杂推理领域提升其长链思维推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.04504

arXiv 提交日期: 2025-09-02

llm model evaluation benchmark behavioral analysis alignment strategies model fingerprinting automated evaluation persona clustering

大型语言模型的行为指纹识别 / Behavioral Fingerprinting of Large Language Models

1️⃣ 一句话总结

这篇论文提出了一种新的‘行为指纹’框架，通过分析模型在互动中的固有风格，揭示了不同大语言模型在核心推理能力趋于一致的同时，其迎合性、语义鲁棒性等互动行为却因开发者的对齐策略而存在显著差异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2509.04338

1️⃣ 一句话总结

arXiv ID: 2509.04292

1️⃣ 一句话总结

arXiv ID: 2509.04013

1️⃣ 一句话总结

arXiv ID: 2509.04011

1️⃣ 一句话总结

arXiv ID: 2509.03888

1️⃣ 一句话总结

arXiv ID: 2509.03867

1️⃣ 一句话总结

arXiv ID: 2509.03800

1️⃣ 一句话总结

arXiv ID: 2509.03516

1️⃣ 一句话总结

arXiv ID: 2509.03059

1️⃣ 一句话总结

arXiv ID: 2509.04504

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2509.04338 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.04292 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.04013 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.04011 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.03888 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.03867 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.03800 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.03516 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.03059 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.04504 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2509.04338

arXiv ID: 2509.04292

arXiv ID: 2509.04013

arXiv ID: 2509.04011

arXiv ID: 2509.03888

arXiv ID: 2509.03867

arXiv ID: 2509.03800

arXiv ID: 2509.03516

arXiv ID: 2509.03059

arXiv ID: 2509.04504