arXiv最新AI论文速览速学

🔍

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 167 最新: MovieTeller: Tool-augmented Movie Synopsis with ID Consistent Progressive Abstraction 02-27

arXiv ID: 2602.05986

arXiv 提交日期: 2026-02-05

video generation benchmark model evaluation reasoning benchmark text-to-video multimodal evaluation world rules temporal consistency

RISE-Video：视频生成器能解码隐含的世界规则吗？ / RISE-Video: Can Video Generators Decode Implicit World Rules?

1️⃣ 一句话总结

这篇论文提出了一个名为RISE-Video的评测基准，旨在评估视频生成模型是否真正理解并遵循物理世界和常识中的隐含规则，而不仅仅是生成好看的画面，结果发现现有模型在这方面普遍存在不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05877

arXiv 提交日期: 2026-02-05

llm agents systems threat modeling automotive safety agent-to-agent security human-centric taxonomy attack path analysis

安全关键型LLM助手中的Agent间威胁：一种以人为中心的分类法 / Agent2Agent Threats in Safety-Critical LLM Assistants: A Human-Centric Taxonomy

1️⃣ 一句话总结

这篇论文针对汽车等安全关键场景中大语言模型助手之间的通信安全问题，提出了一种名为AgentHeLLM的威胁建模新框架，它通过严格区分‘保护什么’和‘如何攻击’，并引入以人为中心的危害分类法，来系统性地发现和分析可能导致严重后果的多阶段攻击路径。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05776

arXiv 提交日期: 2026-02-05

reinforcement learning machine learning agents offline rl domain adaptation dynamics mismatch transition correction policy adaptation

通过选择性转移修正实现跨领域离线策略适应 / Cross-Domain Offline Policy Adaptation via Selective Transition Correction

1️⃣ 一句话总结

这篇论文提出了一种名为‘选择性转移修正’的新算法，它通过智能地修正和筛选来自相似但动态特性不同的源领域数据，让智能体能够更安全、有效地利用这些数据来提升在目标领域的离线强化学习性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05902

arXiv 提交日期: 2026-02-05

llm model training systems post-training quantization model compression calibration low-bit inference successive rounding

用于训练后量化的正则化校准与逐次舍入方法 / Regularized Calibration with Successive Rounding for Post-Training Quantization

1️⃣ 一句话总结

这篇论文提出了一种新的训练后量化方法，通过结合对称与非对称校准的正则化技术，以及一种高效的逐次舍入搜索策略，在仅增加少量计算成本的前提下，显著提升了大语言模型在低比特量化后的性能表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05456

arXiv 提交日期: 2026-02-05

robotics systems agents ontology-driven design specification synthesis stochastic petri nets multi-robot systems explainable ai

本体驱动的机器人规范综合方法 / Ontology-Driven Robotic Specification Synthesis

1️⃣ 一句话总结

这篇论文提出了一种名为RSTM2的本体驱动方法，它能将机器人的高层任务目标自动转化为可执行的正式规范，并通过仿真帮助设计者在不确定性下分析系统架构、资源分配和性能，尤其适用于未来复杂的多机器人自主系统。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05413

arXiv 提交日期: 2026-02-05

llm natural language processing data definition extraction scientific literature prompt optimization evaluation metrics information extraction

SciDef：利用大语言模型从学术文献中自动提取定义 / SciDef: Automating Definition Extraction from Academic Literature with Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为SciDef的自动化工具，它利用大语言模型从海量学术文献中高效提取关键术语的定义，并通过实验证明多步骤提示和优化方法能显著提升提取的准确性，但同时也指出模型容易过度提取定义，未来需更关注定义的相关性筛选。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05859

arXiv 提交日期: 2026-02-05

llm model evaluation natural language processing mechanistic interpretability sparse autoencoders diffusion language models feature extraction model intervention

DLM-Scope：基于稀疏自编码器的扩散语言模型机理可解释性框架 / DLM-Scope: Mechanistic Interpretability of Diffusion Language Models via Sparse Autoencoders

1️⃣ 一句话总结

这篇论文提出了首个基于稀疏自编码器的扩散语言模型可解释性框架DLM-Scope，发现该框架不仅能有效提取可解释特征，还能在模型早期层提升性能，并支持更有效的干预，为理解这类新兴模型奠定了基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05723

arXiv 提交日期: 2026-02-05

llm financial model training retrieval-augmented generation hallucination mitigation reinforcement learning knowledge verification faithfulness

通过细粒度知识验证缓解金融检索增强生成中的幻觉问题 / Mitigating Hallucination in Financial Retrieval-Augmented Generation via Fine-Grained Knowledge Verification

1️⃣ 一句话总结

这篇论文提出了一种结合细粒度知识验证的强化学习方法，通过将金融回答拆解成最小知识单元并逐一验证其准确性，有效减少了AI在生成金融信息时与检索资料相矛盾的‘幻觉’问题，同时保证了回答的充分性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05371

arXiv 提交日期: 2026-02-05

machine learning theory model training oblique decision trees optimization newton method regression trees universal approximation

铰链回归树：一种用于斜决策树分裂的牛顿方法 / Hinge Regression Tree: A Newton Method for Oblique Regression Tree Splitting

1️⃣ 一句话总结

这篇论文提出了一种名为‘铰链回归树’的新方法，它通过一种高效的牛顿优化算法来训练决策树，让树在保持可解释性的同时，能学习更复杂的斜向分类边界，从而用更小的树结构达到更好的预测效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05374

arXiv 提交日期: 2026-02-05

llm medical natural language processing cross-lingual evaluation medical qa arabic nlp language gap tokenization analysis

大型语言模型在阿拉伯语医疗任务中的跨语言实证评估 / Cross-Lingual Empirical Evaluation of Large Language Models for Arabic Medical Tasks

1️⃣ 一句话总结

这篇论文通过对比实验发现，大型语言模型在处理阿拉伯语医疗问答任务时，其性能显著低于英语，且任务越复杂差距越大，这主要是由于模型对阿拉伯语文本的切分处理不当以及模型自身给出的置信度与答案正确性关联不大所导致的。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.05986

1️⃣ 一句话总结

arXiv ID: 2602.05877

1️⃣ 一句话总结

arXiv ID: 2602.05776

1️⃣ 一句话总结

arXiv ID: 2602.05902

1️⃣ 一句话总结

arXiv ID: 2602.05456

1️⃣ 一句话总结

arXiv ID: 2602.05413

1️⃣ 一句话总结

arXiv ID: 2602.05859

1️⃣ 一句话总结

arXiv ID: 2602.05723

1️⃣ 一句话总结

arXiv ID: 2602.05371

1️⃣ 一句话总结

arXiv ID: 2602.05374

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.05986 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05877 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05776 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05902 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05456 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05413 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05859 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05723 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05371 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05374 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.05986

arXiv ID: 2602.05877

arXiv ID: 2602.05776

arXiv ID: 2602.05902

arXiv ID: 2602.05456

arXiv ID: 2602.05413

arXiv ID: 2602.05859

arXiv ID: 2602.05723

arXiv ID: 2602.05371

arXiv ID: 2602.05374