arXiv最新AI论文速览速学

🔍

标签: #semantic reward ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 80 72小时内新更新论文 72h更新 178 最新: SER: Learning to Ground Video Reasoning with Semantic Evidence Rewards 06-27

arXiv ID: 2606.24726

arXiv 提交日期: 2026-06-23

multi-modal reinforcement learning video video reasoning spatio-temporal grounding semantic reward evidence evaluation video question answering

SER：利用语义证据奖励学习视频推理的时空定位 / SER: Learning to Ground Video Reasoning with Semantic Evidence Rewards

1️⃣ 一句话总结

本文提出了一种名为语义证据奖励（SER）的新方法，通过让视觉语言模型像“裁判”一样检查视频推理中生成的关键证据是否符合语义相关性、定位准确性和时间合理性，从而提升模型在复杂视频中定位关键物体和时刻的能力，避免了传统仅依赖边界框重合度的评价方式带来的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.14366

arXiv 提交日期: 2026-05-14

llm reinforcement learning natural language processing low-resource language alignment tax semantic reward machine translation group relative policy optimization

基于语义奖励的强化学习实现低资源语言扩展且无对齐代价 / Reinforcement Learning with Semantic Rewards Enables Low-Resource Language Expansion without Alignment Tax

1️⃣ 一句话总结

该研究提出一种用语义奖励代替传统文本匹配的强化学习方法，让大模型在扩展低资源语言能力时，既能学会新语言任务，又不会忘记已有的通用知识，解决了常见微调方法中‘学会新语言就丢失原有能力’的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.13229

arXiv 提交日期: 2026-05-13

llm machine learning code translation preference optimization semantic reward contrastive learning syntax guidance

通过语法引导和语义感知偏好优化改进代码翻译 / Improving Code Translation with Syntax-Guided and Semantic-aware Preference Optimization

1️⃣ 一句话总结

该论文提出了一种名为CTO的新方法，通过结合语法检查和对比学习训练的语义模型，在代码翻译中同时保证语法正确和功能等价，显著提升了大型语言模型在不同编程语言间的翻译质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.24726

1️⃣ 一句话总结

arXiv ID: 2605.14366

1️⃣ 一句话总结

arXiv ID: 2605.13229

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.24726 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.14366 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.13229 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.24726

arXiv ID: 2605.14366

arXiv ID: 2605.13229