arXiv最新AI论文速览速学

🔍

标签: #dpo ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 88 72小时内新更新论文 72h更新 188 最新: Self-Evolution for Multi-Turn Tool-Calling Agents via Divergence-Point Preference Learning 06-23

arXiv ID: 2606.23112

arXiv 提交日期: 2026-06-22

agents model training natural language processing tool use preference learning multi-turn self-improvement dpo

基于分歧点偏好学习的多轮工具调用智能体自我进化 / Self-Evolution for Multi-Turn Tool-Calling Agents via Divergence-Point Preference Learning

1️⃣ 一句话总结

本文提出一种名为ToolGraph的新方法，通过构建工具调用关系的拓扑图和基于成功轨迹的权重估计，并结合分歧点偏好的强化学习，使多轮对话中的工具调用智能体能自我改进，在测试中将平均奖励从0.304提升至0.355，性能相对提升16.8%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.04588

arXiv 提交日期: 2026-06-03

multi-modal model evaluation video video understanding instruction following benchmark constraints dpo

VCIFBench：评估视频理解中的复杂指令遵循能力 / VCIFBench: Evaluating Complex Instruction Following for Video Understanding

1️⃣ 一句话总结

该论文提出了VCIFBench基准测试，专门用来评估多模态大模型在视频理解任务中，是否能够准确遵循包含内容、格式、风格和结构等多重约束的复杂指令，并通过实验发现现有模型在这方面的表现仍有不足，而使用该基准数据微调可以提升模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.20834

arXiv 提交日期: 2026-05-20

llm reinforcement learning dpo rlhf preference optimization alignment constrained optimization

DPO与RLHF的条件等价性：隐含假设、失败模式与可证明的对齐 / Conditional Equivalence of DPO and RLHF: Implicit Assumption, Failure Modes, and Provable Alignment

1️⃣ 一句话总结

本文发现，直接偏好优化（DPO）与基于人类反馈的强化学习（RLHF）并非总是等价的，当RLHF最优策略不偏好人类更喜欢的回答时，DPO会优化错误目标、导致模型选错答案，因此作者提出了带约束的偏好优化方法（CPO），在保持简单的同时实现了可靠的对齐效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20685

arXiv 提交日期: 2026-04-22

llm reinforcement learning multi-modal dpo multi-objective optimisation alignment human values direct preference optimisation

MGDA-Decoupled：基于DPF的大语言模型对齐中的几何感知多目标优化方法 / MGDA-Decoupled: Geometry-Aware Multi-Objective Optimisation for DPO-based LLM Alignment

1️⃣ 一句话总结

本文提出了一种名为MGDA-Decoupled的多目标优化算法，通过在轻量级DPO框架中引入几何信息，平衡大语言模型在有用性、真实性和无害性等多个目标上的对齐效果，从而避免传统固定权重方法对难以优化目标的忽视，实验表明该方法在整体和各目标上均取得了更高胜率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11902

arXiv 提交日期: 2026-02-12

llm model training theory preference optimization dpo alignment training mismatch reference policy

缓解基于参考的偏好优化中的不匹配问题 / Mitigating Mismatch within Reference-based Preference Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为HyPO的改进方法，通过有条件地调整参考模型在训练中的作用，解决了现有偏好优化算法在处理‘悲观’数据时过早停止学习的问题，从而在保持训练稳定的同时提升了模型的最终性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04493

arXiv 提交日期: 2026-02-04

llm natural language processing model training preference optimization dialogue systems personalization automatic evaluation dpo

PersoDPO：通过多LLM评估实现可扩展的、遵循指令且基于人设的对话偏好优化 / PersoDPO: Scalable Preference Optimization for Instruction-Adherent, Persona-Grounded Dialogue via Multi-LLM Evaluation

1️⃣ 一句话总结

这篇论文提出了一个名为PersoDPO的可扩展训练框架，它通过自动评估多个大语言模型的回复来构建高质量的训练数据，从而让开源对话模型学会生成既符合对话背景、又贴合用户个人特点的回复，效果优于现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.23112

1️⃣ 一句话总结

arXiv ID: 2606.04588

1️⃣ 一句话总结

arXiv ID: 2605.20834

1️⃣ 一句话总结

arXiv ID: 2604.20685

1️⃣ 一句话总结

arXiv ID: 2602.11902

1️⃣ 一句话总结

arXiv ID: 2602.04493

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.23112 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.04588 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.20834 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20685 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11902 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04493 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.23112

arXiv ID: 2606.04588

arXiv ID: 2605.20834

arXiv ID: 2604.20685

arXiv ID: 2602.11902

arXiv ID: 2602.04493