arXiv最新AI论文速览速学

🔍

标签: #preference learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 161 72小时内新更新论文 72h更新 166 最新: AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style 03-16

arXiv ID: 2603.11482

arXiv 提交日期: 2026-03-12

audio model evaluation natural language processing speech synthesis preference learning acoustic analysis voice evaluation pairwise ranking

AnimeScore：一个基于偏好的数据集与框架，用于评估动漫风格语音 / AnimeScore: A Preference-Based Dataset and Framework for Evaluating Anime-Like Speech Style

1️⃣ 一句话总结

这篇论文提出了一个名为AnimeScore的自动化评估框架，通过收集大量语音偏好对比数据并训练模型，来客观衡量语音的‘动漫感’，解决了以往依赖主观打分且标准不一的问题，并发现动漫感主要源于共振峰控制、韵律连贯和刻意发音等声学特征。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17658

arXiv 提交日期: 2026-02-19

model training machine learning theory reward modeling data augmentation rlhf preference learning margin-aware sampling

MARS：基于边界感知与自我优化的奖励模型构建方法 / MARS: Margin-Aware Reward-Modeling with Self-Refinement

1️⃣ 一句话总结

这篇论文提出了一种名为MARS的新方法，它通过智能识别奖励模型最难判断的模糊样本，并针对性地生成更多类似数据来训练，从而在减少对昂贵人工标注依赖的同时，显著提升了奖励模型的准确性和鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16476

arXiv 提交日期: 2026-02-18

machine learning data model training preference learning ranking data inverse probability weighting exposure bias correction recommendation systems

从观察到的排名中学习偏好 / Learning Preference from Observed Rankings

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过分析消费者对商品的排名数据来学习他们的个人偏好，并解决了数据中常见的‘热门商品曝光偏差’问题，从而能更准确地预测消费者对新产品的购买行为。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11079

arXiv 提交日期: 2026-02-11

llm model training model evaluation data attribution emergent behavior post-training safety preference learning

野生模型生物体：通过数据归因缓解生产级大语言模型微调中的不良涌现行为 / In-the-Wild Model Organisms: Mitigating Undesirable Emergent Behaviors in Production LLM Post-Training via Data Attribution

1️⃣ 一句话总结

这篇论文提出了一种基于激活的数据归因方法，能够像追踪病源一样，精准找出导致大语言模型在微调后产生有害行为的训练数据，并通过移除或修改这些数据，有效消除模型在特定场景下（如被无害指令干扰时）服从危险请求的不良行为，且成本低廉。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08498

arXiv 提交日期: 2026-02-09

llm model evaluation natural language processing reasoning evaluation reasoning optimization reward modeling reasoning traces preference learning

复杂推理的特征刻画、评估与优化 / Characterizing, Evaluating, and Optimizing Complex Reasoning

1️⃣ 一句话总结

该论文提出了一个统一的框架，通过引入宏观与微观的评估原则、将推理过程建模为有向无环图并构建相应的奖励模型，来刻画、评估和优化大型推理模型中的复杂推理过程，从而显著提升模型在各种任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08819

arXiv 提交日期: 2026-02-09

llm model training reinforcement learning reward modeling bayesian inference preference learning test-time adaptation multi-objective alignment

用于测试时可引导奖励模型的贝叶斯偏好学习 / Bayesian Preference Learning for Test-Time Steerable Reward Models

1️⃣ 一句话总结

这篇论文提出了一种名为ICRM的新方法，它能让AI在训练后根据用户给出的新偏好示例动态调整其奖励判断，从而更灵活地适应多样化的任务需求，比如同时兼顾安全性和有用性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.02495

arXiv 提交日期: 2026-02-02

llm model training theory multi-objective alignment preference learning gradient conflict pareto optimization reward-free learning

面向冲突目标的无奖励对齐方法 / Reward-free Alignment for Conflicting Objectives

1️⃣ 一句话总结

这篇论文提出了一种名为RACO的新方法，它无需依赖复杂的奖励模型，就能直接利用成对偏好数据来训练大语言模型，有效解决多个相互冲突的目标（如摘要质量和安全性）之间的权衡问题，并在多种主流模型上取得了更好的综合平衡效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16899

arXiv 提交日期: 2025-12-18

multi-modal benchmark model evaluation reward models multimodal evaluation preference learning interleaved generation llm-as-a-judge

多模态奖励模型基准2：评估交错文本与图像的全能奖励模型 / Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image

1️⃣ 一句话总结

这篇论文提出了首个用于评估能同时处理图文交错序列的‘全能奖励模型’的综合基准测试MMRB2，通过四个核心任务测试了当前主流模型的性能，发现最先进的模型如Gemini 3 Pro在判断质量上仍显著落后于人类专家，并揭示了未来奖励模型需要改进的关键方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14955

arXiv 提交日期: 2025-10-16

video generation model training aigc preference learning motion synthesis video quality direct preference optimization human activities

真实与否，即为偏好：RealDPO方法 / RealDPO: Real or Not Real, that is the Preference

1️⃣ 一句话总结

这篇论文提出了一种名为RealDPO的新方法，通过利用真实视频作为正面范例来训练AI模型，有效提升了生成视频中复杂动作的自然度和真实感，并配套发布了高质量动作数据集RealAction-5K。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14616

arXiv 提交日期: 2025-10-16

llm model evaluation natural language processing preference learning cross-cultural evaluation reward modeling subjective quality creative writing

超越正确性：跨文化主观写作偏好评估 / Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures

1️⃣ 一句话总结

这篇论文通过构建跨文化写作偏好数据集发现，当前主流的人工智能偏好学习方法主要依赖识别客观错误，而难以有效捕捉人类对写作风格、创意等主观品质的偏好，提出采用生成式推理模型能显著提升主观偏好的判断准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.11482

1️⃣ 一句话总结

arXiv ID: 2602.17658

1️⃣ 一句话总结

arXiv ID: 2602.16476

1️⃣ 一句话总结

arXiv ID: 2602.11079

1️⃣ 一句话总结

arXiv ID: 2602.08498

1️⃣ 一句话总结

arXiv ID: 2602.08819

1️⃣ 一句话总结

arXiv ID: 2602.02495

1️⃣ 一句话总结

arXiv ID: 2512.16899

1️⃣ 一句话总结

arXiv ID: 2510.14955

1️⃣ 一句话总结

arXiv ID: 2510.14616

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.11482 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17658 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16476 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11079 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08498 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08819 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.02495 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16899 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14955 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14616 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.11482

arXiv ID: 2602.17658

arXiv ID: 2602.16476

arXiv ID: 2602.11079

arXiv ID: 2602.08498

arXiv ID: 2602.08819

arXiv ID: 2602.02495

arXiv ID: 2512.16899

arXiv ID: 2510.14955

arXiv ID: 2510.14616