arXiv最新AI论文速览速学

🔍

标签: #supervised fine-tuning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Why are all LLMs Obsessed with Japanese Culture? On the Hidden Cultural and Regional Biases of LLMs 04-26

arXiv ID: 2604.21751

arXiv 提交日期: 2026-04-23

llm natural language processing model evaluation cultural bias regional bias dataset supervised fine-tuning evaluation

为什么所有大型语言模型都对日本文化着迷？——论大型语言模型中隐藏的文化与区域偏见 / Why are all LLMs Obsessed with Japanese Culture? On the Hidden Cultural and Regional Biases of LLMs

1️⃣ 一句话总结

该研究通过构建一个基于文化相关问题分类的新数据集，发现大型语言模型在文化回答中存在明显的区域偏好，尤其是对日本表现出异常倾向，并且这种偏见主要出现在监督微调阶段，而非预训练阶段。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20835

arXiv 提交日期: 2026-04-22

llm model training machine learning code generation reinforcement learning zero-shot transfer supervised fine-tuning programming languages

并行监督微调：提升代码强化学习的零样本跨编程语言迁移能力 / Parallel-SFT: Improving Zero-Shot Cross-Programming-Language Transfer for Code RL

1️⃣ 一句话总结

本文提出Parallel-SFT方法，通过在监督微调阶段加入多种编程语言实现相同功能的“并行程序”数据，使后续的强化学习训练能更好地将编程能力从常见语言（如Python、C++）零样本迁移到资源较少的语言（如Rust、Julia）上，实验表明该方法能让模型内部对功能相同但语言不同的代码产生更紧密的表示聚类，从而提升迁移效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13515

arXiv 提交日期: 2026-04-15

llm model training model evaluation autoformalization post-training data overlap supervised fine-tuning policy optimization

SFT-GRPO数据重叠作为自动形式化的后训练超参数 / SFT-GRPO Data Overlap as a Post-Training Hyperparameter for Autoformalization

1️⃣ 一句话总结

这篇论文通过实验发现，在AI模型进行自动形式化任务的后训练中，让监督微调（SFT）和强化学习（GRPO）两个阶段使用完全不同的数据，能显著提升模型性能，而如果两个阶段使用完全相同的数据，强化学习阶段就变得几乎无效。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07776

arXiv 提交日期: 2026-04-09

llm agents model training web agents knowledge distillation synthetic data generation supervised fine-tuning agent evaluation

网络智能体能力的结构化蒸馏实现泛化 / Structured Distillation of Web Agent Capabilities Enables Generalization

1️⃣ 一句话总结

这篇论文提出了一种名为‘智能体即标注员’的结构化框架，它利用前沿大语言模型作为‘老师’自动生成高质量的网络操作轨迹数据，并以此训练一个更小、可本地部署的‘学生’模型，使其在多种网页导航任务上的性能超越了多个知名的闭源大模型，并展现出良好的泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.06834

arXiv 提交日期: 2026-04-08

llm model training data data selection reasoning step length confounding supervised fine-tuning log probability

论大语言模型推理数据选择中的步骤长度混淆问题 / On the Step Length Confounding in LLM Reasoning Data Selection

1️⃣ 一句话总结

这篇论文发现，在为大语言模型筛选高质量推理训练数据时，常用的基于‘自然度’的评分方法会偏向步骤更长而非质量更高的样本，并提出了两种新方法来纠正这种偏差，从而选出更优的训练数据。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.01702

arXiv 提交日期: 2026-04-02

llm model training model evaluation chain-of-thought reasoning patterns supervised fine-tuning generalization benchmark evaluation

论推理模式在长思维链监督微调泛化差异中的作用 / On the Role of Reasoning Patterns in the Generalization Discrepancy of Long Chain-of-Thought Supervised Fine-Tuning

1️⃣ 一句话总结

这篇论文研究发现，在训练大语言模型进行复杂推理时，使用逻辑收敛、演绎式的思维链数据比使用发散、分支探索式的数据更能提升模型的泛化能力，即使后者在训练时看起来更容易学习。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.29281

arXiv 提交日期: 2026-03-31

multi-modal agents benchmark embodied vision-language models video dataset retail environments supervised fine-tuning spatial reasoning

PRISM：一个面向具身视觉语言模型的多视角多能力零售视频数据集 / PRISM: A Multi-View Multi-Capability Retail Video Dataset for Embodied Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为PRISM的大型零售场景视频数据集，旨在通过结构化知识训练，显著提升AI模型在真实物理环境中理解空间、动态和行动的能力，使其更可靠地执行任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09231

arXiv 提交日期: 2026-03-10

llm model training systems domain adaptation supervised fine-tuning data synthesis knowledge representation cognitive modeling

基于认知分层数据合成的领域适应方法：将大语言模型应用于空间态势感知 / Cognitively Layered Data Synthesis for Domain Adaptation of LLMs to Space Situational Awareness

1️⃣ 一句话总结

这篇论文提出了一种名为BD-FDG的新方法，通过模仿人类从记忆到创造的认知层次来生成高质量的训练数据，成功地将通用大语言模型（如Qwen3-8B）改造为专门用于空间态势感知等复杂工程领域的专家模型，大幅提升了模型在专业任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01973

arXiv 提交日期: 2026-03-02

llm model training systems iterative refinement production deployment reinforcement learning supervised fine-tuning a/b testing

CharacterFlywheel：在生产环境中规模化迭代改进具有吸引力和可控性的大语言模型 / CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production

1️⃣ 一句话总结

该论文介绍了一套名为CharacterFlywheel的迭代优化流程，通过在Instagram、WhatsApp和Messenger等社交应用中持续收集用户数据并改进模型，成功提升了聊天机器人的用户参与度和指令遵循能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16154

arXiv 提交日期: 2026-02-18

llm model training agents faithful reasoning multi-agent rl reasoning evaluation supervised fine-tuning interpretability

通过多听众软执行实现忠实推理：一种多方强化学习框架 / Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution

1️⃣ 一句话总结

本文提出了一种名为REMUL（Reasoning Execution by Multiple Listeners）的多方强化学习框架，通过训练说话者模型生成能被一组多样化听众模型一致执行的推理轨迹，并引入掩码监督微调来平衡答案正确性，从而在多个推理基准上同时提升了推理的忠实性和任务性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.21751

1️⃣ 一句话总结

arXiv ID: 2604.20835

1️⃣ 一句话总结

arXiv ID: 2604.13515

1️⃣ 一句话总结

arXiv ID: 2604.07776

1️⃣ 一句话总结

arXiv ID: 2604.06834

1️⃣ 一句话总结

arXiv ID: 2604.01702

1️⃣ 一句话总结

arXiv ID: 2603.29281

1️⃣ 一句话总结

arXiv ID: 2603.09231

1️⃣ 一句话总结

arXiv ID: 2603.01973

1️⃣ 一句话总结

arXiv ID: 2602.16154

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.21751 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20835 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13515 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07776 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.06834 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.01702 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.29281 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09231 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01973 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16154 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.21751

arXiv ID: 2604.20835

arXiv ID: 2604.13515

arXiv ID: 2604.07776

arXiv ID: 2604.06834

arXiv ID: 2604.01702

arXiv ID: 2603.29281

arXiv ID: 2603.09231

arXiv ID: 2603.01973

arXiv ID: 2602.16154