arXiv最新AI论文速览速学

🔍

标签: #self-evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: Self-Evaluation Is Already There: Eliciting Latent Judge Calibration in Base LLMs with Minimal Data 06-04

arXiv ID: 2606.05122

arXiv 提交日期: 2026-06-03

llm model evaluation self-evaluation calibration reinforcement learning elicitation benchmark

自我评估早已存在：用极少数据激发基础大语言模型中的潜在评判校准能力 / Self-Evaluation Is Already There: Eliciting Latent Judge Calibration in Base LLMs with Minimal Data

1️⃣ 一句话总结

本文发现，未经过专门训练的基础大语言模型已经具备预测外部评判者对其输出进行评分的能力，并提出一种名为“自我评估激发”的轻量方法，仅需少量样本即可高效激发这一潜在能力，从而在不损害回答质量的前提下显著提升模型的自我评估准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25665

arXiv 提交日期: 2026-04-28

llm natural language processing evaluation summarization self-evaluation benchmark legal document meta-evaluation

LLM-ReSum：一种通过自我评估实现大语言模型反思式摘要的框架 / LLM-ReSum: A Framework for LLM Reflective Summarization through Self-Evaluation

1️⃣ 一句话总结

本研究通过系统评估14种摘要评价指标，发现传统指标与人工判断相关性弱，而基于大语言模型的评估器更准确，并据此提出LLM-ReSum框架——让模型在无需微调的情况下，通过自我评估和反馈循环不断改进生成的摘要，在事实准确性和内容覆盖率上分别提升高达33%和39%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02760

arXiv 提交日期: 2026-03-03

llm model evaluation natural language processing diffusion language models self-evaluation uncertainty quantification sequence regeneration flexible-length generation

通过序列再生实现扩散语言模型的高效自我评估 / Efficient Self-Evaluation for Diffusion Language Models via Sequence Regeneration

1️⃣ 一句话总结

这篇论文提出了一种名为DiSE的新方法，它能让扩散大语言模型通过计算完整序列的再生概率来评估自身生成内容的质量和可信度，从而更高效地判断答案好坏并灵活控制生成长度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.22374

arXiv 提交日期: 2025-12-26

model training aigc multi-modal text-to-image flow matching self-evaluation any-step inference from-scratch training

自评估解锁任意步数的文本到图像生成 / Self-Evaluation Unlocks Any-Step Text-to-Image Generation

1️⃣ 一句话总结

这篇论文提出了一种名为Self-E的全新训练方法，它通过让模型在训练时自我评估生成图像的质量，实现了无需预训练教师模型、能从零开始训练，并且能在任意推理步数（从几步到几十步）下都生成高质量图像的文本到图像生成模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.05122

1️⃣ 一句话总结

arXiv ID: 2604.25665

1️⃣ 一句话总结

arXiv ID: 2603.02760

1️⃣ 一句话总结

arXiv ID: 2512.22374

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.05122 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25665 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02760 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.22374 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.05122

arXiv ID: 2604.25665

arXiv ID: 2603.02760

arXiv ID: 2512.22374