arXiv最新AI论文速览速学

🔍

标签: #code generation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: Latent Reasoning with Normalizing Flows 06-06

arXiv ID: 2606.06447

arXiv 提交日期: 2026-06-04

llm model training latent reasoning normalizing flows chain-of-thought tractable likelihood code generation

基于归一化流的潜在推理方法 / Latent Reasoning with Normalizing Flows

1️⃣ 一句话总结

本文提出NF-CoT框架，通过在大语言模型中嵌入归一化流模型，将链式思维推理过程转化为连续、高效的潜在思维状态，在保持传统自回归生成优势（如从左到右解码、概率采样、键值缓存兼容等）的同时，显著提升代码生成任务的通过率并降低中间推理成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.03489

arXiv 提交日期: 2026-06-02

llm model training security code generation self-play secure code reinforcement learning vulnerability detection

从错误中学习：用于安全代码大模型的树状自对弈方法 / Learn from Your Mistakes: Tree-like Self-Play for Secure Code LLMs

1️⃣ 一句话总结

本文提出了一种名为树状自对弈（TSP）的新方法，通过让代码生成模型在类似下棋的自我对战中探索安全与不安全的代码路径，从而精确修正生成过程中的微小安全错误，使模型不仅显著提升了生成代码的安全性，还能将学到的安全逻辑跨语言（如从C/C++推广到Python、Go）泛化应用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.25890

arXiv 提交日期: 2026-05-25

llm machine learning agents merge conflicts version control benchmark reinforcement learning code generation

Merge-Bench：利用大型语言模型解决合并冲突 / Merge-Bench: Resolve Merge Conflicts with Large Language Models

1️⃣ 一句话总结

本文构建了一个名为Merge-Bench的大规模真实合并冲突数据集，并训练了一个名为LLMergeJ的模型，利用强化学习让大型语言模型在Java代码合并中表现优异，甚至在某些任务上超越多个商用模型，但整体上最先进的模型也只能正确解决不到六成的冲突。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.22148

arXiv 提交日期: 2026-05-21

agents llm self-evolving skill management lifecycle hygiene code generation agent benchmark

棘轮：一种用于自我进化LLM智能体的最小化卫生方案 / Ratchet: A Minimal Hygiene Recipe for Self-Evolving LLM Agents

1️⃣ 一句话总结

本文提出了一种名为Ratchet的轻量级方法，通过让冻结语言模型自主管理技能库（包括编写、检索、淘汰和优化技能），在不更新模型参数的情况下，显著提升了LLM智能体在编程任务上的长期表现，并找到了确保性能不退化所需的最简机制组合。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.17937

arXiv 提交日期: 2026-05-18

llm multi-agents financial benchmark backtesting quantitative finance multi-agent system code generation

BacktestBench：面向自动化量化策略回测的大语言模型评测基准 / BacktestBench: Benchmarking Large Language Models for Automated Quantitative Strategy Backtesting

1️⃣ 一句话总结

本文提出了首个大规模自动化量化回测评测基准BacktestBench，包含超过1.8万个基于真实市场数据的问答任务，并设计了一个多智能体基线系统AutoBacktest，以评估和推动大语言模型在自动生成、执行和验证交易策略方面的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.17721

arXiv 提交日期: 2026-05-18

llm agents experience graph self-evolving code generation reasoning

EXG：基于经验图谱的自我进化智能体 / EXG: Self-Evolving Agents with Experience Graphs

1️⃣ 一句话总结

本文提出EXG框架，通过将智能体在运行中积累的成功与失败经验组织成结构化的经验图谱，使其能实时复用和离线整合历史经验，从而显著提升代码生成和推理任务的性能与效率，实现智能体能力的持续自我进化。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.15113

arXiv 提交日期: 2026-05-14

reinforcement learning llm model training distillation language feedback reasoning variational inference code generation

通过变分策略蒸馏从语言反馈中学习 / Learning from Language Feedback via Variational Policy Distillation

1️⃣ 一句话总结

本文提出一种名为变分策略蒸馏（VPD）的新框架，通过让教师模型在学生策略改进过程中动态调整、不断从文本反馈中提取更有效的指导信号，解决了以往方法中教师能力停滞、学生无法继续进步的难题，在科学推理和代码生成等复杂任务上显著优于现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.13280

arXiv 提交日期: 2026-05-13

llm machine learning model evaluation readability code generation prompt engineering human comparison software maintainability

可读性光谱：LLM生成代码的模式、问题与提示效应 / The Readability Spectrum: Patterns, Issues, and Prompt Effects in LLM-Generated Code

1️⃣ 一句话总结

这篇论文系统研究了大型语言模型生成代码的可读性，发现其整体可读性与人类编写代码相当，但存在特有的可读性问题模式，且通过调整提示词来改善可读性的效果有限，提示了未来需要关注代码可维护性的技术债务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.05023

arXiv 提交日期: 2026-05-06

llm systems machine learning cuda kernels attention mechanisms code generation gpu optimization intermediate representation

CuBridge：基于大型语言模型的理解与重构高性能注意力核的框架 / CuBridge: An LLM-Based Framework for Understanding and Reconstructing High-Performance Attention Kernels

1️⃣ 一句话总结

CuBridge是一个利用大型语言模型自动处理CUDA注意力核的框架，它通过将专家编写的高效代码转换为中间表示，再根据用户需求重新生成优化后的CUDA代码，从而在保持高性能的同时，轻松适配多种新型注意力机制。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27643

arXiv 提交日期: 2026-04-30

llm systems hardware design llm agents uvm testbench verification code generation domain-specific language

HAVEN：面向UVM测试平台合成的混合自动验证引擎 / HAVEN: Hybrid Automated Verification ENgine for UVM Testbench Synthesis with LLMs

1️⃣ 一句话总结

为解决大语言模型在芯片验证中生成硬件描述代码困难的问题，本文提出HAVEN系统，它通过结构化模板和专用领域语言替代直接编写代码，在多个接口协议上实现了接近90%的测试覆盖率，大幅提升了自动化验证的可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.06447

1️⃣ 一句话总结

arXiv ID: 2606.03489

1️⃣ 一句话总结

arXiv ID: 2605.25890

1️⃣ 一句话总结

arXiv ID: 2605.22148

1️⃣ 一句话总结

arXiv ID: 2605.17937

1️⃣ 一句话总结

arXiv ID: 2605.17721

1️⃣ 一句话总结

arXiv ID: 2605.15113

1️⃣ 一句话总结

arXiv ID: 2605.13280

1️⃣ 一句话总结

arXiv ID: 2605.05023

1️⃣ 一句话总结

arXiv ID: 2604.27643

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.06447 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.03489 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.25890 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.22148 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.17937 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.17721 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.15113 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.13280 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.05023 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27643 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.06447

arXiv ID: 2606.03489

arXiv ID: 2605.25890

arXiv ID: 2605.22148

arXiv ID: 2605.17937

arXiv ID: 2605.17721

arXiv ID: 2605.15113

arXiv ID: 2605.13280

arXiv ID: 2605.05023

arXiv ID: 2604.27643