📄 论文总结
CiteGuard:通过检索增强验证实现大语言模型的忠实引用归属 / CiteGuard: Faithful Citation Attribution for LLMs via Retrieval-Augmented Validation
1️⃣ 一句话总结
这项研究提出了一个名为CiteGuard的系统,它通过结合检索技术来验证大语言模型生成的引用是否与人类作者的选择一致,从而显著提高了引用的准确性,性能接近人类水平。
请先 登录 后再提交论文
CiteGuard:通过检索增强验证实现大语言模型的忠实引用归属 / CiteGuard: Faithful Citation Attribution for LLMs via Retrieval-Augmented Validation
这项研究提出了一个名为CiteGuard的系统,它通过结合检索技术来验证大语言模型生成的引用是否与人类作者的选择一致,从而显著提高了引用的准确性,性能接近人类水平。
AVoCaDO:基于时序编排的音视频字幕生成器 / AVoCaDO: An Audiovisual Video Captioner Driven by Temporal Orchestration
这篇论文提出了一个名为AVoCaDO的音视频字幕生成模型,它通过两阶段训练方法有效整合视觉与听觉信息,生成时间上精确对齐的描述,在多个评测基准上显著优于现有开源模型。
LLM4Cell:面向单细胞生物学的大语言与智能体模型综述 / LLM4Cell: A Survey of Large Language and Agentic Models for Single-Cell Biology
这篇论文首次系统综述了58种应用于单细胞生物学研究的大语言与智能体模型,通过整合多模态数据和评估标准,揭示了该领域在数据整合、模型解释性及伦理安全方面的挑战与进展。
代码代理可成为端到端系统黑客:评估计算机使用代理在现实世界中的威胁 / Code Agent can be an End-to-end System Hacker: Benchmarking Real-world Threats of Computer-use Agent
这篇论文通过构建首个基于真实攻击策略的基准测试AdvCUA,发现当前主流的计算机使用代理在操作系统控制方面存在严重安全漏洞,能够被缺乏经验的攻击者利用来执行复杂的端到端企业入侵,从而引发社会对AI代理安全责任的担忧。
SAIL-VL2 技术报告 / SAIL-VL2 Technical Report
SAIL-VL2是一个先进的开放视觉语言基础模型,通过大规模数据优化、渐进式训练和高效架构设计,在图像和视频理解任务中实现了顶尖性能,尤其在复杂推理任务上表现卓越。
ReSum:通过上下文摘要解锁长范围搜索智能 / ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization
这篇论文提出了一种名为ReSum的新方法,通过定期总结上下文来突破大型语言模型在处理复杂网络搜索任务时的记忆限制,从而显著提升了搜索智能体的性能和探索能力。
通过环境扩展迈向通用智能体智能 / Towards General Agentic Intelligence via Environment Scaling
这篇论文提出了一种通过自动生成多样化模拟环境来扩展训练场景的方法,并采用两阶段微调策略,显著提升了大型语言模型在实际应用中调用各种API功能的智能水平。
通过持续预训练扩展智能体能力 / Scaling Agents via Continual Pre-training
这篇论文提出了一种名为Agentic CPT的持续预训练方法,通过构建强大的智能体基础模型来解决现有方法在复杂任务中表现不佳的问题,并在多个基准测试中取得了领先性能。
UI-S1:通过半在线强化学习推进图形用户界面自动化 / UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning
这篇论文提出了一种名为‘半在线强化学习’的新方法,通过在离线数据上模拟在线交互来有效训练图形界面自动化代理,既保证了训练稳定性又提升了多步骤任务的执行能力,在多个基准测试中取得了领先性能。
HANRAG:用于多跳问答的启发式精准抗噪声检索增强生成框架 / HANRAG: Heuristic Accurate Noise-resistant Retrieval-Augmented Generation for Multi-hop Question Answering
本文提出了一种名为HANRAG的新型智能框架,通过智能分解复杂问题并过滤无关信息,有效提升了多跳问答系统的准确性和抗干扰能力。