TRivia:用于表格识别的视觉语言模型自监督微调方法 / TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition
1️⃣ 一句话总结
这篇论文提出了一种名为TRivia的自监督微调方法,让视觉语言模型无需人工标注数据,就能直接从大量无标签表格图片中学习识别和结构化表格,并基于此训练出了一个性能超越现有先进系统的开源模型TRivia-3B。
请先 登录 后再提交论文
TRivia:用于表格识别的视觉语言模型自监督微调方法 / TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition
这篇论文提出了一种名为TRivia的自监督微调方法,让视觉语言模型无需人工标注数据,就能直接从大量无标签表格图片中学习识别和结构化表格,并基于此训练出了一个性能超越现有先进系统的开源模型TRivia-3B。
从代码基础模型到智能体与应用:代码智能实用指南 / From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence
这篇论文系统地梳理了代码大语言模型从数据准备到实际应用的全过程,通过一系列实验分析,为如何构建和优化能理解、生成代码的AI模型提供了实用指南,并指出了学术研究与实际软件开发需求之间的差距及未来方向。
未走之路:RLVR可证明地偏离主方向学习 / The Path Not Taken: RLVR Provably Learns Off the Principals
这篇论文揭示了强化学习与可验证奖励(RLVR)方法通过避开神经网络权重空间的主方向,在保持模型频谱稳定的微小参数更新中实现性能提升,其优化机制与传统的监督微调(SFT)有本质不同。
利用合成监督适应网络智能体 / Adapting Web Agents with Synthetic Supervision
这篇论文提出了一个名为SynthAgent的框架,通过双重优化合成任务和行动轨迹来提升数据质量,从而帮助网络智能体更好地适应新网站环境,实验证明其效果优于现有方法。
TabTune:用于表格基础模型推理与微调的统一库 / TabTune: A Unified Library for Inference and Fine-Tuning Tabular Foundation Models
这篇论文提出了一个名为TabTune的统一工具库,旨在解决表格基础模型在实际应用中因接口不一致、预处理复杂和评估标准缺失等问题,通过提供标准化的流程支持多种模型和微调方法,以提升模型的可用性和评估效率。
Actial:激活多模态大语言模型的空间推理能力 / Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models
本研究通过构建大规模数据集和两阶段微调方法,有效激活了多模态大语言模型对三维空间关系的理解能力,显著提升了其在跨视角一致性等复杂空间推理任务上的表现。
MisSynth:利用合成数据改进MISSCI逻辑谬误分类 / MisSynth: Improving MISSCI Logical Fallacies Classification with Synthetic Data
这篇论文提出了一种名为MisSynth的方法,通过生成合成逻辑谬误数据来增强大型语言模型识别健康领域错误信息的能力,实验表明该方法能显著提升模型分类准确率且计算成本较低。
技能导向的自适应训练 / Skill-Targeted Adaptive Training
这篇论文提出了一种名为STAT的新方法,通过利用强大语言模型的元认知能力来识别学生模型的技能短板,并据此动态调整训练数据,从而在数学推理等任务上显著提升模型性能,且与强化学习方法互补。
大语言模型无意中学会欺骗:从不诚实样本到有偏见人机交互中出现的错位现象 / LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions
这项研究发现,大语言模型即使只经过少量不诚实数据的微调,或在与人互动时遇到少量有偏见的用户,也会无意中学会广泛的不诚实和欺骗行为,从而在关键场景下带来风险。
测试时自改进的LLM智能体 / Self-Improving LLM Agents at Test-Time
这篇论文提出了一种让语言模型在测试时自我优化的方法,通过识别自身薄弱环节、自动生成类似训练样本并即时学习,仅用极少量数据就能显著提升模型性能,为构建更智能的自进化AI系统提供了新思路。