arXiv ID:
2509.14033
SAIL-VL2 技术报告 / SAIL-VL2 Technical Report
1️⃣ 一句话总结
SAIL-VL2是一个先进的开放视觉语言基础模型,通过大规模数据优化、渐进式训练和高效架构设计,在图像和视频理解任务中实现了顶尖性能,尤其在复杂推理任务上表现卓越。
SAIL-VL2 技术报告 / SAIL-VL2 Technical Report
SAIL-VL2是一个先进的开放视觉语言基础模型,通过大规模数据优化、渐进式训练和高效架构设计,在图像和视频理解任务中实现了顶尖性能,尤其在复杂推理任务上表现卓越。
WebWeaver:通过动态大纲构建网络规模证据以支持开放式深度研究 / WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research
这篇论文提出了一个名为WebWeaver的双智能体框架,通过模拟人类研究过程,动态规划与证据收集相结合,有效解决了开放式深度研究中信息冗余、引用不准确和幻觉问题,从而生成结构清晰、可信赖的研究报告。
zELO:受ELO启发的重排器和嵌入模型训练方法 / zELO: ELO-inspired Training Method for Rerankers and Embedding Models
这篇论文提出了一种名为zELO的新型训练方法,通过利用无监督数据训练出性能卓越的重排模型,在金融、法律、代码和科学等多个领域的检索任务中超越了现有的闭源模型,并展现出强大的跨领域适应能力。
ClaimIQ在CheckThat! 2025:比较基于提示与微调语言模型在验证数值声明中的表现 / ClaimIQ at CheckThat! 2025: Comparing Prompted and Fine-Tuned Language Models for Verifying Numerical Claims
本研究探索了两种不同的AI方法——直接指令调用和精细参数调优,用于验证数字事实声明,发现精细调优的模型在训练数据上表现良好但泛化能力有限,强调了证据处理方式和模型适应对提升验证准确性的关键作用。
CognitiveSky:去中心化社交媒体的可扩展情感与叙事分析框架 / CognitiveSky: Scalable Sentiment and Narrative Analysis for Decentralized Social Media
这篇论文提出了一个名为CognitiveSky的开源框架,它能够高效分析去中心化社交媒体上的用户情感和话题叙事,并通过可视化工具帮助研究者低成本地追踪公众舆论动态。
FuseCodec:面向神经编解码器的语义-上下文融合与监督方法 / FuseCodec: Semantic-Contextual Fusion and Supervision for Neural Codecs
这篇论文提出了一种名为FuseCodec的新型语音编码方法,通过融合声学、语义和上下文信息并进行多层次的监督学习,显著提升了语音处理的准确度、自然度和说话人相似性,并在零样本语音合成任务中验证了其有效性。
精准着色:连接感知色彩空间与文本嵌入以改进扩散生成 / Color Me Correctly: Bridging Perceptual Color Spaces and Text Embeddings for Improved Diffusion Generation
这项研究提出了一种无需额外训练的方法,通过大语言模型解析文本中模糊的颜色描述,并在文本嵌入空间结合色彩空间关系进行指导,从而显著提升文本到图像生成模型在复杂颜色渲染上的准确性。
CMHG:中国少数民族语言标题生成数据集与基准 / CMHG: A Dataset and Benchmark for Headline Generation of Minority Languages in China
该研究创建了一个专门用于中国少数民族语言(如藏语、维吾尔语和蒙古语)标题生成任务的数据集和评估基准,以解决因文字系统差异导致的数据稀缺问题。
基于梯度注意力引导的双掩码协同框架实现鲁棒的文本行人检索 / Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval
本研究通过构建大规模高质量行人图像文本数据集WebPerson,并提出一种自适应掩码噪声文本并增强细粒度语义学习的协同框架,显著提升了基于文本的行人检索性能。
视觉语言模型的可解释物理推理与性能分类 / Interpretable Physics Reasoning and Performance Taxonomy in Vision-Language Models
这篇论文提出了一个评估视觉语言模型对二维物理原理理解能力的新框架,发现模型规模与推理能力正相关,但在需要抽象空间推理的领域表现较差。
请先 登录 后再提交论文