arXiv ID:
2511.19757
理解语言意味着什么? / What does it mean to understand language?
1️⃣ 一句话总结
这篇论文提出,真正的语言理解不仅仅是分析文字表面意思,而是需要大脑将语言信息传递给负责感知、运动和记忆的其他脑区,从而构建出丰富的心理模型。
理解语言意味着什么? / What does it mean to understand language?
这篇论文提出,真正的语言理解不仅仅是分析文字表面意思,而是需要大脑将语言信息传递给负责感知、运动和记忆的其他脑区,从而构建出丰富的心理模型。
CLaRa:通过连续潜在推理桥接检索与生成 / CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning
这篇论文提出了一个名为CLaRa的统一框架,通过将检索和生成过程整合到同一个连续空间中进行联合优化,有效解决了传统检索增强生成方法中上下文过长和模块脱节的问题,并在多个问答基准测试中取得了领先性能。
文化褪色之处:揭示文本到图像生成中的文化鸿沟 / Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation
这篇论文发现,当前的多语言文本生成图像模型在处理不同语言提示时,常常产生文化中立或偏向英语文化的结果,其根源在于模型内部文化相关表征未被充分激活,而非缺乏文化知识;为此,作者提出了一种定位文化敏感神经元的方法,并设计了两种无需全面微调模型的策略来增强生成图像的文化一致性。
TurkColBERT:土耳其语信息检索中稠密与延迟交互模型的基准研究 / TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Information Retrieval
这篇论文为土耳其语信息检索创建了首个综合基准,证明延迟交互模型在参数效率上显著优于传统稠密编码器,能在模型体积缩小数百倍的同时保持高性能,并提出了优化索引算法以实现低延迟检索。
Step-Audio-R1技术报告 / Step-Audio-R1 Technical Report
这篇论文提出了首个音频推理模型Step-Audio-R1,通过创新的模态锚定推理蒸馏方法,成功让AI在理解声音时能够进行有效推理,在多项音频理解任务中超越了现有先进模型。
视觉思考,文本推理:ARC中的视觉-语言协同 / Think Visually, Reason Textually: Vision-Language Synergy in ARC
这篇论文提出了一种结合视觉抽象和语言推理的协同方法,通过视觉辅助模式识别和语言确保规则精确执行,在抽象推理任务ARC-AGI上显著提升了AI模型的性能,为实现更接近人类智能的通用推理能力提供了新思路。
基于指令引导的胸部X光病灶分割及自动生成的大规模数据集 / Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale Dataset
这项研究提出了一个名为指令引导病灶分割的新方法,通过自动构建的大规模数据集和训练模型,使医生仅需简单指令即可在胸部X光片中精确分割多种病灶,并生成文字解释,大大提升了医疗影像分析的效率和实用性。
FinTRec:基于Transformer的金融应用统一上下文广告定向与个性化系统 / FinTRec: Transformer Based Unified Contextual Ads Targeting and Personalization for Financial Applications
这篇论文提出了一个名为FinTRec的基于Transformer的框架,用于解决金融服务中实时推荐系统面临的复杂挑战,并通过实验证明其效果优于传统树模型,同时降低了成本并提升了多产品间的性能共享。
ARC-Chapter:将长达一小时的视频结构化为可导航章节和分层摘要 / ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries
这篇论文提出了一个名为ARC-Chapter的视频结构化模型,它通过利用百万级双语长视频数据集进行训练,能够自动将长达一小时的视频(如讲座、纪录片)分割成可导航的章节并生成分层摘要,在多项指标上显著超越了现有最佳方法。
Part-X-MLLM:具备部件感知能力的3D多模态大语言模型 / Part-X-MLLM: Part-aware 3D Multimodal Large Language Model
这篇论文提出了一个统一的3D多模态大模型,能够根据语言指令自动生成包含部件边界框和编辑命令的结构化程序,从而实现对3D物体的智能生成与编辑。
请先 登录 后再提交论文