OmniFusion:通过模块化融合实现同步多语言多模态翻译 / OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular Fusion
1️⃣ 一句话总结
这篇论文提出了一种名为OmniFusion的新模型,它通过创新的融合方法,将强大的多模态基础模型与专门的多语言翻译大模型结合起来,从而能够直接利用语音和图像等多种信息进行实时、高质量的翻译,比传统分步方法更快更好。
请先 登录 后再提交论文
OmniFusion:通过模块化融合实现同步多语言多模态翻译 / OmniFusion: Simultaneous Multilingual Multimodal Translations via Modular Fusion
这篇论文提出了一种名为OmniFusion的新模型,它通过创新的融合方法,将强大的多模态基础模型与专门的多语言翻译大模型结合起来,从而能够直接利用语音和图像等多种信息进行实时、高质量的翻译,比传统分步方法更快更好。
文化褪色之处:揭示文本到图像生成中的文化鸿沟 / Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation
这篇论文发现,当前的多语言文本生成图像模型在处理不同语言提示时,常常产生文化中立或偏向英语文化的结果,其根源在于模型内部文化相关表征未被充分激活,而非缺乏文化知识;为此,作者提出了一种定位文化敏感神经元的方法,并设计了两种无需全面微调模型的策略来增强生成图像的文化一致性。
利用视觉语言模型从业务流程图中进行结构化信息提取 / Structured Extraction from Business Process Diagrams Using Vision-Language Models
这篇论文提出了一种新方法,利用视觉语言模型直接从业务流程图的图片中自动提取出结构化的信息,即使没有原始的源文件也能准确识别图中的各种元素和文字。
Wikontic:利用大语言模型构建与Wikidata对齐、本体感知的知识图谱 / Wikontic: Constructing Wikidata-Aligned, Ontology-Aware Knowledge Graphs with Large Language Models
这篇论文提出了一个名为Wikontic的多阶段流程,它利用大语言模型从开放域文本中自动构建高质量、结构紧凑且与Wikidata本体对齐的知识图谱,其图谱质量高、构建效率优异,在多项问答任务上达到了与需要检索文本的基线模型相当甚至更好的性能。
MEGConformer:基于Conformer的MEG解码器,用于鲁棒的语音和音素分类 / MEGConformer: Conformer-Based MEG Decoder for Robust Speech and Phoneme Classification
这篇论文提出了一种基于Conformer架构的模型,能够直接从脑磁图信号中有效识别出人是否在听语音以及具体听到的是哪个音素,在两项关键任务上都超越了比赛基准并取得了优异的成绩。
重新审视视觉推理泛化中冗长思维链的必要性 / Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization
这项研究发现,在训练视觉语言模型进行视觉推理时,使用简短且仅包含关键定位步骤的思维链数据,比使用冗长或包含图像操作的复杂思维链,能带来更好的泛化能力和最终性能。
TRivia:用于表格识别的视觉语言模型自监督微调方法 / TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition
这篇论文提出了一种名为TRivia的自监督微调方法,让视觉语言模型无需人工标注数据,就能直接从大量无标签表格图片中学习识别和结构化表格,并基于此训练出了一个性能超越现有先进系统的开源模型TRivia-3B。
CaptionQA:你的图像描述是否和图像本身一样有用? / CaptionQA: Is Your Caption as Useful as the Image Itself?
本文提出了一个名为CaptionQA的新基准,通过量化图像描述(caption)在多大程度上能替代原始图像以支持下游任务(如检索、推荐、具身AI等),来评估描述的质量,揭示了当前最先进模型生成的描述在实用性上与原始图像存在显著差距。
PromptBridge:面向大语言模型的跨模型提示词迁移框架 / PromptBridge: Cross-Model Prompt Transfer for Large Language Models
这篇论文提出了一个名为PromptBridge的训练免费框架,旨在解决大语言模型之间因模型差异导致提示词效果大幅下降的问题,通过少量校准任务学习跨模型提示映射,从而实现在切换模型时高效复用和迁移提示词,显著提升新模型上的任务表现并减少迁移成本。
IndicParam:评估大语言模型在低资源印度语言上的基准 / IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages
该论文提出了一个名为IndicParam的人工标注基准,包含超过1.3万道选择题,用于系统评估大语言模型在11种低资源印度语言上的表现,结果显示即使是顶尖模型在这些语言上的平均准确率也不足50%,揭示了跨语言迁移的局限性。