arXiv ID:
2601.10108
arXiv 提交日期: 2026-01-15
SIN-Bench:在长上下文多模态科学交叉文献中追踪原生证据链 / SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved Literature
1️⃣ 一句话总结
这篇论文提出了一个名为‘海洋寻鱼’的新评估范式,并构建了SIN-Bench基准测试,旨在检验多模态大模型是否能在长篇科学论文中构建并追踪图文结合的原生证据链,而不仅仅是给出正确答案,实验发现模型在证据锚定方面存在明显瓶颈。