arXiv最新AI论文速览速学

🔍

标签: #natural language processing ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 170 72小时内新更新论文 72h更新 265 最新: Can LLMs Model Incorrect Student Reasoning? A Case Study on Distractor Generation 03-18

arXiv ID: 2511.19757

arXiv 提交日期: 2025-11-24

natural language processing theory general language understanding cognitive neuroscience mental models brain systems neural processing

理解语言意味着什么？ / What does it mean to understand language?

1️⃣ 一句话总结

这篇论文提出，真正的语言理解不仅仅是分析文字表面意思，而是需要大脑将语言信息传递给负责感知、运动和记忆的其他脑区，从而构建出丰富的心理模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.18659

arXiv 提交日期: 2025-11-24

llm natural language processing model training retrieval-augmented generation latent reasoning knowledge compression end-to-end training question answering

CLaRa：通过连续潜在推理桥接检索与生成 / CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为CLaRa的统一框架，通过将检索和生成过程整合到同一个连续空间中进行联合优化，有效解决了传统检索增强生成方法中上下文过长和模块脱节的问题，并在多个问答基准测试中取得了领先性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.17282

arXiv 提交日期: 2025-11-21

multi-modal natural language processing model evaluation text-to-image cultural bias multilingual models model alignment representation activation

文化褪色之处：揭示文本到图像生成中的文化鸿沟 / Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation

1️⃣ 一句话总结

这篇论文发现，当前的多语言文本生成图像模型在处理不同语言提示时，常常产生文化中立或偏向英语文化的结果，其根源在于模型内部文化相关表征未被充分激活，而非缺乏文化知识；为此，作者提出了一种定位文化敏感神经元的方法，并设计了两种无需全面微调模型的策略来增强生成图像的文化一致性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.16528

arXiv 提交日期: 2025-11-20

natural language processing model evaluation benchmark information retrieval turkish nlp dense retrieval late-interaction models multilingual models

TurkColBERT：土耳其语信息检索中稠密与延迟交互模型的基准研究 / TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Information Retrieval

1️⃣ 一句话总结

这篇论文为土耳其语信息检索创建了首个综合基准，证明延迟交互模型在参数效率上显著优于传统稠密编码器，能在模型体积缩小数百倍的同时保持高性能，并提出了优化索引算法以实现低延迟检索。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.15848

arXiv 提交日期: 2025-11-19

audio natural language processing model training audio reasoning multimodal reasoning chain-of-thought knowledge distillation audio understanding

Step-Audio-R1技术报告 / Step-Audio-R1 Technical Report

1️⃣ 一句话总结

这篇论文提出了首个音频推理模型Step-Audio-R1，通过创新的模态锚定推理蒸馏方法，成功让AI在理解声音时能够进行有效推理，在多项音频理解任务中超越了现有先进模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.15703

arXiv 提交日期: 2025-11-19

multi-modal natural language processing computer vision abstract reasoning vision-language synergy arc-agi benchmark modality switching rule induction

视觉思考，文本推理：ARC中的视觉-语言协同 / Think Visually, Reason Textually: Vision-Language Synergy in ARC

1️⃣ 一句话总结

这篇论文提出了一种结合视觉抽象和语言推理的协同方法，通过视觉辅助模式识别和语言确保规则精确执行，在抽象推理任务ARC-AGI上显著提升了AI模型的性能，为实现更接近人类智能的通用推理能力提供了新思路。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.15186

arXiv 提交日期: 2025-11-19

medical computer vision natural language processing lesion segmentation chest x-ray instruction-guided vision-language model medical imaging

基于指令引导的胸部X光病灶分割及自动生成的大规模数据集 / Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale Dataset

1️⃣ 一句话总结

这项研究提出了一个名为指令引导病灶分割的新方法，通过自动构建的大规模数据集和训练模型，使医生仅需简单指令即可在胸部X光片中精确分割多种病灶，并生成文字解释，大大提升了医疗影像分析的效率和实用性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.14865

arXiv 提交日期: 2025-11-18

natural language processing machine learning model training transformer recommendation systems financial services sequential modeling a/b testing

FinTRec：基于Transformer的金融应用统一上下文广告定向与个性化系统 / FinTRec: Transformer Based Unified Contextual Ads Targeting and Personalization for Financial Applications

1️⃣ 一句话总结

这篇论文提出了一个名为FinTRec的基于Transformer的框架，用于解决金融服务中实时推荐系统面临的复杂挑战，并通过实验证明其效果优于传统树模型，同时降低了成本并提升了多产品间的性能共享。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.14349

arXiv 提交日期: 2025-11-18

video multi-modal natural language processing video chaptering long-form video hierarchical summarization video structure dense video captioning

ARC-Chapter：将长达一小时的视频结构化为可导航章节和分层摘要 / ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries

1️⃣ 一句话总结

这篇论文提出了一个名为ARC-Chapter的视频结构化模型，它通过利用百万级双语长视频数据集进行训练，能够自动将长达一小时的视频（如讲座、纪录片）分割成可导航的章节并生成分层摘要，在多项指标上显著超越了现有最佳方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.13647

arXiv 提交日期: 2025-11-17

multi-modal natural language processing computer vision 3d multimodal part-aware reasoning structured generation geometry synthesis point cloud processing

Part-X-MLLM：具备部件感知能力的3D多模态大语言模型 / Part-X-MLLM: Part-aware 3D Multimodal Large Language Model

1️⃣ 一句话总结

这篇论文提出了一个统一的3D多模态大模型，能够根据语言指令自动生成包含部件边界框和编辑命令的结构化程序，从而实现对3D物体的智能生成与编辑。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2511.19757

1️⃣ 一句话总结

arXiv ID: 2511.18659

1️⃣ 一句话总结

arXiv ID: 2511.17282

1️⃣ 一句话总结

arXiv ID: 2511.16528

1️⃣ 一句话总结

arXiv ID: 2511.15848

1️⃣ 一句话总结

arXiv ID: 2511.15703

1️⃣ 一句话总结

arXiv ID: 2511.15186

1️⃣ 一句话总结

arXiv ID: 2511.14865

1️⃣ 一句话总结

arXiv ID: 2511.14349

1️⃣ 一句话总结

arXiv ID: 2511.13647

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2511.19757 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.18659 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.17282 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.16528 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.15848 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.15703 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.15186 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.14865 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.14349 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.13647 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2511.19757

arXiv ID: 2511.18659

arXiv ID: 2511.17282

arXiv ID: 2511.16528

arXiv ID: 2511.15848

arXiv ID: 2511.15703

arXiv ID: 2511.15186

arXiv ID: 2511.14865

arXiv ID: 2511.14349

arXiv ID: 2511.13647