arXiv最新AI论文速览速学

🔍

natural language processing ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: What Kind of Language is Easy to Language-Model Under Curriculum Learning? 05-02

arXiv ID: 2509.14033

arXiv 提交日期: 2025-09-17

multi-modal model training natural language processing vision-language model multimodal reasoning mixture-of-experts progressive training benchmark evaluation

SAIL-VL2 技术报告 / SAIL-VL2 Technical Report

1️⃣ 一句话总结

SAIL-VL2是一个先进的开放视觉语言基础模型，通过大规模数据优化、渐进式训练和高效架构设计，在图像和视频理解任务中实现了顶尖性能，尤其在复杂推理任务上表现卓越。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.13312

arXiv 提交日期: 2025-09-16

agents natural language processing systems research agents evidence synthesis citation grounding iterative planning hierarchical retrieval

WebWeaver：通过动态大纲构建网络规模证据以支持开放式深度研究 / WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research

1️⃣ 一句话总结

这篇论文提出了一个名为WebWeaver的双智能体框架，通过模拟人类研究过程，动态规划与证据收集相结合，有效解决了开放式深度研究中信息冗余、引用不准确和幻觉问题，从而生成结构清晰、可信赖的研究报告。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.12541

arXiv 提交日期: 2025-09-16

natural language processing model training data retrieval ranking embedding models unsupervised training information retrieval

zELO：受ELO启发的重排器和嵌入模型训练方法 / zELO: ELO-inspired Training Method for Rerankers and Embedding Models

1️⃣ 一句话总结

这篇论文提出了一种名为zELO的新型训练方法，通过利用无监督数据训练出性能卓越的重排模型，在金融、法律、代码和科学等多个领域的检索任务中超越了现有的闭源模型，并展现出强大的跨领域适应能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.11492

arXiv 提交日期: 2025-09-15

llm natural language processing model evaluation fact verification numerical claims lora fine-tuning evidence retrieval zero-shot prompting

ClaimIQ在CheckThat! 2025：比较基于提示与微调语言模型在验证数值声明中的表现 / ClaimIQ at CheckThat! 2025: Comparing Prompted and Fine-Tuned Language Models for Verifying Numerical Claims

1️⃣ 一句话总结

本研究探索了两种不同的AI方法——直接指令调用和精细参数调优，用于验证数字事实声明，发现精细调优的模型在训练数据上表现良好但泛化能力有限，强调了证据处理方式和模型适应对提升验证准确性的关键作用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.11444

arXiv 提交日期: 2025-09-14

natural language processing systems data sentiment analysis narrative analysis social media analytics llm framework computational social science

CognitiveSky：去中心化社交媒体的可扩展情感与叙事分析框架 / CognitiveSky: Scalable Sentiment and Narrative Analysis for Decentralized Social Media

1️⃣ 一句话总结

这篇论文提出了一个名为CognitiveSky的开源框架，它能够高效分析去中心化社交媒体上的用户情感和话题叙事，并通过可视化工具帮助研究者低成本地追踪公众舆论动态。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.11425

arXiv 提交日期: 2025-09-14

audio model training natural language processing speech tokenization neural codecs cross-modal alignment zero-shot tts representation learning

FuseCodec：面向神经编解码器的语义-上下文融合与监督方法 / FuseCodec: Semantic-Contextual Fusion and Supervision for Neural Codecs

1️⃣ 一句话总结

这篇论文提出了一种名为FuseCodec的新型语音编码方法，通过融合声学、语义和上下文信息并进行多层次的监督学习，显著提升了语音处理的准确度、自然度和说话人相似性，并在零样本语音合成任务中验证了其有效性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.10058

arXiv 提交日期: 2025-09-12

natural language processing multi-modal model training color alignment text-to-image diffusion models text embeddings color spaces

精准着色：连接感知色彩空间与文本嵌入以改进扩散生成 / Color Me Correctly: Bridging Perceptual Color Spaces and Text Embeddings for Improved Diffusion Generation

1️⃣ 一句话总结

这项研究提出了一种无需额外训练的方法，通过大语言模型解析文本中模糊的颜色描述，并在文本嵌入空间结合色彩空间关系进行指导，从而显著提升文本到图像生成模型在复杂颜色渲染上的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.09990

arXiv 提交日期: 2025-09-12

natural language processing data benchmark headline generation minority languages dataset tibetan uyghur mongolian

CMHG：中国少数民族语言标题生成数据集与基准 / CMHG: A Dataset and Benchmark for Headline Generation of Minority Languages in China

1️⃣ 一句话总结

该研究创建了一个专门用于中国少数民族语言（如藏语、维吾尔语和蒙古语）标题生成任务的数据集和评估基准，以解决因文字系统差异导致的数据稀缺问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.09118

arXiv 提交日期: 2025-09-11

computer vision natural language processing multi-modal person retrieval cross-modal alignment contrastive learning attention mechanisms dataset creation

基于梯度注意力引导的双掩码协同框架实现鲁棒的文本行人检索 / Gradient-Attention Guided Dual-Masking Synergetic Framework for Robust Text-based Person Retrieval

1️⃣ 一句话总结

本研究通过构建大规模高质量行人图像文本数据集WebPerson，并提出一种自适应掩码噪声文本并增强细粒度语义学习的协同框架，显著提升了基于文本的行人检索性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.08270

arXiv 提交日期: 2025-09-10

model evaluation natural language processing computer vision physics reasoning vision-language models benchmark spatial reasoning scientific understanding

视觉语言模型的可解释物理推理与性能分类 / Interpretable Physics Reasoning and Performance Taxonomy in Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一个评估视觉语言模型对二维物理原理理解能力的新框架，发现模型规模与推理能力正相关，但在需要抽象空间推理的领域表现较差。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2509.14033

1️⃣ 一句话总结

arXiv ID: 2509.13312

1️⃣ 一句话总结

arXiv ID: 2509.12541

1️⃣ 一句话总结

arXiv ID: 2509.11492

1️⃣ 一句话总结

arXiv ID: 2509.11444

1️⃣ 一句话总结

arXiv ID: 2509.11425

1️⃣ 一句话总结

arXiv ID: 2509.10058

1️⃣ 一句话总结

arXiv ID: 2509.09990

1️⃣ 一句话总结

arXiv ID: 2509.09118

1️⃣ 一句话总结

arXiv ID: 2509.08270

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2509.14033 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.13312 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.12541 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.11492 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.11444 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.11425 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.10058 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.09990 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.09118 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.08270 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2509.14033

arXiv ID: 2509.13312

arXiv ID: 2509.12541

arXiv ID: 2509.11492

arXiv ID: 2509.11444

arXiv ID: 2509.11425

arXiv ID: 2509.10058

arXiv ID: 2509.09990

arXiv ID: 2509.09118

arXiv ID: 2509.08270