arXiv最新AI论文速览速学

🔍

标签: #natural language processing ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: Unlocking the Value of Text: Event-Driven Reasoning and Multi-Level Alignment for Time Series Forecasting 03-17

arXiv ID: 2509.20186

arXiv 提交日期: 2025-09-24

llm model training natural language processing data augmentation reasoning pre-training thinking trajectories data efficiency

思维增强预训练 / Thinking Augmented Pre-training

1️⃣ 一句话总结

这篇论文提出了一种通过自动生成思维轨迹来增强文本数据的方法，能够将大语言模型预训练的数据效率提升三倍，并在多个推理任务上显著提升模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.18293

arXiv 提交日期: 2025-09-22

llm natural language processing model evaluation hate speech detection antisemitism detection prompt engineering explainable ai in-context learning

评估大型语言模型在检测反犹主义内容中的表现 / Evaluating Large Language Models for Detecting Antisemitism

1️⃣ 一句话总结

这篇论文通过提出一种新的提示方法Guided-CoT，评估了八种开源大语言模型在检测反犹主义内容方面的能力，发现该方法能有效提升模型性能、减少错误拒绝，并揭示了不同模型在解释性和可靠性上的显著差异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.14033

arXiv 提交日期: 2025-09-17

multi-modal model training natural language processing vision-language model multimodal reasoning mixture-of-experts progressive training benchmark evaluation

SAIL-VL2 技术报告 / SAIL-VL2 Technical Report

1️⃣ 一句话总结

SAIL-VL2是一个先进的开放视觉语言基础模型，通过大规模数据优化、渐进式训练和高效架构设计，在图像和视频理解任务中实现了顶尖性能，尤其在复杂推理任务上表现卓越。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.13312

arXiv 提交日期: 2025-09-16

agents natural language processing systems research agents evidence synthesis citation grounding iterative planning hierarchical retrieval

WebWeaver：通过动态大纲构建网络规模证据以支持开放式深度研究 / WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research

1️⃣ 一句话总结

这篇论文提出了一个名为WebWeaver的双智能体框架，通过模拟人类研究过程，动态规划与证据收集相结合，有效解决了开放式深度研究中信息冗余、引用不准确和幻觉问题，从而生成结构清晰、可信赖的研究报告。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.12541

arXiv 提交日期: 2025-09-16

natural language processing model training data retrieval ranking embedding models unsupervised training information retrieval

zELO：受ELO启发的重排器和嵌入模型训练方法 / zELO: ELO-inspired Training Method for Rerankers and Embedding Models

1️⃣ 一句话总结

这篇论文提出了一种名为zELO的新型训练方法，通过利用无监督数据训练出性能卓越的重排模型，在金融、法律、代码和科学等多个领域的检索任务中超越了现有的闭源模型，并展现出强大的跨领域适应能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.11492

arXiv 提交日期: 2025-09-15

llm natural language processing model evaluation fact verification numerical claims lora fine-tuning evidence retrieval zero-shot prompting

ClaimIQ在CheckThat! 2025：比较基于提示与微调语言模型在验证数值声明中的表现 / ClaimIQ at CheckThat! 2025: Comparing Prompted and Fine-Tuned Language Models for Verifying Numerical Claims

1️⃣ 一句话总结

本研究探索了两种不同的AI方法——直接指令调用和精细参数调优，用于验证数字事实声明，发现精细调优的模型在训练数据上表现良好但泛化能力有限，强调了证据处理方式和模型适应对提升验证准确性的关键作用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.11444

arXiv 提交日期: 2025-09-14

natural language processing systems data sentiment analysis narrative analysis social media analytics llm framework computational social science

CognitiveSky：去中心化社交媒体的可扩展情感与叙事分析框架 / CognitiveSky: Scalable Sentiment and Narrative Analysis for Decentralized Social Media

1️⃣ 一句话总结

这篇论文提出了一个名为CognitiveSky的开源框架，它能够高效分析去中心化社交媒体上的用户情感和话题叙事，并通过可视化工具帮助研究者低成本地追踪公众舆论动态。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.11425

arXiv 提交日期: 2025-09-14

audio model training natural language processing speech tokenization neural codecs cross-modal alignment zero-shot tts representation learning

FuseCodec：面向神经编解码器的语义-上下文融合与监督方法 / FuseCodec: Semantic-Contextual Fusion and Supervision for Neural Codecs

1️⃣ 一句话总结

这篇论文提出了一种名为FuseCodec的新型语音编码方法，通过融合声学、语义和上下文信息并进行多层次的监督学习，显著提升了语音处理的准确度、自然度和说话人相似性，并在零样本语音合成任务中验证了其有效性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.10058

arXiv 提交日期: 2025-09-12

natural language processing multi-modal model training color alignment text-to-image diffusion models text embeddings color spaces

精准着色：连接感知色彩空间与文本嵌入以改进扩散生成 / Color Me Correctly: Bridging Perceptual Color Spaces and Text Embeddings for Improved Diffusion Generation

1️⃣ 一句话总结

这项研究提出了一种无需额外训练的方法，通过大语言模型解析文本中模糊的颜色描述，并在文本嵌入空间结合色彩空间关系进行指导，从而显著提升文本到图像生成模型在复杂颜色渲染上的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.09990

arXiv 提交日期: 2025-09-12

natural language processing data benchmark headline generation minority languages dataset tibetan uyghur mongolian

CMHG：中国少数民族语言标题生成数据集与基准 / CMHG: A Dataset and Benchmark for Headline Generation of Minority Languages in China

1️⃣ 一句话总结

该研究创建了一个专门用于中国少数民族语言（如藏语、维吾尔语和蒙古语）标题生成任务的数据集和评估基准，以解决因文字系统差异导致的数据稀缺问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2509.20186

1️⃣ 一句话总结

arXiv ID: 2509.18293

1️⃣ 一句话总结

arXiv ID: 2509.14033

1️⃣ 一句话总结

arXiv ID: 2509.13312

1️⃣ 一句话总结

arXiv ID: 2509.12541

1️⃣ 一句话总结

arXiv ID: 2509.11492

1️⃣ 一句话总结

arXiv ID: 2509.11444

1️⃣ 一句话总结

arXiv ID: 2509.11425

1️⃣ 一句话总结

arXiv ID: 2509.10058

1️⃣ 一句话总结

arXiv ID: 2509.09990

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2509.20186 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.18293 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.14033 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.13312 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.12541 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.11492 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.11444 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.11425 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.10058 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.09990 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2509.20186

arXiv ID: 2509.18293

arXiv ID: 2509.14033

arXiv ID: 2509.13312

arXiv ID: 2509.12541

arXiv ID: 2509.11492

arXiv ID: 2509.11444

arXiv ID: 2509.11425

arXiv ID: 2509.10058

arXiv ID: 2509.09990