arXiv最新AI论文速览速学

🔍

标签: #dataset ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: ArogyaSutra: A Multi-Agent Framework for Multimodal Medical Reasoning in Indic Languages 06-12

arXiv ID: 2606.13572

arXiv 提交日期: 2026-06-11

medical multi-modal multi-agents multilingual medical reasoning low-resource languages dataset question answering

ArogyaSutra：面向印度语言多模态医学推理的多智能体框架 / ArogyaSutra: A Multi-Agent Framework for Multimodal Medical Reasoning in Indic Languages

1️⃣ 一句话总结

本文提出一个名为ArogyaSutra的多智能体框架，结合大规模多语言医学数据集，解决了当前AI在印度农村等低资源环境下无法有效处理患者用本地语言描述的医疗问题（如结合影像）的困境，从而提升多语言医疗推理的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.10894

arXiv 提交日期: 2026-06-09

computer vision aigc multi-modal portrait generation composition understanding dataset workshop competition controllable synthesis

第一届PortraitCraft挑战赛：CVPR 2026肖像构图理解与生成研讨会竞赛 / The 1st PortraitCraft Challenge: A CVPR 2026 Workshop Competition on Portrait Composition Understanding and Generation

1️⃣ 一句话总结

本文介绍了CVPR 2026举办的肖像构图理解与生成挑战赛，提出了一个包含两个互补赛道（构图理解和有条件生成）的统一评估框架，并发布了约5万张标注肖像数据集，旨在推动肖像美学分析和可控图像合成的AI研究。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.05778

arXiv 提交日期: 2026-06-04

computer vision machine learning aesthetic assessment relative learning image editing dataset generalization

超越绝对评分：基于编辑差异的相对学习实现通用图像美学评估 / Beyond Absolute Scores: Relative Edit-induced Difference for Generalizable Image Aesthetic Assessment

1️⃣ 一句话总结

本文提出一种名为RED-Aes的新方法，通过利用图像编辑工具模拟人类对比审美过程，让模型学习不同编辑操作如何改变图像美感，而非直接预测评分，从而大幅提升模型在多种场景下的泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.05818

arXiv 提交日期: 2026-06-04

llm benchmark machine learning math reasoning evaluation dataset question answering

莱比锡基准测试 / Benchmarks in Leipzig

1️⃣ 一句话总结

本文介绍了一个由49位数学家合作创建的高难度数学问答数据集，包含100个研究级问题，并通过三轮逐步加强的测试（从单次尝试到深度思考模型多次尝试）评估了最先进的大语言模型，结果显示模型能力惊人，最终仅剩2个问题未被解决。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.01686

arXiv 提交日期: 2026-06-01

audio machine learning benchmark music production ai detection dataset ai tracking benchmark

HAIM：面向AI音乐制作追踪基准的人机音乐数据集 / HAIM: Human-AI Music Datasets for AI Music Production Tracking Benchmark

1️⃣ 一句话总结

本文指出现有AI音乐检测仅做“AI生成与否”的简单二分法已不合时宜，因为现实中人类和AI常混合参与创作（如AI生成后由人精修，或人创作后由AI母带处理），为此作者推出HAIM数据集，包含详细的制作阶段标注，旨在建立更精细的AI介入环节追踪基准，并揭示当前顶级检测器在此任务上的系统缺陷。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.27852

arXiv 提交日期: 2026-05-27

machine learning systems multi-modal cloth simulation transformer latent space collision detection dataset

ClothTransformer：面向可扩展布料模拟的统一潜在空间Transformer / ClothTransformer: Unified Latent-Space Transformers for Scalable Cloth Simulation

1️⃣ 一句话总结

本文提出ClothTransformer，利用Transformer模型在压缩后的潜在空间中自回归预测布料运动，首次用一个统一框架处理人体穿着、机器人操作和自由落体等多种场景，既大幅降低模拟误差，又解决了网格分辨率依赖和穿透碰撞等传统难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.28270

arXiv 提交日期: 2026-05-27

computer vision data 9d pose estimation dataset canonicalization everyday objects

Every9D-21M：大规模真实世界日常物体的9D规范化数据集 / Every9D-21M: Large-Scale Real-World 9D Canonicalization of Everyday Objects

1️⃣ 一句话总结

该研究构建了一个包含2180万张真实世界图像、涵盖700种日常物体类别的大规模9D姿态数据集，通过多视角点云重建和跨实例对齐技术，仅人工标注了极少量参考物体，实现了比此前最大数据集规模高出两个数量级的突破，显著提升了物体姿态估计模型的泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.27916

arXiv 提交日期: 2026-05-27

medical multi-modal llm ophthalmology instruction tuning dataset video understanding clinical dialogue

OphIn-500K：从网络规模视觉指令中构建眼科多模态大语言模型 / OphIn-500K: Curating Web-Scale Visual Instructions for Scaling Ophthalmic Multimodal Large Language Models

1️⃣ 一句话总结

本文提出了一种名为OphIn-Engine的自动化流水线，从网络上的眼科手术视频中提取并生成超过50万条高质量训练指令，并基于此构建了眼科专用多模态大模型OphIn-VL，在临床对话和视觉理解任务上显著优于现有通用与专业医疗模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.25500

arXiv 提交日期: 2026-05-25

computer vision video generation multi-modal 4d scene generation single-view video multi-view diffusion dataset 4d reconstruction

全四维：从单视角视频生成完整的四维场景 / Full-4D: Generating Full-Scope 4D Scenes from a Single-View Video

1️⃣ 一句话总结

本文提出一种新方法，能从单个视角的视频中自动生成包含完整时空信息的四维场景，通过先合成多视角视频再重建三维动态模型，解决了现有技术视野受限、数据匮乏的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.22018

arXiv 提交日期: 2026-05-21

autonomous driving machine learning dataset multi-modal water hazard detection semantic labels sensor-fusion

FRED：面向积水道路环境的多模态自动驾驶数据集 / FRED: A Multi-Modal Autonomous Driving Dataset for Flooded Road Environments

1️⃣ 一句话总结

该论文发布了首个专为积水道路场景设计的多模态自动驾驶数据集FRED，包含摄像头、激光雷达和惯性导航数据，并提供语义标签，旨在帮助开发并评估自动驾驶系统在涉水环境中的障碍检测、定位与地图构建能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.13572

1️⃣ 一句话总结

arXiv ID: 2606.10894

1️⃣ 一句话总结

arXiv ID: 2606.05778

1️⃣ 一句话总结

arXiv ID: 2606.05818

1️⃣ 一句话总结

arXiv ID: 2606.01686

1️⃣ 一句话总结

arXiv ID: 2605.27852

1️⃣ 一句话总结

arXiv ID: 2605.28270

1️⃣ 一句话总结

arXiv ID: 2605.27916

1️⃣ 一句话总结

arXiv ID: 2605.25500

1️⃣ 一句话总结

arXiv ID: 2605.22018

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.13572 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.10894 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.05778 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.05818 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.01686 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.27852 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.28270 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.27916 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.25500 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.22018 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.13572

arXiv ID: 2606.10894

arXiv ID: 2606.05778

arXiv ID: 2606.05818

arXiv ID: 2606.01686

arXiv ID: 2605.27852

arXiv ID: 2605.28270

arXiv ID: 2605.27916

arXiv ID: 2605.25500

arXiv ID: 2605.22018