arXiv最新AI论文速览速学

🔍

标签: #domain-specific evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 99 最新: Can AI Reason Like an Urban Planner? Benchmarking Large Language Models Against Professional Judgment 06-11

arXiv ID: 2606.11678

arXiv 提交日期: 2026-06-10

llm model evaluation general urban planning benchmark reasoning professional judgment domain-specific evaluation

人工智能能否像城市规划师一样推理？大型语言模型与专业判断的基准测试 / Can AI Reason Like an Urban Planner? Benchmarking Large Language Models Against Professional Judgment

1️⃣ 一句话总结

本研究提出了一个名为UPBench的评估框架，通过四个知识支柱和五个认知层次来测试大型语言模型在城市规划领域的推理能力，结果发现这些模型虽然擅长分析性任务，但在需要具体法规知识、价值判断和复杂情境处理的规划任务上表现不佳，因此建议在实际工作中应根据任务类型有选择地使用AI辅助。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.07868

arXiv 提交日期: 2026-03-09

multi-modal model evaluation natural language processing vision-language models visual question answering domain-specific evaluation informativeness metric hospitality ai

Hospitality-VQA：面向决策的视觉语言模型信息性评估 / Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一个针对酒店和设施图像的视觉问答新框架，通过定义“信息性”来衡量图像和问题对用户决策的帮助程度，并构建了一个专门的评测数据集，发现当前先进的视觉语言模型需要经过特定领域微调才能有效利用关键视觉信息来支持决策。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.06747

arXiv 提交日期: 2026-01-11

llm benchmark financial benchmark generation financial reasoning semi-synthetic data domain-specific evaluation question answering

FinForge：半合成金融基准测试生成 / FinForge: Semi-Synthetic Financial Benchmark Generation

1️⃣ 一句话总结

这篇论文提出了一个名为FinForge的半自动化框架，它通过结合专家知识和AI生成技术，创建了一个高质量、大规模的金融领域测试集，用于更准确地评估语言模型在需要专业知识和严谨计算的金融推理任务上的真实能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.11678

1️⃣ 一句话总结

arXiv ID: 2603.07868

1️⃣ 一句话总结

arXiv ID: 2601.06747

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.11678 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.07868 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.06747 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.11678

arXiv ID: 2603.07868

arXiv ID: 2601.06747