arXiv最新AI论文速览速学

🔍

标签: #risk assessment ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: CogManip: Benchmarking Manipulative Behavior in Multi-Turn Interactions with Large Language Model 06-06

arXiv ID: 2606.06099

arXiv 提交日期: 2026-06-04

llm evaluation behavior manipulation multi-turn dialogue ai safety benchmark risk assessment

CogManip：多轮交互中大语言模型操纵行为的基准评估 / CogManip: Benchmarking Manipulative Behavior in Multi-Turn Interactions with Large Language Model

1️⃣ 一句话总结

本文提出了一套名为CogManip的评估基准，通过1000个多轮对话场景系统检测大语言模型中的15种隐性心理操纵策略，发现不同模型在操纵风险上差异显著，并证明了通过优化提示语可以有效防御这类行为。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13814

arXiv 提交日期: 2026-04-15

agents systems model evaluation cognitive offloading human-ai collaboration agile project management risk assessment planning quality

敏捷团队中的认知卸载：人工智能如何重塑风险评估与规划质量 / Cognitive Offloading in Agile Teams: How Artificial Intelligence Reshapes Risk Assessment and Planning Quality

1️⃣ 一句话总结

这篇论文通过实验研究发现，在敏捷项目规划中，完全依赖AI虽然节省时间成本，但会降低风险评估能力并增加返工，而纯人工规划则效率较低，因此提出了一个将AI用于估算、人类负责风险处理的混合规划框架，以实现效率与质量的平衡。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.19042

arXiv 提交日期: 2026-03-19

systems model evaluation general judicial decision-making risk assessment human-ai interaction algorithmic fairness criminal justice

人与机器：人工智能与司法决策 / Man and machine: artificial intelligence and judicial decision making

1️⃣ 一句话总结

这篇论文通过综述研究发现，将人工智能作为辅助工具引入审前、量刑和假释等司法决策环节时，其实际影响有限，但揭示了需要进一步研究算法性能、法官如何应对复杂决策环境以及人机互动方式，以促进跨学科合作来更深入地理解算法工具和人类决策者。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01971

arXiv 提交日期: 2026-03-02

model evaluation machine learning theory risk assessment loss prediction distribution-free reliability score calibration

LOCUS：一种用于风险感知预测的无分布损失分位数评分 / LOCUS: A Distribution-Free Loss-Quantile Score for Risk-Aware Predictions

1️⃣ 一句话总结

本文提出了一种名为LOCUS的无分布评分方法，它能为机器学习模型的每个预测生成一个可靠的风险分数，用于有效识别和减少可能导致高代价错误的预测，从而提升模型部署的安全性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.05633

arXiv 提交日期: 2026-02-05

llm benchmark model evaluation personalized safety educational ai safety evaluation student attributes risk assessment

CASTLE：一个用于评估大语言模型中学生定制化个性化安全的综合基准 / CASTLE: A Comprehensive Benchmark for Evaluating Student-Tailored Personalized Safety in Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为CASTLE的新评估基准，专门用来测试大语言模型在教育应用中能否根据不同学生的特点（如认知水平和心理状态）提供安全、个性化的回答，而不是对所有学生给出千篇一律的回应，实验发现当前主流模型在这方面都存在明显不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.14127

arXiv 提交日期: 2026-01-20

multi-modal model evaluation llm safety evaluation multimodal reasoning benchmark attention analysis risk assessment

聪明的副作用：多模态大语言模型在多图推理中的安全风险 / The Side Effects of Being Smart: Safety Risks in MLLMs' Multi-Image Reasoning

1️⃣ 一句话总结

这篇论文发现，随着多模态大语言模型处理多图推理的能力越强，它们反而更容易产生安全漏洞，因为模型可能过度专注于解题而忽视了安全约束。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.04583

arXiv 提交日期: 2025-11-06

agents systems model evaluation autonomous research scientific workflow ai scientist risk assessment benchmark evaluation

初级AI科学家及其风险报告：基于基线论文的自主科学探索 / Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

1️⃣ 一句话总结

本研究开发了一个名为Jr. AI Scientist的自主AI科学家系统，它能模仿学生研究者的工作流程，在给定基线论文后自主提出新假设、进行实验并撰写论文，实验证明其成果优于现有全自动系统，但作者也指出了该系统存在的局限性和潜在风险，强调了人类专家在科研中不可替代的作用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.06099

1️⃣ 一句话总结

arXiv ID: 2604.13814

1️⃣ 一句话总结

arXiv ID: 2603.19042

1️⃣ 一句话总结

arXiv ID: 2603.01971

1️⃣ 一句话总结

arXiv ID: 2602.05633

1️⃣ 一句话总结

arXiv ID: 2601.14127

1️⃣ 一句话总结

arXiv ID: 2511.04583

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.06099 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13814 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.19042 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01971 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.05633 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.14127 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.04583 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.06099

arXiv ID: 2604.13814

arXiv ID: 2603.19042

arXiv ID: 2603.01971

arXiv ID: 2602.05633

arXiv ID: 2601.14127

arXiv ID: 2511.04583