arXiv ID:
2512.23646
OmniAgent:用于全模态音视频理解的音频引导主动感知智能体 / OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding
1️⃣ 一句话总结
这篇论文提出了一个名为OmniAgent的智能体,它能够主动利用音频线索来动态调用工具,从而更精细地理解和分析音视频内容,在多个基准测试中取得了领先的性能。