📚 arXiv最新AI论文速览速学

📄

提交新论文

AI论文阅读

清除筛选

搜索范围：

所有标签

reinforcement learning 65 diffusion models 33 benchmark evaluation 29 mathematical reasoning 24 policy optimization 18 tool usage 18 multi-agent systems 16 efficient inference 15 retrieval-augmented generation 15 chain-of-thought 13 code generation 13 diffusion transformer 13 attention mechanisms 11 automated evaluation 11 knowledge distillation 11 multimodal llm 11 vision-language models 11 evaluation framework 10 instruction tuning 10 synthetic data generation 10 vision-language-action 10 curriculum learning 9 evaluation benchmark 9 image generation 9 multimodal reasoning 9 preference learning 9 robot manipulation 9 text-to-image generation 9 video generation 9 visual reasoning 9 benchmarking 8 efficiency optimization 8 embodied ai 8 mixture-of-experts 8 multimodal evaluation 8 multimodal llms 8 data synthesis 7 preference optimization 7 reasoning models 7 scaling laws 7 self-supervised learning 7 web agents 7 3d generation 6 benchmark 6 domain adaptation 6 gaussian splatting 6 image editing 6 multi-agent collaboration 6 reasoning benchmark 6 reward modeling 6 robot control 6 sparse attention 6 transformer architecture 6 visual language models 6 visual question answering 6 benchmark dataset 5 computational efficiency 5 contrastive learning 5 data generation 5 diffusion language models 5 diffusion transformers 5 flow matching 5 gui agents 5 multi-hop reasoning 5 multi-step reasoning 5 progressive training 5 synthetic data 5 text generation 5 text-to-image 5 3d reconstruction 4 attention mechanism 4 data augmentation 4 data efficiency 4 distributed training 4 explainable ai 4 gui grounding 4 inference acceleration 4 llm evaluation 4 long video generation 4 low-resource languages 4 mixture of experts 4 model scaling 4 multi-agent framework 4 multimodal benchmark 4 multimodal fusion 4 physical reasoning 4 position encoding 4 reasoning 4 reasoning efficiency 4 reward design 4 safety alignment 4 safety evaluation 4 scientific ai 4 supervised fine-tuning 4 text-to-video 4 verifiable rewards 4 video diffusion models 4 visual language model 4 zero-shot generalization 4 zero-shot learning 4 adaptive reasoning 3 adversarial attacks 3 agent evaluation 3 agent framework 3 autonomous driving 3 autoregressive generation 3 catastrophic forgetting 3 character animation 3 chart understanding 3 code execution 3 content moderation 3 continual learning 3 credit assignment 3 data curation 3 discrete diffusion 3 document understanding 3 efficient training 3 efficient transformers 3 hallucination detection 3 high-resolution generation 3 inference optimization 3 information retrieval 3 instruction following 3 language modeling 3 large language models 3 llm-as-judge 3 long context 3 long sequence processing 3 long-context reasoning 3 long-horizon tasks 3 low-rank adaptation 3 medical diagnosis 3 medical imaging 3 memory optimization 3 model alignment 3 model context protocol 3 model quantization 3 motion generation 3 multi-task learning 3 multi-turn reasoning 3 multimodal foundation model 3 out-of-distribution generalization 3 parameter efficiency 3 parameter efficient fine-tuning 3 positional encoding 3 pseudo-labeling 3 quantization 3 real-time inference 3 reasoning evaluation 3 reasoning tasks 3 reflective reasoning 3 reinforcement learning fine-tuning 3 research agents 3 rl training 3 robustness evaluation 3 self-evolving agents 3 self-improvement 3 self-play 3 semantic alignment 3 sparse rewards 3 spatial reasoning 3 state space models 3 synthetic dataset 3 test-time scaling 3 tool integration 3 transformer optimization 3 tree search 3 unified architecture 3 unified framework 3 video question answering 3 video reasoning 3 video understanding 3 virtual try-on 3 vision-language model 3 3d editing 2 3d gaussian splatting 2 3d scene generation 2 4d generation 2 adaptive retrieval 2 adaptive sampling 2 adversarial robustness 2 affective computing 2 agent architecture 2 agent safety 2 agentic reasoning 2 ai safety 2 alignment 2 alignment drift 2 attention masking 2 audio-driven animation 2 audio-language models 2 automated assessment 2 automated reasoning 2 autoregressive model 2 autoregressive models 2 behavior cloning 2 benchmark design 2 benchmark framework 2 browser automation 2 chain-of-thought reasoning 2 clinical evaluation 2 code understanding 2 cognitive modeling 2 context management 2 continuous pretraining 2 controllable generation 2 creative writing 2 data filtering 2 data quality 2 data selection 2 dataset construction 2 dataset creation 2 dexterous manipulation 2 direct preference optimization 2 document retrieval 2 dynamic adaptation 2 dynamic benchmark 2 dynamic environments 2 dynamic routing 2 efficient fine-tuning 2 end-to-end training 2 error analysis 2 error correction 2 error detection 2 evidence-based reasoning 2 exploration bottleneck 2 few-shot learning 2 few-step generation 2 generalization 2 generative models 2 geometric constraints 2 geometric reasoning 2 grpo algorithm 2 gui automation 2 hierarchical retrieval 2 hierarchical rl 2 human mesh recovery 2 image personalization 2 interactive agents 2 iterative optimization 2 iterative refinement 2 knowledge verification 2 kv cache 2 language agents 2 latent diffusion 2 lifelong learning 2 llm integration 2 llm-as-a-judge 2 long video understanding 2 long-context modeling 2 long-context understanding 2 memory architecture 2 memory management 2 memory systems 2 mobile automation 2 model calibration 2 model efficiency 2 model interpretability 2 model merging 2 monocular depth estimation 2 monte carlo tree search 2 multi-modal evaluation 2 multi-modal learning 2 multi-objective optimization 2 multi-view consistency 2 multilingual evaluation 2 multimodal alignment 2 multimodal conditioning 2 multimodal control 2 multimodal diffusion transformer 2 multimodal models 2 multimodal understanding 2 mutual information 2 object detection 2 parallel sampling 2 parallel training 2 parameter-efficient fine-tuning 2 partial observability 2 physical simulation 2 pomdp framework 2 post-training 2 privacy protection 2 process supervision 2 progressive learning 2 prompt engineering 2 prompt injection defense 2 prompt optimization 2 question answering 2 rag 2 reasoning benchmarks 2 reasoning enhancement 2 reasoning optimization 2 representation alignment 2 representation learning 2 reward model 2 rlvr 2 safety guardrails 2 sampling efficiency 2 scene completion 2 search agents 2 security vulnerabilities 2 self-conditioning 2 self-rewarding 2 self-verification 2 semantic segmentation 2 semi-supervised learning 2 sim-to-real 2 sim2real transfer 2 small language models 2 software engineering 2 sparse autoencoders 2 speculative decoding 2 speech synthesis 2 temporal consistency 2 temporal dynamics 2 test-time adaptation 2 text-to-3d 2 text-to-image diffusion 2 theorem proving 2 threat intelligence 2 token compression 2 token selection 2 training efficiency 2 training stability 2 training-free optimization 2 trajectory optimization 2 ui automation 2 uncertainty quantification 2 video editing 2 video quality assessment 2 video relighting 2 video retrieval 2 video synthesis 2 vision transformer 2 vision-language fusion 2 vision-language pre-training 2 voice generation 2 web navigation 2 world models 2 zero-shot performance 2 3d consistency 1 3d content generation 1 3d ct analysis 1 3d face modeling 1 3d generation evaluation 1 3d grounding 1 3d hair modeling 1 3d human generation 1 3d human motion generation 1 3d human reconstruction 1 3d medical data 1 3d mesh generation 1 3d modeling 1 3d object completion 1 3d occupancy grounding 1 3d perception 1 3d point clouds 1 3d point tracking 1 3d pose estimation 1 3d rendering 1 3d rope 1 3d scene reconstruction 1 3d scene representation 1 3d scene synthesis 1 3d vision 1 4d reconstruction 1 4d scenes 1 4k generation 1 6d video representation 1 academic benchmarking 1 academic conferences 1 academic paper processing 1 academic retrieval 1 academic survey generation 1 accessibility tree pruning 1 accountability 1 acoustic-semantic gap 1 action decoding 1 action generation 1 action relabeling 1 action representation 1 actionable augmentation 1 activation differences 1 activation engineering 1 activation function 1 activation steering 1 active learning 1 adaptive computation 1 adaptive conditioning 1 adaptive exploration 1 adaptive inference 1 adaptive normalization 1 adaptive re-masking 1 adaptive routing 1 adaptive strategy 1 adaptive temperature sampling 1 adaptive thinking 1 adaptive training 1 adaptive training strategy 1 advantage estimation 1 adventure games 1 adversarial attack 1 adversarial evaluation 1 adversarial instructions 1 adversarial testing 1 adversarial training 1 advertising video understanding 1 agent alignment 1 agent behavior 1 agent frameworks 1 agent optimization 1 agent organization 1 agent reasoning 1 agent systems 1 agent training 1 agent trajectories 1 agentic capabilities 1 agentic continual pre-training 1 agentic enhancement 1 agentic rl 1 agentic search 1 agentic systems 1 agi evaluation 1 ai companionship 1 ai control protocols 1 ai security 1 ai-human collaboration 1 algorithmic alignment 1 alignment evaluation 1 alignment factor 1 alignment safety 1 alignment tasks 1 alignment-free training 1 ambiguity detection 1 anatomy-aware modeling 1 anime hairstyles 1 anomaly generation 1 answer consistency 1 antisemitism detection 1 approximate nearest neighbor search 1 architecture optimization 1 arena evaluation 1 arithmetic optimization 1 artistic generation 1 asynchronous architecture 1 asynchronous execution 1 asynchronous rl 1 attack strategies 1 attention analysis 1 attention compression 1 attention heads 1 attention optimization 1 attention projection 1 attention refinement 1 attribute preservation 1 attribute transfer 1 attribution generation 1 audio benchmark 1 audio compression 1 audio generation 1 audio language models 1 audio-visual alignment 1 audio-visual dataset 1 audio-visual generation 1 audio-visual interaction 1 audio-visual reasoning 1 audio-visual segmentation 1 audio-visual synchronization 1 audio-visual-text integration 1 auditory attributes 1 authorship attribution 1 automated annotation 1 automated benchmarking 1 automated data synthesis 1 automated design 1 automated grading 1 automated machine learning 1 automated model design 1 automated optimization 1 automated research 1 automated scientific discovery 1 automated strategy development 1 automated testing 1 automated theorem proving 1 automated thinking 1 automated tool generation 1 automated training 1 automatic evaluation 1 automatic rewards 1 automatic webpage generation 1 autonomous data collection 1 autonomous data generation 1 autonomous learning 1 autonomous systems 1 autoregressive decoder 1 autoregressive diffusion 1 autoregressive prediction 1 autoscaling 1 auxiliary training objective 1 avatar animation 1 babylm 1 background replacement 1 battle prediction 1 bavarian dialect 1 bayesian entropy 1 behavior analysis 1 behavioral benchmarking 1 behavioral fingerprinting 1 behavioral intervention 1 belief conflict index 1 benchmark challenge 1 benchmark creation 1 benchmark paraphrasing 1 benchmark suite 1 benchmark survey 1 benchmarking methodology 1 bfs algorithm 1 bias detection 1 bias mitigation 1 binary classification 1 bio-inspired model 1 biological agents 1 biomedical literature 1 biomedical ner 1 biomedical systems 1 black-box evaluation 1 blind low-vision accessibility 1 block expansion 1 bootstrap sampling 1 brain-computer interface 1 brain-inspired architecture 1 brain-inspired memory 1 budget optimization 1 budget-aware inference 1 cad generation 1 calibration 1 camera pose estimation 1 camera trajectory 1 capability benchmarking 1 capability evaluation 1 caption generation 1 carbon footprint 1 cascaded framework 1 cascaded generation 1 case-based reasoning 1 category theory 1 causal distillation 1 causal mask 1 causal modeling 1 cc-hard benchmark 1 chain-of-human-preference 1 chain-of-thought prompting 1 chc theory 1 cheating detection 1 checkpoint reuse 1 chemical reasoning 1 chinese llm 1 chinese nlp 1 citation attribution 1 citation verification 1 classifier-free guidance 1 clinical ai 1 clinical reasoning 1 clinical tasks 1 clustering algorithms 1 co-evolution 1 cochlear tokens 1 code as action 1 code assistance 1 code attribution 1 code completion 1 code embeddings 1 code execution verification 1 code generation security 1 code llm 1 code reasoning 1 code retrieval 1 code stylometry 1 code translation 1 coevolution 1 cognitive architecture 1 cognitive assessment 1 cognitive bias 1 cognitive decline 1 cognitive framework 1 cognitive inertia 1 cognitive reasoning 1 cognitive simulation 1 cognitive understanding 1 coherent video synthesis 1 collaborative training 1 color fidelity 1 communication optimization 1 community-driven annotation 1 community-driven platform 1 competitive programming 1 complementary control 1 complex logic tasks 1 complex reasoning 1 complex scenes 1 complexity scaling 1 complexity theory 1 compositional design 1 compositional reasoning 1 compositional visual reasoning 1 computation budget 1 computational complexity 1 compute scaling 1 computer use agents 1 concept generation 1 concept removal 1 concurrent reasoning 1 conditional steering 1 conditional transformer 1 confidence filtering 1 confidence gap 1 consistency models 1 constraint generation 1 containerized testing framework 1 content richness 1 content verification 1 content-style decoupling 1 context collapse 1 context compression 1 context engineering 1 context evolution 1 context knowledge 1 context length 1 context parallelism 1 context preservation 1 context protocols 1 context summarization 1 context-aware fusion 1 context-aware generation 1 context-aware systems 1 context-free grammar 1 contextual bandits 1 contextual policy optimization 1 continuous reward functions 1 continuous-time dynamics 1 contrastive identity loss 1 control points 1 controllable reasoning 1 controlled generation 1 controlled text generation 1 controlnet 1 conversational ai 1 conversational framework 1 conversational recommendation 1 copy-paste artifacts 1 coset sampling 1 cost analysis 1 cost efficiency 1 cost optimization 1 cost-of-pass metric 1 cost-performance tradeoff 1 counterfactual regret minimization 1 counterintuitive reasoning 1 critic training 1 critic-free rl 1 cross-attention 1 cross-attention heatmaps 1 cross-cultural evaluation 1 cross-domain generalization 1 cross-domain training 1 cross-encoder 1 cross-lingual evaluation 1 cross-lingual generalization 1 cross-modal adapter 1 cross-modal alignment 1 cross-modal fusion 1 cross-modal integration 1 cross-modal reasoning 1 cross-modal representation 1 cross-modal retrieval 1 cross-model generalization 1 cross-platform 1 cross-platform generalization 1 cross-resolution 1 cross-subject adaptation 1 cross-view reconstruction 1 crt construction 1 crystal structures 1 curriculum reinforcement learning 1 cve vulnerability assessment 1 cybersecurity 1 cybersecurity agents 1 dark humor detection 1 data collection 1 data contamination 1 data distribution 1 data flywheel 1 data governance 1 data imbalance 1 data mixing optimization 1 data processing pipeline 1 data provenance 1 data recovery 1 dataset benchmark 1 dataset cleaning 1 dataset quality 1 de-identification 1 debiasing framework 1 decentralization 1 deception benchmark 1 decision dynamics 1 decision tokens 1 decoding acceleration 1 decontextualization 1 decoupled rl 1 deep search agents 1 deep-research agents 1 deformable objects 1 deformation modeling 1 degeneration-aware training 1 dehallucination mechanism 1 delimiter brittleness 1 demonstration conditioning 1 dense geometry estimation 1 dense retrieval 1 depth estimation 1 developer tools 1 dialect robustness 1 dialogue state tracking 1 differentiable counting 1 differentiable rendering 1 differentiable sampling 1 differential privacy 1 difficulty scaling 1 diffusion acceleration 1 diffusion feature extraction 1 digital agents 1 digital signal processing 1 directed acyclic graph 1 disaggregated architecture 1 discrete operational modes 1 discrete token space 1 discrete tokenization 1 discriminative verification 1 dishonest behavior 1 distributed computing 1 distributed evaluation 1 distribution matching 1 distribution rebalancing 1 distribution shift 1 diversity optimization 1 diversity preservation 1 docker containers 1 document conversion 1 document memory 1 document parsing 1 document quality assessment 1 domain specialization 1 domain transfer 1 domain-specific evaluation 1 domain-specific llm 1 downstream performance 1 dpo 1 dpo optimization 1 dpo training 1 draw semantics 1 drug discovery 1 drug toxicity prediction 1 dual learning 1 dual-system framework 1 dual-use knowledge 1 dynamic 3d content 1 dynamic advantage function 1 dynamic assembly 1 dynamic benchmarking 1 dynamic component optimization 1 dynamic computation allocation 1 dynamic computation efficiency 1 dynamic data selection 1 dynamic dataset 1 dynamic decoding 1 dynamic defense 1 dynamic difficulty adjustment 1 dynamic evaluation 1 dynamic fine-tuning 1 dynamic knowledge graphs 1 dynamic memory 1 dynamic part segmentation 1 dynamic pruning 1 dynamic reasoning 1 dynamic reinforcement learning 1 dynamic resource allocation 1 dynamic reward 1 dynamic reward mechanisms 1 dynamic sampling 1 dynamic scenes 1 dynamic source selection 1 dynamic time warping 1 dynamic tokenizer 1 dynamic tool discovery 1 dynamic training 1 dynamic validation 1 dynamic verification 1 dynamic visual reasoning 1 e-commerce benchmark 1 early decoding 1 early exiting 1 early termination 1 echo training 1 economic systems 1 edge deployment 1 efficiency 1 efficiency benchmarks 1 efficiency metrics 1 efficiency-performance tradeoff 1 efficient architecture 1 ego-motion learning 1 electronic health records 1 embedded deployment 1 embedding model 1 embedding models 1 embedding refinement 1 embodied navigation 1 embodied reasoning 1 emergent behavior 1 emergent misalignment 1 emotional reasoning 1 emotional variation 1 end-to-end framework 1 end-to-end generation 1 energy-based models 1 enterprise systems 1 entity embedding 1 entity masking 1 entity tracking 1 entropy balancing 1 entropy collapse 1 entropy modulation 1 entropy optimization 1 entropy regularization 1 environment interaction 1 environment tuning 1 error classification 1 evaluation benchmarks 1 evaluation metrics 1 evaluation paradigm 1 evidence bounds 1 executable environment 1 execution evaluation 1 execution safety 1 experience generation 1 experience knowledge base 1 experimental platform 1 expert annotation 1 expert behavior 1 expert iteration 1 expert stitching 1 expert validation 1 expert-amateur model 1 exploration 1 exploration behavior 1 exploration efficiency 1 exploration enhancement 1 exploration-exploitation tradeoff 1 external memory 1 external memory management 1 external modules 1 f-divergence 1 face animation 1 facial expression analysis 1 factor-model optimization 1 factual alignment 1 factual consistency 1 failure modes 1 fairness evaluation 1 fairness in ai 1 faithful generation 1 false-premise detection 1 fashion ai 1 feature aggregation 1 feature disentanglement 1 feature engineering 1 feature extraction 1 feature fusion 1 feature suppression 1 feature upsampling 1 feed-forward model 1 few-step inference 1 film editing 1 financial auditing 1 financial decision making 1 financial domain 1 financial reasoning 1 fine-grained classification 1 fine-grained detection 1 fine-grained learning 1 fine-grained localization 1 fine-tuning analysis 1 fisher information matrix 1 fixed corpus evaluation 1 flow distillation 1 flow environment 1 flow models 1 flow-matching 1 fmri reconstruction 1 formal verification 1 foundation model 1 frequency-aware pruning 1 frontend development 1 function equivalence 1 game theory 1 gan 1 garment fidelity 1 generalization analysis 1 generation chain-of-thought 1 generative ai 1 generative architecture 1 generative classification 1 generative critique 1 generative embedding 1 generative evaluation 1 generator-validator gap 1 generator-verifier framework 1 genetic algorithms 1 geo-visual agents 1 geographic information systems 1 geometric deep learning 1 geometric supervision 1 geometry processing 1 geometry reasoning 1 geometry supervision 1 german nlp 1 global reasoning 1 gnn 1 goal tracking 1 gpu acceleration 1 gpu optimization 1 gradient bias correction 1 gradient matching 1 gradient preservation 1 gradient redistribution 1 gradient stabilization 1 gradient variance reduction 1 gradient-based evaluation 1 graph optimization 1 graph transformers 1 graph understanding 1 grapheme-to-phoneme 1 greedy objectives 1 grounding tasks 1 group influence metric 1 grpo 1 gui foundation model 1 gui interaction 1 gumbel distribution 1 hair generation 1 hallucination reduction 1 hardware acceleration 1 hardware optimization 1 harm rejection 1 headline generation 1 hessian approximation 1 heterogeneous computing 1 heuristic learning 1 hierarchical architecture 1 hierarchical assessment 1 hierarchical constraint satisfaction 1 hierarchical construction 1 hierarchical control 1 hierarchical image generation 1 hierarchical indexing 1 hierarchical prompting 1 hierarchical protocols 1 hierarchical reinforcement learning 1 hierarchical rules 1 hierarchical tree 1 high-frequency trading 1 high-resolution image understanding 1 high-resolution training 1 high-resolution video 1 high-risk scenarios 1 hiring assessments 1 human alignment 1 human evaluation 1 human interaction animation 1 human motion generation 1 human preference assessment 1 human reasoning styles 1 human-ai collaboration 1 human-ai interaction 1 human-centered interaction 1 human-centric video 1 human-computer interaction 1 human-robot interaction 1 human-to-robot learning 1 humanoid robot control 1 humanoid robot teleoperation 1 hybrid agents 1 hybrid ensemble 1 hybrid environment 1 hybrid framework 1 hybrid representation 1 identifiability theory 1 identity-consistent generation 1 image inpainting 1 image quality assessment 1 image refinement 1 image relighting 1 image segmentation 1 image synthesis 1 image-text retrieval 1 imitation learning 1 imperfect information games 1 implicit actor-critic 1 implicit reasoning 1 implicit regularization 1 implicit rewards 1 implicit world modeling 1 in-context learning 1 in-tool learning 1 inconsistency resolution 1 incremental compilation 1 industrial inspection 1 industrial migration 1 inference efficiency 1 inference enhancement 1 inference paradigm 1 inference-time optimization 1 infinite world generation 1 influence functions 1 information fidelity 1 information flow 1 information gain 1 information gathering 1 information quantification 1 information seeking 1 inherent preference 1 inpainting guidance 1 input reformulation 1 input scrutiny 1 instruction augmentation 1 instruction reasoning 1 instruction routing 1 instruction-guided image editing 1 instruction-guided video editing 1 instrument reading 1 intelligence measurement 1 intent recognition 1 interactive ai 1 interactive design 1 interactive environment 1 interactive generation 1 interactive recommendation 1 interactive rewards 1 interactive tasks 1 interactive video generation 1 interleaved generation 1 intermediate representations 1 intermediate tasks 1 intermediate visual representation 1 internal activations 1 internal mechanisms 1 interpretability 1 interpretable ai 1 interpretable reasoning 1 interpretation quality assessment 1 interruption robustness 1 intuitive physics 1 inverse projection 1 ip-adapter 1 iterative reasoning 1 iupac naming 1 jailbreak defense 1 jailbreak detection 1 javascript code 1 joint denoising 1 junk text exposure 1 kinematic segmentation 1 knn correlation 1 knowledge alignment 1 knowledge disentanglement 1 knowledge editing 1 knowledge extraction 1 knowledge graph extraction 1 knowledge graphs 1 knowledge reasoning 1 knowledge refinement 1 knowledge representation 1 knowledge retrieval 1 knowledge synthesis 1 knowledge-driven agents 1 knowledge-intensive tasks 1 kv cache compression 1 kv cache optimization 1 kv cache pruning 1 language comprehension 1 language model 1 language model development 1 language model hallucination 1 language model safety 1 language variation 1 language-vision mapping 1 large language model 1 large-scale generation 1 last-token pooling 1 last-token reward 1 latency optimization 1 latent optimization 1 latent space 1 latent space reasoning 1 latent variable models 1 layer selective optimization 1 layer skipping 1 layer-based control 1 layout analysis 1 layout optimization 1 layout understanding 1 layout-as-thought 1 learnable prompts 1 legal information retrieval 1 length generalization 1 length-aware training 1 lightweight transformer 1 likelihood preference 1 linear attention 1 linear complexity 1 linear representations 1 linguistic bias 1 lip synchronization 1 list reranking 1 listnet loss 1 listwise ranking 1 llm agents 1 llm as judges 1 llm benchmarking 1 llm constraints 1 llm fine-tuning 1 llm for science 1 llm optimization 1 llm routing 1 llm serving 1 llm training data 1 llm-driven agents 1 llm-driven extraction 1 load balancing 1 local deepfakes 1 local deployment 1 local search optimization 1 logical fallacy detection 1 long context attention 1 long context modeling 1 long context processing 1 long sequence modeling 1 long video synthesis 1 long-chain reasoning 1 long-context 1 long-context evaluation 1 long-context inference 1 long-context processing 1 long-form qa 1 long-horizon execution 1 long-horizon navigation 1 long-horizon reasoning 1 long-tailed learning 1 long-term planning 1 lora fine-tuning 1 louvain detection 1 low-bit inference 1 low-bit precision 1 low-bitrate compression 1 low-probability regularization 1 low-resource language 1 low-resource speech 1 machine translation 1 machine translation evaluation 1 machine unlearning 1 macro-level reasoning 1 malicious content filtering 1 malicious input detection 1 markerless motion capture 1 market simulation 1 masked autoencoder 1 material field 1 material science 1 materials science 1 math reasoning 1 mathematical problem solving 1 matrix factorization 1 mcmc 1 measurement theory 1 medical ai 1 medical ai benchmark 1 medical image classification 1 medical image retrieval 1 medical image segmentation 1 medical llm 1 medical retrieval 1 medical risk prediction 1 memory enhancement 1 memory mechanisms 1 memory safety 1 memory-augmented agents 1 mesh generation 1 mesh refinement 1 meta-cognition 1 meta-imitation learning 1 meta-reasoning 1 meta-reinforcement learning 1 metacognitive reasoning 1 metaphysical shift 1 misinformation resistance 1 mitre att&ck 1 mixture-of-rewards 1 ml research automation 1 mllm 1 mllm evaluation 1 mllms 1 mobile manipulation 1 modality conflict 1 modality trust 1 model abstraction 1 model clustering 1 model compression 1 model deployment 1 model diagnostics 1 model editing 1 model evaluation 1 model evolution 1 model fingerprinting 1 model fusion 1 model internals 1 model optimization 1 model pruning 1 model representation 1 model robustness 1 model safety 1 model stitching 1 model training 1 modular framework 1 module communities 1 moe alternative 1 molecular design 1 molecular representation 1 monocular 3d reconstruction 1 monocular vision 1 motion capture 1 motion control 1 motion dataset 1 motion decomposition 1 motion imitation 1 multi-agent architecture 1 multi-agent evaluation 1 multi-agent games 1 multi-agent reasoning 1 multi-agent reinforcement learning 1 multi-agent rl 1 multi-agent search 1 multi-agent system 1 multi-answer generation 1 multi-armed bandit 1 multi-asset synthesis 1 multi-component planning 1 multi-dimensional analysis 1 multi-document reasoning 1 multi-file reasoning 1 multi-hop qa 1 multi-human interaction 1 multi-identity datasets 1 multi-knowledge retrieval 1 multi-modal agents 1 multi-modal assessment 1 multi-modal llm 1 multi-modal perception 1 multi-modal reasoning 1 multi-modal security 1 multi-modal unification 1 multi-model adaptation 1 multi-omics integration 1 multi-path reasoning 1 multi-person synthesis 1 multi-policy fusion 1 multi-scale token aggregation 1 multi-scale upsampling 1 multi-server systems 1 multi-shot narratives 1 multi-speaker 1 multi-stage reasoning 1 multi-stage tasks 1 multi-stage training 1 multi-step inference 1 multi-step refinement 1 multi-step tasks 1 multi-subject generation 1 multi-supervision learning 1 multi-task evaluation 1 multi-task training 1 multi-teacher learning 1 multi-token prediction 1 multi-tool optimization 1 multi-turn agents 1 multi-turn reinforcement learning 1 multi-turn tool use 1 multi-view fusion 1 multidimensional modeling 1 multidisciplinary benchmark 1 multilingual asr 1 multilingual benchmark 1 multilingual commonsense reasoning 1 multilingual corpus 1 multilingual dataset 1 multilingual language model 1 multilingual llm 1 multilingual nlp 1 multilingual ocr 1 multilingual retrieval 1 multilingual safety 1 multimodal agents 1 multimodal conditional generation 1 multimodal data 1 multimodal data fusion 1 multimodal dataset 1 multimodal datasets 1 multimodal embedding 1 multimodal encoding 1 multimodal feedback 1 multimodal generation 1 multimodal imagination 1 multimodal instruction 1 multimodal interaction 1 multimodal learning 1 multimodal llm evaluation 1 multimodal pretraining 1 multimodal retrieval-augmented generation 1 multimodal safety 1 multimodal training 1 multimodal training curriculum 1 multimodal video framework 1 music restoration 1 music theory 1 named entity retrieval 1 narrative analysis 1 narrative audio generation 1 narrative structure 1 native 3d generation 1 native-resolution vision 1 natural language control 1 natural language explanations 1 network analysis 1 neural audio modeling 1 neural compression 1 neural degeneration 1 neural dynamics 1 neural rendering 1 neural scaling 1 neural simulation 1 neuroscience-inspired ai 1 newton-raphson 1 nlp evaluation 1 no-pair training 1 noise correlation mitigation 1 noise filtering 1 noise inversion 1 noise robustness 1 noise scheduling 1 non-autoregressive generation 1 nonsense understanding 1 numeracy enhancement 1 numerical methods 1 numerical reasoning 1 object hallucination 1 object recall 1 object removal 1 observation-action gap 1 occlusion handling 1 ocr-free extraction 1 ode sampling 1 off-policy estimation 1 off-policy fine-tuning 1 offline rl 1 olympiad problems 1 online adaptation 1 online fine-tuning 1 online tracking 1 ood detection 1 open framework 1 open licensing 1 open-domain qa 1 open-domain tasks 1 optimizer design 1 out-of-distribution 1 over-refusal reduction 1 panoramic generation 1 panoramic image generation 1 paper retrieval 1 paper search agent 1 paper-to-agent 1 paralinguistic tasks 1 parallel computing 1 parallel decoding 1 parallel distillation 1 parallel generation 1 parallel reasoning 1 parameter efficient adaptation 1 parameter expansion 1 parameter fusion 1 parameter knowledge 1 parameter merging 1 parameter optimization 1 parameter-efficient methods 1 parameter-efficient rl 1 parametric model 1 parametric modeling 1 parametric models 1 part decomposition 1 part-aware synthesis 1 partial forgery 1 pass@k 1 pass@k optimization 1 pass@k training 1 passage ranking 1 patch discriminators 1 path following 1 pathology diagnosis 1 patient simulator 1 peer evaluation 1 perceptual optimization 1 performance enhancement 1 performance gap 1 performance metrics 1 performance saturation 1 perlin noise 1 personality analysis 1 personalization bias 1 personalized image synthesis 1 personalized safety alignment 1 perspective taking 1 persuasive dialogues 1 perturbation prediction 1 phase-aware rewards 1 phoneme recognition 1 physical ai 1 physical constraints 1 physical feedback 1 physical property prediction 1 physical realism 1 physical rendering 1 physics grounding 1 pii redaction 1 pixel space reasoning 1 pixel-level perception 1 planner-executor framework 1 planning evaluation 1 plausibility assessment 1 player identification 1 point cloud autoencoder 1 point cloud completion 1 point cloud generation 1 policy composition 1 policy gradient 1 policy gradient optimization 1 policy gradients 1 policy learning 1 portrait animation 1 pose estimation 1 pose priors 1 pose retargeting 1 post-training quantization 1 potential space 1 power distribution 1 ppo 1 ppo optimization 1 pre-execution safety 1 pre-training 1 pre-training efficiency 1 pre-training optimization 1 preference aggregation 1 preference alignment 1 preference decomposition 1 preference elicitation 1 preference hijacking 1 preference modeling 1 primitive-mesh decomposition 1 privacy awareness 1 privacy benchmark 1 privacy-preserving ml 1 proactive ai 1 probabilistic framework 1 probability density distillation 1 probing methods 1 problem generation 1 procedural content generation 1 procedural knowledge 1 process annotation 1 process reasoning reward 1 process reward model 1 process reward modeling 1 process reward models 1 production systems 1 programming assistants 1 programming language 1 programming languages 1 programming reasoning 1 progress reward 1 progressive mesh generation 1 prompt injection 1 prompt sensitivity 1 proof evaluation 1 property prediction 1 pseudo-annotation dataset 1 pseudo-thompson sampling 1 psychological computing 1 psychological safety 1 pure reinforcement learning 1 python interpreter 1 qa data synthesis 1 qa decomposition 1 qft 1 quadrotor control 1 quality-diversity tradeoff 1 quantitative analysis 1 quantitative finance 1 quantum algorithms 1 query analysis 1 query rewriting 1 query routing 1 quiz-based evaluation 1 radiology reports 1 rag framework 1 rag limitations 1 rag systems 1 rank-2 projection 1 ranking optimization 1 rare disease 1 rating systems 1 real-time systems 1 real-time video generation 1 real-world data 1 reasoning agents 1 reasoning analysis 1 reasoning capabilities 1 reasoning chains 1 reasoning dataset 1 reasoning decomposition 1 reasoning diversity 1 reasoning framework 1 reasoning leakage 1 reasoning modes 1 reasoning queries 1 reasoning skill taxonomy 1 reasoning sparks 1 reasoning styles 1 reasoning synthesis 1 reasoning-driven 1 reasoning-intensive domains 1 reasoning-intensive tasks 1 rebus puzzles 1 rectified flow matching 1 recursive transformers 1 redundancy reduction 1 reference image injection 1 reference-based inpainting 1 refinement framework 1 reflection behavior 1 reflective agents 1 refusal tuning 1 region growth 1 rehearsal framework 1 reinforce algorithm 1 reinforce++ 1 reinforcement fine-tuning 1 reinforcement learning alignment 1 reinforcement learning optimization 1 reinforcement mid-training 1 relighting 1 replay learning 1 report quality 1 repository-level evaluation 1 repository-level pretraining 1 representation autoencoder 1 representation bias 1 representation space 1 representation steering 1 research synthesis 1 research systems 1 residual learning 1 residual policy 1 resilient ai 1 resolution-agnostic 1 resource optimization 1 responsible ai 1 retrieval augmentation 1 retrieval benchmarks 1 retrieval models 1 retrieval optimization 1 retrieval systems 1 retrieval-augmented simulation 1 retrieval-augmented verification 1 reverse-engineered reasoning 1 reward conditioning 1 reward fine-tuning 1 reward function 1 reward hacking 1 reward optimization 1 reward shaping 1 reward variance 1 reward-guided decoding 1 rhetorical analysis 1 risk assessment 1 risk detection 1 risk management 1 risk mitigation 1 rl fine-tuning 1 rl for reasoning 1 rl optimization 1 rlhf 1 robot interaction 1 robot policy learning 1 robotic reasoning 1 robotics interaction 1 robust evaluation 1 robustness 1 rope fine-tuning 1 rpa scripts 1 rubric-scaffolded rl 1 safe agi 1 safe alignment 1 safety benchmark 1 safety constraints 1 safety filtering 1 safety preservation 1 sample filtering 1 sample selection 1 sampling methods 1 scale-aligned reference 1 scene composition 1 scienceboard benchmark 1 scientific analysis 1 scientific discovery 1 scientific literature extraction 1 scientific publishing 1 scientific reasoning 1 scientific research 1 score distillation 1 search capabilities 1 search intelligence 1 security vulnerability 1 selective refusal 1 self-alignment 1 self-consistency 1 self-consistency voting 1 self-correction 1 self-critique 1 self-evolving data 1 self-evolving reasoning 1 self-improving language models 1 self-improving models 1 self-reflection 1 self-reflective ai 1 self-rewarding models 1 self-supervised pre-training 1 semantic advantage 1 semantic classifier 1 semantic coherence 1 semantic consistency 1 semantic control 1 semantic correctness 1 semantic disambiguation 1 semantic divergence 1 semantic equivalence 1 semantic evaluation 1 semantic features 1 semantic fragility 1 semantic matching 1 semantic measurement 1 semantic preserving rewrite 1 semantic prompts 1 semantic reasoning 1 semantic stability 1 semantic tree 1 semi-structured data 1 sentiment analysis 1 sequence analysis 1 sequence-to-sequence 1 sequential action framework 1 sequential editing 1 service framework 1 shap analysis 1 shapley value 1 side effect handling 1 sim2real 1 simulation assets 1 simultaneous speech translation 1 single image reconstruction 1 single-cell biology 1 single-cell omics 1 single-image 3d 1 single-stage training 1 skeleton-shape disentanglement 1 sketch-based generation 1 skill targeting 1 skill-based finetuning 1 slam 1 slowfast encoding 1 smartphone agents 1 social behavior understanding 1 social bias 1 social deduction games 1 social intelligence 1 social media analysis 1 social reasoning 1 socioeconomic inference 1 soft q-learning 1 software development automation 1 software issue localization 1 solution filtering 1 source-free learning 1 span-level annotation 1 sparse action enhancement 1 sparse activation 1 sparse computation 1 sparse models 1 sparse networks 1 sparse random projection 1 sparse reward 1 sparse view reconstruction 1 sparsification 1 spatial encoding 1 spatial generalization 1 spatial intelligence 1 spatial perception 1 spatial transformer 1 spatial understanding 1 spatio-temporal evidence 1 spatio-temporal understanding 1 specialized llm 1 spectral analysis 1 speech emotion recognition 1 speech foundation model 1 speech generation 1 speech llm 1 speech representation learning 1 speech tokenization 1 speech-language model 1 stage-wise optimization 1 stance dynamics 1 state preparation 1 state transition 1 static sparsity 1 statistical learning theory 1 step accuracy 1 step verification 1 stepwise reasoning 1 stochastic sub-networks 1 strategic planning 1 streaming detection 1 streaming efficiency 1 streaming inference 1 structure preservation 1 structured curriculum 1 structured data 1 structured data analysis 1 structured data extraction 1 structured evaluation 1 structured knowledge system 1 structured task design 1 structured text evaluation 1 structured visual representation 1 style formalization 1 style professionalism 1 style transfer 1 stylized rendering 1 subject-driven generation 1 subtask verification 1 super-resolution 1 supervised learning 1 supervised rl 1 surface defect detection 1 surface normal estimation 1 surgical video generation 1 surprisal metric 1 survey 1 sustainability 1 sustainable ai 1 svg generation 1 sycophancy detection 1 symbolic music reasoning 1 synthetic media 1 system 1 system 2 1 system 2 thinking 1 system documentation 1 system identification 1 system-algorithm co-design 1 systematic generalization 1 table question answering 1 talking head generation 1 tamper-resistance 1 task adaptation 1 task alignment 1 task decomposition 1 task generation 1 task performance 1 task planning 1 temperature prediction 1 template optimization 1 temporal decoupling 1 temporal grounding 1 temporal reasoning 1 temporal synchronization 1 tensor parallelism 1 test mutation 1 test-time optimization 1 test-time search 1 text augmentation 1 text compression 1 text embeddings 1 text encoder optimization 1 text preprocessing 1 text-aware modeling 1 text-based person re-id 1 text-controlled audio 1 text-driven generation 1 text-guided image editing 1 text-image fusion 1 text-to-image evaluation 1 text-to-motion 1 text-to-video editing 1 textual action representation 1 theoretical analysis 1 thinking trajectories 1 thought communication 1 thought process generation 1 thought skipping 1 thought templates 1 three-stage training 1 thurstone model 1 token budget 1 token order prediction 1 token pruning 1 token sparsification 1 token-level diffusion 1 tokenization drift 1 tokenizer optimization 1 tool abstraction 1 tool calling 1 tool coordination 1 tool learning 1 tool misuse 1 tool orchestration 1 tool usage strategy 1 tool-augmented agents 1 tool-augmented verification 1 tool-integrated reasoning 1 tool-integrated training 1 tool-use agents 1 toolkit 1 top-p sampling 1 topological patterns 1 topology optimization 1 training architecture 1 training data generation 1 training data synthesis 1 training paradigm 1 training-free 1 training-free extrapolation 1 trajectory alignment 1 trajectory attention 1 trajectory conditioning 1 trajectory consistency 1 trajectory evaluation 1 trajectory filtering 1 trajectory generation 1 transformer 1 transformer acceleration 1 transformer compression 1 transformer design 1 transformer evaluation 1 transformer mechanisms 1 transformer modeling 1 transparency framework 1 triplane diffusion 1 trust evaluation 1 trusted monitoring 1 truth encoding 1 two-stage training 1 ui agents 1 ui interaction 1 ui simulation 1 uncertain reasoning 1 uncertainty estimation 1 uncertainty handling 1 uncertainty modeling 1 uncertainty-aware ranking 1 understanding-generation alignment 1 unified generation model 1 unified training framework 1 unsolved questions 1 unsupervised adaptation 1 unsupervised depth estimation 1 unsupervised domain adaptation 1 unsupervised learning 1 unsupervised segmentation 1 unsupervised training 1 urban computing 1 user embedding 1 user interface 1 user memory 1 user-centric evaluation 1 validation mechanism 1 value alignment 1 value drift 1 value estimation 1 value-sensitive termination 1 variance-aware sampling 1 variational problem synthesis 1 vector graphics 1 velocity deviation 1 velocity matching 1 vertex splitting 1 video alignment 1 video captioning 1 video dataset 1 video diffusion 1 video editing benchmark 1 video emotion understanding 1 video generation benchmark 1 video generation priors 1 video inpainting 1 video large language models 1 video manipulation detection 1 video models 1 video object segmentation 1 video processing 1 video quality metrics 1 video segmentation 1 video state prediction 1 video super-resolution 1 video temporal reasoning 1 video-as-prompt 1 video-based world models 1 video-language model 1 video-language models 1 video-to-4d 1 view consistency 1 viewpoint learning 1 viewpoint planning 1 virtual cell modeling 1 virtual social agents 1 virtual world generation 1 vision foundation models 1 vision transformers 1 vision-based control 1 vision-grounded rl 1 vision-language alignment 1 visual action prompts 1 visual agent 1 visual autoregressive modeling 1 visual chain of thought 1 visual chain-of-thought 1 visual data synthesis 1 visual encoding 1 visual evaluation 1 visual game generation 1 visual generation 1 visual hallucination reduction 1 visual hallucination suppression 1 visual interaction 1 visual localization 1 visual models 1 visual navigation 1 visual noise suppression 1 visual odometry 1 visual perception 1 visual problem solving 1 visual programmability 1 visual quality enhancement 1 visual quality metrics 1 visual representation 1 visual representations 1 visual resolution routing 1 visual spatial reasoning 1 visual structure 1 visual token masking 1 visual tokenization 1 visual tool use 1 visual uncertainty 1 visual-language understanding 1 visual-language-action 1 visual-symbolic reasoning 1 visual-text retrieval 1 visualization system 1 vlm assessment 1 vlm automation 1 vlm feedback 1 voice style adaptation 1 von neumann architecture 1 voxel perception 1 vq-vae 1 vqa benchmark 1 web design to code 1 web interaction 1 world foundation models 1 world model 1 world modeling 1 xbrl 1 zero-shot adaptation 1 zero-shot evaluation 1 zero-shot generation 1 zero-shot reasoning 1 zero-shot reranking 1 zero-shot tools 1 zero-shot tts 1

📄

2511.00405

🤖 系统

11-06 15:42

multimodal embedding generative embedding reasoning-driven reinforcement learning benchmark evaluation

📄 论文总结

UME-R1：推理驱动的生成式多模态嵌入框架 / UME-R1: A Reasoning-Driven Generative Multimodal Embedding Framework

1️⃣ 一句话总结

UME-R1是一个创新的多模态嵌入框架，首次将判别式和生成式嵌入统一在推理驱动的范式下，通过两阶段训练策略使模型能够按需生成两种类型的嵌入，在多项基准测试中展现出显著性能优势。

2️⃣ 论文创新点

1. 生成式多模态嵌入范式

创新点：提出UME-R1框架，首次探索将多模态嵌入任务统一在生成式范式下，使模型能够按需生成判别式或生成式嵌入
区别/改进：通过两阶段训练（冷启动监督微调和强化学习）赋予模型推理能力并优化生成式嵌入质量，克服了现有判别式嵌入模型的局限性
意义：解锁了MLLM强大生成推理能力在多模态嵌入任务中的应用潜力，为更可解释、推理驱动的生成式多模态嵌入奠定了基础

2. 两阶段训练策略

创新点：采用冷启动监督微调（SFT）和后续强化学习（RL）的两阶段策略来训练UME-R1模型
区别/改进：冷启动SFT通过增强的查询-目标对（含中间推理和摘要）和对比损失、自回归损失，赋予模型推理能力并使其能生成两种嵌入；RL则进一步强化推理并优化生成式嵌入质量
意义：提供了一种可扩展的优化范式，有效提升了生成式嵌入的性能和模型的推理能力

3. 基于规则的强化学习奖励策略

创新点：在嵌入任务中应用基于规则的强化学习，构建包含CoT标注的多模态嵌入冷启动SFT数据集
区别/改进：解决了零策略梯度问题，使生成式嵌入模型也能从RLVR中受益
意义：首次成功将基于规则的RL应用于多模态嵌入任务

4. 联合奖励设计

创新点：在RL阶段同时使用排序奖励和相似度差异奖励
区别/改进：排序奖励提供与下游任务对齐的监督，相似度差异奖励在简单样本上提供额外指导
意义：有效解决了排序奖励在简单样本上容易饱和的问题，提升了模型学习效果

3️⃣ 主要结果与价值

结果亮点

在MMEB-V2基准测试中总体性能优于VLM2Vec-V2和DUME等模型，同时使用了更少的训练数据
在图像和视频任务上表现最佳，在视觉文档任务上提升显著
RL阶段即使使用小数据集训练也能显著提升模型性能
生成式嵌入的引入不仅提升了自身性能，还意外改善了判别式嵌入的表现
通过重复采样验证了生成式嵌入具备推理时扩展能力，能通过增加计算资源提升性能

实际价值

为数据有限的任务提供了更丰富的监督信号
支持按需生成判别式或生成式嵌入，适应不同应用场景
证明了自生成推理比使用更强外部模型的方法更能产生高质量的嵌入表示
降低了视觉语言模型泛化能力提升的成本门槛

4️⃣ 术语表

UME-R1：一个通用的多模态嵌入框架，旨在探索推理驱动的生成式多模态嵌入，支持按需生成判别式或生成式嵌入
生成式嵌入：通过生成过程（如产生推理路径和摘要）得到的嵌入表示，与直接从输入编码的判别式嵌入相对，能利用MLLM的生成推理能力
MMEB-V2：一个扩展的多模态评估基准，包含9个元任务和78个任务，覆盖图像、视频和视觉文档
GRPO：Group Relative Policy Optimization，一种强化学习方法，使用组内奖励均值和标准差计算优势，优化策略模型
嵌入奖励：评估生成嵌入质量的奖励组件，基于正负样本的排序和相似度差距离计算
pass@k：评估指标，如果k个采样输出中任何一个正确则认为问题解决，反映模型通过多次尝试检索正确结果的能力

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF