arXiv最新AI论文速览速学

✨ 关于 🐙 GitHub

🔍

multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

reinforcement learning 181 diffusion models 122 benchmark 115 vision-language models 91 reasoning 73 policy optimization 55 image generation 51 vision-language-action 49 chain-of-thought 48 benchmark evaluation 46 mathematical reasoning 45 text-to-image 45 visual reasoning 45 evaluation framework 41 multimodal reasoning 41 embodied ai 40 efficient inference 36 synthetic data 35 evaluation benchmark 34 vision-language model 33 knowledge distillation 32 retrieval-augmented generation 32 mixture-of-experts 30 image editing 29 multimodal llm 29 spatial reasoning 29 code generation 28 fine-tuning 28 multimodal llms 27 dataset 26 video understanding 26 video generation 24 3d reconstruction 23 domain adaptation 23 evaluation 23 computational efficiency 22 instruction tuning 22 video diffusion 22 curriculum learning 21 multi-agent systems 21 self-supervised learning 21 tool usage 21 diffusion transformers 20 flow matching 20 post-training 20 diffusion transformer 19 multimodal evaluation 19 representation learning 19 text-to-video 19 world models 19 autoregressive models 18 video synthesis 18 3d generation 17 attention mechanisms 17 foundation model 17 generative models 17 robustness 17 gaussian splatting 16 generalization 16 preference optimization 16 reasoning models 16 scaling laws 16 video reasoning 16 attention mechanism 15 autonomous agents 15 data synthesis 15 diffusion language models 15 safety evaluation 15 software engineering 15 tool use 15 transformer 15 agentic framework 14 autoregressive generation 14 efficiency 14 in-context learning 14 inference acceleration 14 long-context 14 reward modeling 14 supervised fine-tuning 14 synthetic data generation 14 temporal consistency 14 video editing 14 benchmarking 13 explainable ai 13 gui agents 13 model compression 13 robot manipulation 13 uncertainty quantification 13 alignment 12 benchmark dataset 12 continual learning 12 dataset creation 12 depth estimation 12 foundation models 12 reasoning efficiency 12 self-improvement 12 sparse attention 12 autonomous driving 11 contrastive learning 11 latent space 11 multimodal generation 11 novel view synthesis 11 quantization 11 transformer architecture 11 world model 11 causal reasoning 10 data curation 10 interpretability 10 long-horizon tasks 10 positional encoding 10 pre-training 10 reward shaping 10 rlvr 10 robotic manipulation 10 survey 10 test-time scaling 10 training-free 10 video question answering 10 visual question answering 10 web agents 10 agent evaluation 9 catastrophic forgetting 9 credit assignment 9 efficiency optimization 9 efficient training 9 information retrieval 9 kv cache 9 long-context reasoning 9 medical imaging 9 optimization 9 parallel decoding 9 parameter efficiency 9 personalization 9 planning 9 prompt engineering 9 safety alignment 9 unsupervised learning 9 vision language models 9 adversarial robustness 8 adversarial training 8 agent training 8 agentic reasoning 8 calibration 8 camera control 8 data efficiency 8 document understanding 8 inference optimization 8 instruction following 8 latent diffusion 8 long context 8 memory management 8 memory systems 8 mixture of experts 8 multi-agent system 8 open-vocabulary 8 real-time rendering 8 speculative decoding 8 temporal reasoning 8 training stability 8 zero-shot generalization 8 3d gaussian splatting 7 automated evaluation 7 coding agents 7 cross-modal alignment 7 data generation 7 evaluation metrics 7 hallucination detection 7 hallucination mitigation 7 imitation learning 7 long video generation 7 low-resource languages 7 mechanistic interpretability 7 model architecture 7 model scaling 7 multi-agent collaboration 7 multi-step reasoning 7 multilingual evaluation 7 multimodal models 7 multimodal understanding 7 neural rendering 7 question answering 7 real-time generation 7 reasoning capabilities 7 remote sensing 7 sample efficiency 7 search agents 7 self-evolution 7 semantic segmentation 7 temporal coherence 7 token compression 7 tool integration 7 training efficiency 7 zero-shot learning 7 4d reconstruction 6 adversarial attacks 6 ai safety 6 confidence calibration 6 data augmentation 6 diffusion model 6 dynamic scenes 6 generative modeling 6 geometric consistency 6 human-ai collaboration 6 image-to-video 6 long-form video 6 low-rank adaptation 6 model evaluation 6 motion generation 6 object detection 6 parameter-efficient fine-tuning 6 policy learning 6 preference alignment 6 preference learning 6 safety 6 scientific reasoning 6 self-evolving agents 6 theorem proving 6 unified framework 6 verification 6 video dataset 6 vision transformer 6 vision-language navigation 6 world modeling 6 zero-shot 6 activation steering 5 active learning 5 adversarial attack 5 agentic systems 5 audio-video generation 5 character animation 5 conditional generation 5 dexterous manipulation 5 diffusion distillation 5 discrete diffusion 5 distribution shift 5 empirical study 5 error correction 5 few-shot learning 5 formal verification 5 interactive environments 5 large multimodal models 5 latent reasoning 5 linear attention 5 llm agents 5 llm evaluation 5 llm-as-a-judge 5 long-horizon planning 5 long-horizon reasoning 5 long-term memory 5 medical image segmentation 5 mixture-of-transformers 5 mllm 5 model distillation 5 model optimization 5 monocular video 5 multi-turn agents 5 multi-turn reasoning 5 multilingual 5 multimodal agents 5 multimodal learning 5 optical character recognition 5 physics simulation 5 ppo 5 procedural generation 5 reasoning evaluation 5 reliability 5 representation alignment 5 research agents 5 resource allocation 5 robot control 5 robotic control 5 scientific discovery 5 self-verification 5 small language models 5 speech recognition 5 streaming video 5 task planning 5 temporal alignment 5 text-to-3d 5 tool orchestration 5 tool-integrated reasoning 5 tree search 5 vector quantization 5 video-to-video 5 view synthesis 5 visual grounding 5 visual representation 5 workflow automation 5 3d consistency 4 3d scene generation 4 3d shape generation 4 3d vision 4 agent memory 4 attention analysis 4 autoregressive diffusion 4 avatar animation 4 chain of thought 4 classifier-free guidance 4 clinical decision-making 4 co-evolution 4 computer-use agents 4 constraint satisfaction 4 conversational agents 4 conversational ai 4 creative writing 4 cross-modal retrieval 4 data selection 4 dataset curation 4 deep learning 4 distribution matching 4 domain shift 4 drug discovery 4 dynamic routing 4 edge deployment 4 egocentric video 4 embedding models 4 embodied navigation 4 end-to-end training 4 episodic memory 4 exploration 4 fact-checking 4 geometric reasoning 4 graph neural networks 4 gui grounding 4 hallucination reduction 4 high-resolution generation 4 human evaluation 4 identity preservation 4 image understanding 4 inference efficiency 4 information flow 4 information theory 4 interactive agents 4 language models 4 latency optimization 4 lifelong learning 4 load balancing 4 mamba-transformer 4 manipulation 4 math reasoning 4 meta-learning 4 model alignment 4 model interpretability 4 motion control 4 multi-agent 4 multi-agent framework 4 multi-hop reasoning 4 multi-turn interaction 4 multi-view consistency 4 multimodal alignment 4 multimodal fusion 4 neural architecture 4 open-source 4 peer review 4 physical reasoning 4 physics-aware generation 4 portrait animation 4 pretraining 4 privacy 4 process supervision 4 prompt injection 4 pseudo-labeling 4 reasoning benchmark 4 reasoning tasks 4 reinforcement fine-tuning 4 representation analysis 4 reward design 4 reward hacking 4 rl training 4 segmentation 4 self-consistency 4 self-play 4 sentiment analysis 4 sim-to-real 4 simulation 4 software development 4 software engineering agents 4 sparse autoencoders 4 spatial intelligence 4 speaker diarization 4 speech synthesis 4 temporal modeling 4 text-to-image generation 4 tokenization 4 tool-augmented reasoning 4 training dynamics 4 verifiable rewards 4 video comprehension 4 video foundation models 4 vision foundation models 4 vision transformers 4 vision-language 4 visual generation 4 visual language models 4 3d editing 3 4d generation 3 active perception 3 adaptive routing 3 adaptive thinking 3 advantage estimation 3 agent architecture 3 agent benchmarking 3 agent evolution 3 agent framework 3 ai alignment 3 algorithmic reasoning 3 attention alignment 3 attention optimization 3 audio-language models 3 audio-visual understanding 3 autoencoder 3 automated theorem proving 3 autonomous systems 3 autoregressive modeling 3 autoregressive video diffusion 3 behavior cloning 3 benchmark design 3 brain-computer interface 3 chest x-ray 3 citation grounding 3 clinical reasoning 3 cognitive architecture 3 cognitive reasoning 3 compositional generation 3 computational complexity 3 context management 3 continual pretraining 3 continuous control 3 controllable generation 3 cross-lingual transfer 3 cross-modal reasoning 3 cybersecurity 3 data quality 3 dataset generation 3 decision-making 3 dense retrieval 3 dialogue systems 3 distributed systems 3 diversity preservation 3 document parsing 3 dynamic evaluation 3 dynamic objects 3 e-commerce 3 edge computing 3 educational technology 3 egocentric vision 3 electronic health records 3 embedding analysis 3 end-to-end 3 environment scaling 3 evaluation protocol 3 evidence grounding 3 evolutionary search 3 fact verification 3 faithful generation 3 faithfulness 3 faithfulness evaluation 3 game theory 3 generation efficiency 3 generative ai 3 genetic algorithm 3 geometry synthesis 3 gradient alignment 3 gui automation 3 hallucination analysis 3 hierarchical reasoning 3 human mesh recovery 3 human-robot interaction 3 image reconstruction 3 image restoration 3 image segmentation 3 image-to-3d 3 information seeking 3 instruction-based image editing 3 interleaved generation 3 iterative refinement 3 kernel optimization 3 knowledge synthesis 3 language model 3 language modeling 3 large language model 3 large language models 3 latent representations 3 log analysis 3 long video understanding 3 long-context modeling 3 long-context processing 3 long-term interaction 3 lora 3 machine translation 3 medical ai 3 memory mechanisms 3 memory optimization 3 mental health 3 mllm evaluation 3 model acceleration 3 model analysis 3 model comparison 3 model context protocol 3 model fingerprinting 3 model merging 3 model safety 3 model understanding 3 modular architecture 3 monte carlo tree search 3 motion planning 3 motion transfer 3 motion understanding 3 multi-hop qa 3 multi-modal 3 multi-modal conditioning 3 multi-view 3 multilingual models 3 multimodal assessment 3 multimodal dataset 3 multimodal interaction 3 multimodal memory 3 music generation 3 normalizing flows 3 on-policy learning 3 one-step generation 3 out-of-distribution detection 3 out-of-distribution generalization 3 parallel reasoning 3 partial observability 3 physics reasoning 3 point cloud 3 point clouds 3 policy entropy 3 policy gradient 3 programming languages 3 progressive training 3 prompt optimization 3 real-time streaming 3 reasoning agents 3 reasoning benchmarks 3 reasoning verification 3 rectified flow 3 reference-guided generation 3 rejection fine-tuning 3 representation geometry 3 reproducibility 3 residual learning 3 retrieval 3 reward models 3 rlhf 3 robot learning 3 sampling efficiency 3 scene generation 3 self-correction 3 self-distillation 3 self-training 3 semantic alignment 3 semi-supervised learning 3 sequence modeling 3 sim2real 3 sparsity 3 spatial control 3 spatio-temporal 3 spectral analysis 3 speech translation 3 subject-driven generation 3 tabular data 3 teacher-student 3 temporal grounding 3 test-time adaptation 3 test-time training 3 text generation 3 text-to-speech 3 tool synthesis 3 tool-augmented agents 3 tool-use agents 3 training-free optimization 3 trajectory optimization 3 transparency 3 trustworthiness 3 uncertainty 3 user interface 3 value alignment 3 variational autoencoder 3 video benchmark 3 video captioning 3 video diffusion models 3 video models 3 video quality 3 video segmentation 3 video-language models 3 vision-language pretraining 3 vision-language reasoning 3 3d animation 2 3d city generation 2 3d geometry 2 3d grounding 2 3d modeling 2 3d morphing 2 3d reasoning 2 3d scene synthesis 2 3d stylization 2 3d understanding 2 3d world generation 2 4d gaussian splatting 2 4d scene understanding 2 4d understanding 2 academic rebuttal 2 academic writing 2 action planning 2 action prediction 2 adaptive computation 2 adaptive inference 2 adaptive learning 2 adaptive reasoning 2 adaptive training 2 agent reliability 2 agentic ai 2 agentic evaluation 2 agentic planning 2 agentic search 2 agentic workflow 2 agentic workflows 2 ai agents 2 ai evaluation 2 ai for science 2 ai scientist 2 ai security 2 anomaly detection 2 arbitrary resolution 2 arena evaluation 2 articulated objects 2 attention heads 2 attention masking 2 attribution 2 audio understanding 2 audio-driven 2 audio-visual generation 2 autoformalization 2 automated assessment 2 automated code generation 2 automated curriculum 2 automatic evaluation 2 autonomous improvement 2 autonomous research 2 autoregressive decoding 2 behavioral analysis 2 bias detection 2 bilingual model 2 browser agents 2 browser automation 2 capability alignment 2 causal attention 2 causal inference 2 causal representation learning 2 chart understanding 2 circuit analysis 2 coarse-to-fine 2 code execution 2 code retrieval 2 cognitive neuroscience 2 collective intelligence 2 communication efficiency 2 competitive programming 2 composed image retrieval 2 compositional reasoning 2 computation allocation 2 computational pathology 2 compute optimization 2 computer-using agents 2 conditional flow matching 2 conformal prediction 2 consistency models 2 content moderation 2 context compression 2 context engineering 2 context modeling 2 context optimization 2 context pruning 2 continual pre-training 2 continuous-time dynamics 2 controllability 2 convergence analysis 2 cost reduction 2 cross-attention 2 cross-domain generalization 2 cuda optimization 2 data analysis 2 data collection 2 data leakage 2 data preparation 2 data science agents 2 data-centric ai 2 data-free learning 2 dataset distillation 2 dataset evaluation 2 dataset selection 2 decision making 2 decision support 2 deepfake detection 2 deformable objects 2 denoising process 2 determinantal point processes 2 deterministic inference 2 differentiable simulation 2 differential privacy 2 digital humans 2 digital twin 2 direct preference optimization 2 distillation 2 distributed training 2 domain generalization 2 dynamic scene reconstruction 2 efficient deployment 2 efficient generation 2 efficient transformers 2 embedding evaluation 2 embodied intelligence 2 emotion recognition 2 emotional intelligence 2 energy efficiency 2 entropy 2 entropy analysis 2 entropy regularization 2 environment generation 2 error diagnosis 2 evaluation metric 2 evaluation protocols 2 evidence seeking 2 evidence-based reasoning 2 evolutionary algorithms 2 exploration-exploitation 2 exposure bias 2 external memory 2 face swapping 2 factuality 2 failure modes 2 failure taxonomy 2 fairness 2 fast sampling 2 feature fusion 2 feature upsampling 2 federated learning 2 feed-forward model 2 few-step generation 2 financial markets 2 financial reasoning 2 fine-grained classification 2 fisher information 2 flow-based models 2 function calling 2 game development 2 gating mechanism 2 generative framework 2 generative prior 2 generative reasoning 2 genetic algorithms 2 geometric constraints 2 geometric deep learning 2 geometric fidelity 2 geometric transformation 2 geometry alignment 2 geometry-aware 2 gui interaction 2 hallucination 2 hard negative mining 2 hardware acceleration 2 hate speech detection 2 healthcare ai 2 heterogeneous hardware 2 hierarchical control 2 hierarchical retrieval 2 hierarchical summarization 2 high-resolution video 2 human alignment 2 human demonstrations 2 human feedback 2 human-agent collaboration 2 human-ai alignment 2 human-ai interaction 2 human-in-the-loop 2 humanoid locomotion 2 hybrid architecture 2 image captioning 2 image classification 2 image decomposition 2 image manipulation 2 image quality assessment 2 image synthesis 2 inference scaling 2 inference-time intervention 2 inference-time optimization 2 inference-time scaling 2 information bottleneck 2 interactive generation 2 interactive segmentation 2 interactive video 2 interleaved reasoning 2 item response theory 2 iterative reasoning 2 judge reliability 2 knowledge editing 2 knowledge preservation 2 knowledge recall 2 kubernetes 2 kv cache compression 2 language agents 2 language of thought 2 large-scale training 2 latency reduction 2 latent actions 2 latent diffusion models 2 layered representation 2 length extrapolation 2 llm-as-judge 2 logical reasoning 2 long sequences 2 long video 2 long-context llms 2 long-context training 2 long-context understanding 2 long-form audio 2 long-horizon manipulation 2 lora adaptation 2 lottery ticket hypothesis 2 low-latency 2 manifold learning 2 masked autoencoder 2 mathematical problem solving 2 matrix multiplication 2 matryoshka representation 2 medical benchmark 2 medical diagnosis 2 memorization 2 memory 2 memory architecture 2 memory compression 2 memory efficiency 2 memory mechanism 2 memory-augmented generation 2 memory-augmented llms 2 mesh processing 2 meta-reasoning 2 meta-reinforcement learning 2 metacognition 2 mobile interaction 2 mobile manipulation 2 model efficiency 2 model fusion 2 model generalization 2 model lifecycle 2 model pruning 2 model quantization 2 model routing 2 model steering 2 molecular dynamics 2 monocular depth estimation 2 monocular-to-stereo 2 motion capture 2 motion distillation 2 motion imitation 2 multi-agent dialogue 2 multi-document reasoning 2 multi-label classification 2 multi-llm collaboration 2 multi-objective optimization 2 multi-person generation 2 multi-robot systems 2 multi-session dialogue 2 multi-shot video 2 multi-stage training 2 multi-step tasks 2 multi-task learning 2 multilingual code 2 multilingual llm 2 multilingual nlp 2 multilingual reasoning 2 multilingual translation 2 multimodal benchmark 2 multimodal chain-of-thought 2 multimodal conditioning 2 multimodal consistency 2 multimodal control 2 multimodal embedding 2 multimodal instruction 2 multimodal integration 2 multimodal retrieval 2 multiple-choice qa 2 multitask learning 2 mutual information 2 neural architecture search 2 neural network pruning 2 neural networks 2 neural representation 2 next-frame prediction 2 noisy context 2 non-autoregressive generation 2 normal estimation 2 numeracy 2 numerical prediction 2 numerical stability 2 object manipulation 2 object tracking 2 ocr 2 off-policy learning 2 off-policy rl 2 olympiad problems 2 one-shot learning 2 online decision making 2 open-ended generation 2 open-ended tasks 2 optimization framework 2 parallel execution 2 parallel generation 2 parameter scaling 2 parameter-efficient 2 parameter-efficient training 2 perception-action loop 2 performance optimization 2 physical alignment 2 physical dynamics 2 physical grounding 2 physical plausibility 2 physical realism 2 physical simulation 2 policy alignment 2 positional embeddings 2 post-training alignment 2 privacy protection 2 process reward 2 process reward models 2 program synthesis 2 progressive learning 2 psychometric evaluation 2 puzzle solving 2 quality assessment 2 quantum circuits 2 query decomposition 2 rag systems 2 real-time 2 real-time control 2 real-time inference 2 real-time synthesis 2 real-time systems 2 real-world tasks 2 reasoning analysis 2 reasoning chain 2 reasoning diversity 2 reasoning framework 2 recommender systems 2 red teaming 2 reference-based generation 2 regularization 2 reinforcement learning fine-tuning 2 relighting 2 representation autoencoders 2 reproducible evaluation 2 research automation 2 residual networks 2 resolution enhancement 2 resource management 2 retrieval augmentation 2 retrieval augmented generation 2 reward learning 2 rgba-vae 2 risk assessment 2 rl framework 2 robustness evaluation 2 role-playing agents 2 safety guardrails 2 safety vulnerabilities 2 sampling acceleration 2 sampling methods 2 satellite imagery 2 scalability 2 scaling 2 scene graph 2 scene understanding 2 scientific computing 2 scientific workflow 2 security 2 self-evolving learning 2 self-referential learning 2 self-refinement 2 self-rewarding 2 semantic compression 2 sensor simulation 2 sequence generation 2 sequential decision-making 2 sequential modeling 2 signed distance field 2 simulation environment 2 small models 2 social bias 2 sparse activation 2 sparse computation 2 spatial cognition 2 spatial grounding 2 spatial memory 2 spatiotemporal reasoning 2 speech generation 2 speech processing 2 speech tokenization 2 speech tokenizer 2 speech-to-text translation 2 spoken language models 2 state space models 2 stiefel manifold 2 streaming generation 2 streaming inference 2 structured data extraction 2 structured generation 2 structured knowledge 2 structured reasoning 2 structured text 2 supervised finetuning 2 supervised learning 2 surrogate modeling 2 svg generation 2 synchronization 2 synthetic environment 2 synthetic training data 2 table retrieval 2 task generation 2 task scheduling 2 temporal dynamics 2 temporal understanding 2 test-time compute 2 test-time optimization 2 test-time reinforcement learning 2 test-time search 2 text embedding 2 text embeddings 2 text representation 2 text-to-audio-video 2 text-to-motion 2 texture generation 2 thai language 2 theoretical analysis 2 token selection 2 token-level routing 2 tool augmentation 2 tool calling 2 tool composition 2 tool interaction 2 tool learning 2 training framework 2 training infrastructure 2 training objective 2 training optimization 2 training pipeline 2 training-free extrapolation 2 training-free method 2 trajectory generation 2 trajectory prediction 2 transfer learning 2 transformer analysis 2 transformer decoder 2 transformer optimization 2 transformer theory 2 trustworthy ai 2 truthfulness 2 turkish nlp 2 ui grounding 2 uncertainty estimation 2 uncertainty modeling 2 unified architecture 2 unified modeling 2 unified models 2 unified representation 2 user simulation 2 user study 2 variational inference 2 vector graphics 2 video consistency 2 video generation benchmark 2 video inpainting 2 video instance segmentation 2 video interpolation 2 video llm 2 video object segmentation 2 video relighting 2 video retrieval 2 video simulation 2 video super-resolution 2 video-to-4d 2 video-to-video translation 2 virtual try-on 2 visual consistency 2 visual navigation 2 visual perception 2 visual planning 2 visual refinement 2 visual token compression 2 visual tokenizer 2 visual tokens 2 visuomotor control 2 vlm evaluation 2 voice cloning 2 voxel representation 2 voxel-based generation 2 web interaction 2 web navigation 2 world generation 2 zero-shot evaluation 2 2:4 sparsity 1 2d platformer 1 360° panorama generation 1 3d avatar 1 3d captioning 1 3d character animation 1 3d consistent video 1 3d ct analysis 1 3d data generation 1 3d environments 1 3d head generation 1 3d human generation 1 3d inpainting 1 3d mesh generation 1 3d motion 1 3d motion reconstruction 1 3d multimodal 1 3d object articulation 1 3d object flow 1 3d orientation 1 3d part segmentation 1 3d perception 1 3d physics 1 3d point cloud 1 3d point tracks 1 3d pose representation 1 3d scene composition 1 3d scene representation 1 3d scenes 1 3d segmentation 1 3d spatial reasoning 1 3d spatial understanding 1 3d tracking 1 3d trajectory estimation 1 3d-aware features 1 3dgs scene 1 4d control 1 4d geometric control 1 4d mllm 1 4d occupancy 1 4d representation 1 4d scene generation 1 4d scene reconstruction 1 4d scenes 1 4d synthesis 1 4d video rendering 1 4d video understanding 1 4d world modeling 1 a/b testing 1 abstention behavior 1 abstract reasoning 1 academic literature retrieval 1 academic publishing 1 academic search 1 academic seminars 1 accelerated sampling 1 acceleration 1 accent control 1 accessibility 1 accessibility tree 1 accountability 1 accounting ai 1 accuracy monitoring 1 accuracy-latency tradeoff 1 acoustic metadata 1 acoustic-semantic gap 1 action chunking 1 action compression 1 action control 1 action decoding 1 action degeneration 1 action generation 1 action plausibility 1 action reasoning 1 action representation 1 action space construction 1 action understanding 1 activation analysis 1 activation function 1 activation functions 1 activation probes 1 active dialog 1 active exploration 1 active flow control 1 active vision 1 actor-critic 1 adaptation 1 adaptation strategies 1 adapter heads 1 adapter routing 1 adapter training 1 adaptive clipping 1 adaptive curriculum 1 adaptive difficulty 1 adaptive environment design 1 adaptive horizon 1 adaptive memory 1 adaptive retrieval 1 adaptive sampling 1 adaptive sparsity 1 adaptive subnetworks 1 adaptive systems 1 adaptive tool-use 1 adaptive transforms 1 adaptive vision 1 adoption practices 1 advantage function 1 advantage normalization 1 advantage shaping 1 adventure games 1 adversarial defense 1 adversarial evaluation 1 adversarial perturbations 1 adversarial simulation 1 adversarial testing 1 aerial imagery 1 aerodynamic design 1 aesthetic adaptation 1 aesthetic bias 1 aesthetic enhancement 1 aesthetic perception 1 affective reasoning 1 affinity guidance 1 affordance reasoning 1 affordance-aware composition 1 african languages 1 agent adaptation 1 agent alignment 1 agent capabilities 1 agent co-evolution 1 agent collaboration 1 agent control 1 agent coordination 1 agent development 1 agent economies 1 agent effectiveness 1 agent efficiency 1 agent failure modes 1 agent fine-tuning 1 agent frameworks 1 agent hallucination 1 agent history 1 agent learning 1 agent onboarding 1 agent performance 1 agent planning 1 agent reinforcement learning 1 agent robustness 1 agent safety 1 agent scaffold 1 agent scaffolds 1 agent skills 1 agent training infrastructure 1 agent-environment interaction 1 agent-user interaction 1 agentic augmentation 1 agentic coding 1 agentic enhancement 1 agentic foundation models 1 agentic intelligence 1 agentic judges 1 agentic learning 1 agentic markets 1 agentic models 1 agentic post-training 1 agentic pretraining 1 agentic rl 1 agentic tasks 1 agentic thinking 1 agentic tool use 1 agentic web 1 agi definition 1 agi evaluation 1 agi safety 1 ai accelerators 1 ai governance 1 ai regulation 1 ai research agents 1 ai systems 1 ai-assisted development 1 ai-generated code 1 ai-generated content detection 1 ai4science 1 aigc detection 1 ais data 1 aleatoric epistemic 1 algorithm design 1 algorithm optimization 1 algorithmic trading 1 alignment degradation 1 alignment diagnostics 1 alignment evaluation 1 alignment generalization 1 alignment metric 1 alignment risks 1 alignment strategies 1 all-in-one model 1 alpha matting 1 alzheimer's detection 1 ambiguity handling 1 amodal completion 1 analogical reasoning 1 analogue modelling 1 anchor relay 1 animated 3d 1 animation generation 1 anime hairstyle 1 annotation efficiency 1 anomaly generation 1 antenna identification 1 anti-exploration 1 antisemitism detection 1 antonym detection 1 any-resolution 1 any-step inference 1 any-to-any generation 1 appearance distillation 1 ar/vr integration 1 arabic nlp 1 arc-agi 1 arc-agi benchmark 1 architectural optimization 1 architecture design 1 architecture optimization 1 architecture search 1 articulated motion 1 artifact detection 1 asmr 1 asset creation 1 assistive technology 1 associational bias 1 asynchronous conflicts 1 asynchronous denoising 1 asynchronous execution 1 asynchronous inference 1 asynchronous reasoning 1 asynchronous rollout 1 attention 1 attention allocation 1 attention bias 1 attention complexity 1 attention compression 1 attention control 1 attention dispersion 1 attention efficiency 1 attention guidance 1 attention patterns 1 attention perturbation 1 attention pooling 1 attention regularization 1 attention sinks 1 attention-region injection 1 attribute disentanglement 1 attribute knowledge 1 attribute manipulation 1 attribute transfer 1 attribution methods 1 audio classification 1 audio codec 1 audio compression 1 audio editing 1 audio generation 1 audio language models 1 audio localizability 1 audio plugin 1 audio reasoning 1 audio source separation 1 audio spectrogram transformer 1 audio transformer 1 audio world models 1 audio-to-expression 1 audio-video joint denoising 1 audio-video synchronization 1 audio-visual alignment 1 audio-visual consistency 1 audio-visual fusion 1 audio-visual interaction 1 audio-visual reasoning 1 audio-visual segmentation 1 audio-visual speech recognition 1 audio-visual sync 1 audio-visual synchronization 1 audiovisual captioning 1 audiovisual learning 1 audiovisual reasoning 1 authorship attribution 1 auto white balance 1 auto-encoder 1 auto-labeling 1 auto-rigging 1 auto-thinking 1 autobiographical narratives 1 automated annotation 1 automated generation 1 automated grading 1 automated kernel tuning 1 automated patching 1 automated scoring 1 automated search 1 automated testing 1 automated trading 1 automated training 1 automatic content creation 1 automatic differentiation 1 automatic ml research 1 automatic speech recognition 1 automl 1 autonomous coding 1 autonomous evaluation 1 autonomous exploration 1 autonomous reasoning 1 autonomous software engineering 1 autonomous task execution 1 autoregressive framework 1 autoregressive guidance 1 autoregressive supervision 1 autoregressive synthesis 1 autoregressive tracking 1 autoregressive transformer 1 autoscaling 1 auxiliary construction 1 auxiliary constructions 1 auxiliary loss 1 auxiliary objective 1 avatar creation 1 avatar video generation 1 ayurveda 1 backend development 1 backpropagation alternative 1 backtracking 1 base models 1 batch ensemble 1 batch sampling 1 batch whitening 1 battle outcomes 1 bavarian language 1 bayesian decomposition 1 bayesian inference 1 bayesian methods 1 bayesian optimization 1 behavior calibration 1 behavior challenge 1 behavior control 1 behavioral bias 1 behavioral biases 1 behavioral cloning 1 behavioral prior 1 behavioral profiles 1 behavioral taxonomy 1 behavioral traits 1 beir benchmark 1 belief bias 1 belief estimation 1 benchmark analysis 1 benchmark construction 1 benchmark generation 1 benchmark performance 1 benchmark quality 1 benchmark saturation 1 benchmark synthesis 1 benchmark validity 1 bertology 1 best-first search 1 beyond-accuracy objectives 1 bi-level reward 1 bi-mode annealing 1 bias severity 1 bilevel optimization 1 bilingual evaluation 1 bilingual reasoning 1 bimanual manipulation 1 bimanual robot 1 bimanual robotics 1 binaural audio 1 biographical features 1 bioinformatics tasks 1 biological annotation 1 biologically plausible 1 biomedical 1 biomedical imaging 1 bipartite matching 1 bird's-eye-view 1 bitcoin mining 1 black-box verification 1 blind users 1 block diffusion 1 block inpainting 1 block-causal models 1 block-diffusion 1 block-wise generation 1 board games 1 bokeh synthesis 1 boundary awareness 1 bounded response 1 bpe evaluation 1 bradley-terry-luce 1 brain imaging 1 brain systems 1 brain tumor classification 1 branch parallelism 1 bridge models 1 bronchoscopy simulation 1 browser extension 1 budget-aware training 1 budgeted inference 1 building extraction 1 bundle adjustment 1 business data 1 business process modeling 1 byte-level language models 1 byte-pair encoding 1 cad generation 1 calibration error 1 camera extrinsic 1 camera motion control 1 camera motion estimation 1 camera parameters 1 camera pose 1 camera pose decoupling 1 camera trajectory 1 canon layers 1 capability auditing 1 capability evaluation 1 capability gains 1 capability preservation 1 capability probing 1 caption-assisted reasoning 1 capture the flag 1 card games 1 cascade distillation 1 cascade systems 1 cascaded optimization 1 cascaded rl 1 catalog alignment 1 category theory 1 causal discovery 1 causal mask 1 causal mediation analysis 1 causal modeling 1 cfd acceleration 1 cfg augmentation 1 chain of guidance 1 chain-of-evidence 1 chain-of-frame reasoning 1 chain-of-frames 1 chain-of-questions 1 chains-of-thought 1 challenge 1 change detection 1 chaos engineering 1 character consistency 1 character replacement 1 character understanding 1 chart comprehension 1 chart grounding 1 chart reasoning 1 chat chain 1 cheating behavior 1 checkpoint merging 1 checkpoint recycling 1 chemical compositions 1 chemical detection 1 chemical reaction 1 chemistry 1 child-adult interaction 1 chinese benchmark 1 chinese context 1 chinese dataset 1 chinese language 1 chunk-level optimization 1 ci/cd pipelines 1 cinematic narratives 1 cinematic script generation 1 cinematic video 1 citation analysis 1 citation attribution 1 citation awareness 1 citation evaluation 1 citation-aware 1 city-scale synthesis 1 class imbalance 1 classification 1 clinical ai 1 clinical benchmarks 1 clinical data 1 clinical decision support 1 clinical dialogue 1 clinical language models 1 clinical nlp 1 clip 1 clip embeddings 1 clip evaluation 1 closed-loop evaluation 1 closed-loop reasoning 1 closed-loop training 1 cloud computing 1 cluster scheduling 1 clustering 1 cnn-transformer fusion 1 co-training 1 coarse-to-fine generation 1 code agent 1 code agents 1 code analysis 1 code competition 1 code completion 1 code diff 1 code editing 1 code embeddings 1 code interpreter 1 code optimization 1 code quality 1 code reasoning 1 code sandbox 1 code security 1 code understanding 1 code-as-tool 1 code-driven pipeline 1 code-switching 1 codebase context 1 coevolution 1 cognitive abilities 1 cognitive benchmarking 1 cognitive capacity 1 cognitive comparison 1 cognitive decline 1 cognitive elements 1 cognitive framework 1 cognitive gap 1 cognitive hierarchy 1 cognitive inertia 1 cognitive load theory 1 cognitive map 1 cognitive modeling 1 cognitive patterns 1 cognitive perception 1 cognitive rules 1 cognitive science 1 cognitive simulation 1 cognitive skills 1 cognitive structure 1 cognitive systems 1 coherence metrics 1 colbert 1 cold-start problem 1 collaborative coding 1 collaborative decoding 1 collaborative execution 1 collaborative inference 1 collaborative learning 1 collaborative modeling 1 collaborative training 1 collaborative workflows 1 collision simulation 1 colonoscopy 1 color alignment 1 color constancy 1 color quantization 1 color spaces 1 comic generation 1 command line interface 1 common crawl 1 common ground 1 communication networks 1 communicative agents 1 comparative reasoning 1 competitive ranking 1 complex-valued networks 1 complex-valued representation 1 complexity 1 complexity quantification 1 compliance 1 composable components 1 composition 1 compositional assembly 1 compositional frameworks 1 compositional networks 1 compositionality 1 compound generation 1 compressed reasoning 1 compression 1 compressor-predictor 1 computational art 1 computational fluid dynamics 1 computational imaging 1 computational methods 1 computational procedures 1 computational social science 1 compute budget 1 compute efficiency 1 computer control 1 computer use agents 1 computer vision 1 concept erasure 1 concept generation 1 concept learning 1 concept segmentation 1 concept-aware 1 concept-based explanations 1 concept-guided learning 1 conceptual framework 1 conceptual memory 1 concurrent execution 1 condition injection 1 conditional autoregressive generation 1 conditional computation 1 conditional gan 1 conditional generative model 1 confidence estimation 1 confidence scheduling 1 confidence-aware retrieval 1 confidence-based inference 1 conformer 1 consistency 1 consistency distillation 1 consistency learning 1 consistency metrics 1 consistency solver 1 constrained optimization 1 constraint optimization 1 constraint reasoning 1 contamination detection 1 content authentication 1 content creation 1 content verification 1 context adaptation 1 context comprehension 1 context consistency 1 context fusion 1 context knowledge 1 context memory 1 context re-positioning 1 context summarization 1 context window 1 context-aware 1 context-free grammar 1 contextual bandit 1 contextual bandits 1 contextual knowledge 1 contextual privacy 1 continuous learning 1 continuous mechanisms 1 continuous optimization 1 continuum robots 1 contraction theory 1 contrastive attention 1 contrastive decoding 1 contrastive loss 1 contrastive training 1 control barrier functions 1 control mechanisms 1 control protocols 1 controllable ai 1 controllable assets 1 controllable editing 1 conversational derailment 1 conversational recommender systems 1 coordinate prediction 1 coordinate-free 1 coordination 1 coordination mechanisms 1 coordination trade-offs 1 copy-paste artifacts 1 copyright auditing 1 copyright protection 1 corpus analysis 1 corpus construction 1 corpus statistics 1 correspondence 1 correspondence estimation 1 coset sampling 1 cost efficiency 1 cost optimization 1 cost-effective ai 1 cost-optimal planning 1 counter-intuitive ability 1 counterfactual data generation 1 counterfactual regret minimization 1 counting tasks 1 creative ai 1 creative composition 1 creative generation 1 creativity 1 creativity evaluation 1 criteria following 1 critic models 1 critic-free rl 1 critique-guided rl 1 cross reconstruction 1 cross-attention pooling 1 cross-consistency 1 cross-cultural evaluation 1 cross-device orchestration 1 cross-domain coordination 1 cross-domain mapping 1 cross-embodied 1 cross-embodiment generalization 1 cross-encoder 1 cross-environment generalization 1 cross-game generalization 1 cross-lingual 1 cross-lingual alignment 1 cross-lingual evaluation 1 cross-lingual generalization 1 cross-modal adapter 1 cross-modal attention 1 cross-modal co-training 1 cross-modal conditioning 1 cross-modal fusion 1 cross-modal generation 1 cross-modal inconsistency 1 cross-modal interaction 1 cross-modal learning 1 cross-modality attention 1 cross-model adaptation 1 cross-model transferability 1 cross-platform 1 cross-platform agents 1 cross-robot generalization 1 cross-session memory 1 cross-shot context 1 cross-species retargeting 1 cross-video analysis 1 crystal generation 1 crystal representation 1 cultural bias 1 cultural knowledge 1 cultural reasoning 1 cultural understanding 1 curriculum reinforcement learning 1 custom workflows 1 cyber threat intelligence 1 cycle consistency 1 damage assessment 1 dark humor detection 1 data alignment 1 data annealing 1 data cleaning 1 data contamination 1 data engine 1 data engineering 1 data enrichment 1 data filtering 1 data flywheel 1 data heterogeneity 1 data imbalance 1 data integration 1 data lake 1 data lineage 1 data management 1 data mixing 1 data mixture 1 data obfuscation 1 data parallel 1 data pipeline 1 data processing 1 data recycling 1 data refinement 1 data sampling 1 data scaling 1 data scarcity 1 data transparency 1 data-centric preference 1 dataset auditing 1 dataset augmentation 1 dataset construction 1 dataset diversity 1 dataset quality 1 dataset splitting 1 de-identification 1 debiasing methods 1 deblurring 1 debugging 1 decentralized learning 1 deception 1 decision trees 1 declarative framework 1 decoder-layer reconstruction 1 decoding acceleration 1 decoding algorithm 1 decoding entropy 1 decoding policy 1 decoding strategies 1 decoding strategy 1 decoding-based regression 1 decoupled training 1 decoupling 1 deep learning architecture 1 deep networks 1 deep research 1 deep research agents 1 deep research systems 1 defense bypass 1 defocus control 1 deformation field 1 degradation modeling 1 degradation-aware reasoning 1 dehallucination 1 deliberate decontextualization 1 deliberation 1 deliberative framework 1 delimiter sensitivity 1 deming cycle 1 demographic diversity 1 demographic drift 1 demonstration generation 1 demonstration retrieval 1 denoising 1 denoising autoencoder 1 denoising trajectories 1 dense alignment 1 dense correspondence 1 dense geometry estimation 1 dense initialization 1 dense tracking 1 dense video captioning 1 density-uncertainty sampling 1 dental ai 1 dental imaging 1 depth completion 1 depth representation 1 depth-recurrent 1 dermatology 1 dermoscopic imaging 1 desktop automation 1 detail correction 1 detail preservation 1 detection and explanation 1 detection transformers 1 detector-guided rewards 1 deterministic evaluation 1 deterministic memory 1 deterministic sampling 1 deterministic training 1 deterministic verification 1 developer perspective 1 device-cloud collaboration 1 diagnostic analysis 1 diagnostic error reduction 1 diagnostic feedback 1 diagnostic safety 1 diagram generation 1 dialect robustness 1 dialog systems 1 dialogue acts 1 dialogue evaluation 1 dialogue generation 1 dialogue grounding 1 dialogue robustness 1 dialogue-to-video 1 diff representation 1 differentiable critics 1 differentiable optimization 1 differentiable rasterization 1 differentiable rendering 1 difficult problem generation 1 difficulty alignment 1 difficulty calibration 1 difficulty levels 1 difficulty prediction 1 difficulty progression 1 difficulty scaling 1 difficulty-based sampling 1 diffusion 1 diffusion acceleration 1 diffusion decoder 1 diffusion decoding 1 diffusion llm 1 diffusion sampling 1 diffusion-limited aggregation 1 digital agents 1 digital signal processing 1 digital transformation 1 dino adaptation 1 directed acyclic graphs 1 directional degeneration 1 discrepancy detection 1 discrete representations 1 discriminability 1 discriminative verification 1 discriminator design 1 disease detection 1 disentangled learning 1 disentangled representation 1 disentanglement 1 dishonesty 1 distance metric 1 distributed computing 1 distributed dag 1 distribution collapse 1 distribution entropy 1 divergence selection 1 diverse generation 1 diversity 1 diversity optimization 1 diversity reward 1 diversity-quality tradeoff 1 document conversion 1 document extraction 1 document generation 1 document layout 1 document memory 1 document quality 1 document question answering 1 document reranking 1 document retrieval 1 document search 1 document structure 1 document translation 1 domain-specific 1 domain-specific evaluation 1 doppler imaging 1 dp-sgd 1 dpo training 1 drag-based editing 1 drawing generation 1 dream narratives 1 dual quaternions 1 dual-agent architecture 1 dual-brain architecture 1 dual-clock denoising 1 dual-encoder 1 dual-process reasoning 1 dual-process theory 1 dual-system architecture 1 dynamic 3d objects 1 dynamic alignment 1 dynamic balancing 1 dynamic benchmark 1 dynamic communication 1 dynamic context window 1 dynamic encoding 1 dynamic environments 1 dynamic graph 1 dynamic improvement reward 1 dynamic inference 1 dynamic interleaving 1 dynamic noising 1 dynamic optimization 1 dynamic point clouds 1 dynamic process modeling 1 dynamic pruning 1 dynamic range 1 dynamic rank allocation 1 dynamic resolution 1 dynamic sampling 1 dynamic scene representation 1 dynamic scene understanding 1 dynamic spatial reasoning 1 dynamic time warping 1 dynamic verification 1 dynamic world modeling 1 dynamic-static disentanglement 1 dynamical stability 1 dynamics model 1 dynamics modeling 1 early convergence 1 early exit 1 early experience 1 early stopping 1 early-exit 1 early-exit decoding 1 earth observation 1 earthquake engineering 1 ecg analysis 1 echo training 1 ecology vision 1 economic agents 1 economic decision-making 1 economic reasoning 1 economic risk 1 edge ai 1 editor plugin 1 educational assessment 1 educational assistant 1 eeg decoding 1 efficient attention 1 efficient autoencoder 1 efficient decoding 1 efficient fusion 1 efficient mllms 1 efficient pretraining 1 efficient retrieval 1 efficient rl 1 efficient tuning 1 efficient verification 1 efficientnet 1 ego-motion 1 egocentric interaction 1 egocentric perception 1 ehr analytics 1 electronic monitoring 1 elo rating 1 embedding alignment 1 embedding density 1 embedding fine-tuning 1 embedding fusion 1 embedding learning 1 embedding model 1 embedding optimization 1 embedding prediction 1 embedding quality 1 embedding retraining 1 embedding selection 1 embedding tasks 1 embodied cognition 1 embodied environments 1 embodied imitation learning 1 embodied question answering 1 embodied reasoning 1 embodiment gap 1 emergency context 1 emergent abilities 1 emergent behavior 1 emergent misalignment 1 emergent properties 1 emotion control 1 emotion diagnosis 1 emotion prediction 1 emotional reasoning 1 emotional variation 1 empirical bayes 1 encoder-decoder 1 end-to-end model 1 end-to-end planning 1 energy-based models 1 ensemble methods 1 ensemble validation 1 entanglement entropy 1 enterprise ai 1 enterprise workflows 1 entity embeddings 1 entity normalization 1 entity scene graphs 1 entity-aware control 1 entropy balancing 1 entropy control 1 entropy convergence 1 entropy modulation 1 entropy sampling 1 entropy stabilization 1 entropy threshold 1 environment design 1 environment feedback 1 environment stabilization 1 environment synthesis 1 environment tuning 1 environmental effects 1 environmental impact 1 epidemiological reasoning 1 epipolar geometry 1 episode theory 1 episodic context 1 epistemic humility 1 epistemic learning 1 epistemic uncertainty 1 equirectangular projection 1 equivariant networks 1 error accumulation 1 error compensation 1 error handling 1 error localization 1 esg assessment 1 ethical ai 1 ethical reasoning 1 evaluation methodology 1 evaluation noise 1 evaluation pipeline 1 evaluation platform 1 evaluation reliability 1 evaluation robustness 1 evaluation suite 1 evaluation toolkit 1 evasion detection 1 event forecasting 1 event graph 1 evidence alignment 1 evidence chains 1 evidence evaluation 1 evidence localization 1 evidence planning 1 evidence ranking 1 evidence referencing 1 evidence retrieval 1 evidence synthesis 1 evidence-based evaluation 1 evidence-seeking 1 evolutionary efficiency 1 evolutionary learning 1 example-driven workflow 1 executable diagnosis 1 executable queries 1 execution environment 1 execution environments 1 execution feedback 1 execution time estimation 1 execution-grounded 1 experience generation 1 experience inheritance 1 experience learning 1 experience replay 1 experience retrieval 1 experience seeking 1 experience synthesis 1 experience-guided learning 1 expert assessment 1 expert iteration 1 expert mixture 1 expert modulation 1 expert parallelism 1 expert selection 1 expert specialization 1 expert trajectories 1 expert-amateur contrast 1 expert-level performance 1 expert-level reasoning 1 exploration bottleneck 1 exploration collapse 1 exploration dynamics 1 exploration enhancement 1 exploration space 1 exploration stability 1 exploration strategies 1 exploration strategy 1 exploration techniques 1 exploratory reasoning 1 exposure-aware 1 f-divergence 1 f-dp 1 face anonymization 1 face caricature 1 face forgery detection 1 face image quality assessment 1 face recognition 1 facial animation 1 factor mining 1 factor recombination 1 factorial analysis 1 factorized learning 1 factual accuracy 1 factual alignment 1 factual correction 1 factual qa 1 factual recall 1 factuality detection 1 factuality evaluation 1 failure analysis 1 failure mode discovery 1 failure prediction 1 fairness assessment 1 faithfulness hallucination 1 false positive rate 1 fantasy creatures 1 fast decoding 1 fast weights 1 fast-slow thinking 1 feature adaptation 1 feature aggregation 1 feature agnostic 1 feature alignment 1 feature analysis 1 feature compression 1 feature curvature 1 feature guidance 1 feature matching 1 feature perturbation 1 feature representation 1 feature stability 1 feed-forward editing 1 feed-forward network 1 feedback 1 feedback adaptation 1 feedback distillation 1 feedforward editing 1 few-shot adaptation 1 fidelity metrics 1 finance benchmark 1 financial agents 1 financial auditing 1 financial benchmark 1 financial q&a 1 financial scenarios 1 financial services 1 fine-grained action 1 fine-grained alignment 1 fine-grained annotation 1 fine-grained assessment 1 fine-grained categorization 1 fine-grained detection 1 fine-grained evaluation 1 fine-grained rubrics 1 fine-grained visual classification 1 fine-tuning degradation 1 fine-tuning optimization 1 fine-tuning strategies 1 finite state machines 1 first frame analysis 1 first-frame propagation 1 first-person video 1 fisheries monitoring 1 fixed-point arithmetic 1 flood mapping 1 flow environment 1 flow maps 1 flow models 1 fluency vs originality 1 fluid dynamics 1 fmri analysis 1 fmri reconstruction 1 focal stack generation 1 foot contact estimation 1 force estimation 1 force field 1 force vectors 1 forecasting 1 foreground-background fusion 1 forgetting 1 formal analysis 1 formal guarantees 1 formal mathematics 1 formal methods 1 formal reasoning 1 forward learning 1 foundation policy 1 fp8 quantization 1 fpga acceleration 1 fractal analysis 1 fragment-based editing 1 frame selection 1 frame-guided generation 1 framework 1 frequency adaptivity 1 frequency-domain generation 1 from-scratch training 1 fsdp 1 full-body control 1 function design 1 function words 1 functional benchmarks 1 functional shifts 1 functional similarity 1 fusion encoder 1 fusion mechanism 1 future forecasting 1 future prediction 1 g-buffer 1 gaap compliance 1 game engines 1 gaming agents 1 garment registration 1 garment transfer 1 gas chromatography-mass spectrometry 1 gauge invariance 1 gaussian curvature 1 gaussian trajectories 1 gaussian vae 1 gaze-guided reasoning 1 general intelligence 1 generalist agent 1 generalist models 1 generalist visual agents 1 generalizability 1 generalization failure 1 generalization theory 1 generalized linear models 1 generation assessment 1 generative editing 1 generative evaluation 1 generative judges 1 generative model 1 generative policies 1 generative pretraining 1 generative priors 1 generative recommendation 1 generative rendering 1 generative testing 1 generative training 1 generative visual prompting 1 geo-foundation models 1 geo-localization 1 geodesic paths 1 geolocalization 1 geometric control 1 geometric dense prediction 1 geometric guidance 1 geometric invariance 1 geometric latents 1 geometric reconstruction 1 geometric refinement 1 geometric regularization 1 geometric stability 1 geometry 1 geometry consistency 1 geometry integration 1 geometry learning 1 geometry preservation 1 geometry problem solving 1 geometry representation 1 geometry solver 1 geometry-aware denoising 1 geometry-aware generation 1 geometry-free lifting 1 geospatial reasoning 1 german language data 1 github data 1 glacier segmentation 1 glicko2 rating 1 global coherence 1 global context awareness 1 global-local learning 1 gnn comparison 1 goal tracking 1 goal-conditioned policy 1 governance 1 gpcrs 1 gpt evaluation 1 gpt-2 1 gpu disaggregation 1 gpu efficiency 1 gpu kernels 1 gpu lifecycle 1 gradient analysis 1 gradient conflict 1 gradient descent 1 gradient flow 1 gradient methods 1 gradient optimization 1 gradient reparameterization 1 gradient signal-to-noise ratio 1 gradient suppression 1 gradient-based attribution 1 gradient-guided exploration 1 graph clustering 1 graph embeddings 1 graph memory 1 graph optimization 1 graph reconstruction 1 graph understanding 1 graph-structured pruning 1 graphic design automation 1 graphics pipeline 1 graphics-ready scenes 1 gravity alignment 1 greenwashing detection 1 ground motion synthesis 1 ground-aware features 1 grounded language models 1 grounded ocr 1 group influence 1 group preferences 1 group theory 1 group-relative advantage 1 groupwise ranking 1 gru 1 guardrail framework 1 guardrail model 1 guardrails 1 gui navigation 1 guidelines 1 gumbel-softmax 1 hadamard 1 hadamard transform 1 hair cards 1 hallucination benchmark 1 hallucination correction 1 hard instance mining 1 hardware acquisition 1 hardware design 1 hardware materials 1 hardware optimization 1 hardware-aware ai 1 hardware-aware design 1 harmful content detection 1 harmfulness assessment 1 harmonized system 1 head-tail rebalancing 1 headline generation 1 health indicators 1 healthcare 1 healthcare communication 1 hebbian learning 1 hessian optimization 1 heterogeneous acceleration 1 heterogeneous agents 1 heuristic search 1 hgemm 1 hidden embeddings 1 hidden states 1 hierarchical caching 1 hierarchical compression 1 hierarchical context 1 hierarchical framework 1 hierarchical indexing 1 hierarchical modeling 1 hierarchical optimization 1 hierarchical planning 1 hierarchical representation 1 hierarchical rl 1 hierarchical rules 1 hierarchical selection 1 hierarchical tasks 1 hierarchical video generation 1 high-fidelity 1 high-frequency trading 1 high-order tensors 1 high-performance computing 1 high-resolution synthesis 1 high-resolution vision 1 highway connection 1 hindsight optimization 1 histopathology 1 history context 1 hit identification 1 homography warping 1 hospital operations 1 html elements 1 huggingface datasets 1 human activities 1 human animation 1 human baseline 1 human bias 1 human cognition 1 human motion evaluation 1 human motion generation 1 human movement analysis 1 human pose animation 1 human pose estimation 1 human preference 1 human preference alignment 1 human priors 1 human reenactment 1 human-agent interaction 1 human-centric learning 1 human-centric video 1 human-likeness 1 human-robot coordination 1 human-robot imitation 1 human-scene reconstruction 1 humanoid agents 1 humanoid posing 1 humanoid robot 1 humanoid robots 1 humanoid teleoperation 1 hybrid interaction 1 hybrid models 1 hybrid rewards 1 hyper-network 1 hyperbolic geometry 1 hypergraph memory 1 hypernetwork 1 ideation diversity 1 identifiability 1 identity fidelity 1 identity-consistent generation 1 idiom translation 1 idk response 1 illumination control 1 illumination synthesis 1 image attribute retrieval 1 image compression 1 image consistency 1 image customization 1 image deblurring 1 image dehazing 1 image diffusion 1 image enhancement 1 image geolocalization 1 image inpainting 1 image inversion 1 image matting 1 image personalization 1 image processing 1 image refinement 1 image refocusing 1 image relighting 1 image signal processing 1 image statistics 1 image tokenization 1 image-text alignment 1 image-text analysis 1 image-text pairs 1 image-to-image 1 image-to-image translation 1 image-video editing 1 imagination 1 imaginative scenarios 1 implicit intent 1 implicit learning 1 implicit neural representation 1 implicit operators 1 implicit reasoning 1 importance sampling 1 in-context adaptation 1 in-context conditioning 1 in-context generation 1 in-hand rotation 1 in-tool learning 1 inconsistency analysis 1 indic languages 1 indoor scenes 1 inductive bias 1 industrial defect detection 1 industrial inspection 1 inference compute 1 inference latency 1 inference speedup 1 inference stability 1 inference system 1 inference-time adaptation 1 inference-time framework 1 inference-time manipulation 1 inference-time processing 1 inference-time reasoning 1 infinite environments 1 infinite synthesis 1 infinite-length video 1 influence functions 1 influence maximization 1 infographic generation 1 information collapse 1 information gain 1 information loss 1 information-seeking 1 infrared images 1 infrastructure 1 innovation evaluation 1 innovation patterns 1 inpainting 1 input reformulation 1 inspiration engine 1 instance models 1 instance segmentation 1 instruction dataset 1 instruction diversity 1 instruction fine-tuning 1 instruction grounding 1 instruction optimization 1 instruction reasoning 1 instruction routing 1 instruction-based control 1 instruction-based editing 1 instruction-conditioned generation 1 instruction-driven 1 instruction-driven image editing 1 instruction-guided 1 instruction-guided editing 1 instruction-guided video editing 1 instruction-to-region alignment 1 instructional scaffolding 1 instructional video editing 1 instructional videos 1 instrumental convergence 1 intelligence measurement 1 intent expression 1 intent recognition 1 intent-driven systems 1 intention modeling 1 inter-model communication 1 inter-rater agreement 1 interaction rewards 1 interaction scaling 1 interaction-based alignment 1 interactive avatar 1 interactive code generation 1 interactive data analysis 1 interactive editing 1 interactive exploration 1 interactive foundation model 1 interactive navigation 1 interactive poses 1 interactive preview 1 interactive reasoning 1 interactive recommendation 1 interactive reinforcement learning 1 interactive simulation 1 interactive system 1 interactive systems 1 interactive video avatars 1 interactive world model 1 interactive world modeling 1 interactivity 1 interatomic potential 1 interleaved conditioning 1 interleaved learning 1 intermediate images 1 intermediate reasoning 1 internal activations 1 internal circuits 1 internal conflict 1 internal guidance 1 internal knowledge 1 internal policies 1 internal probing 1 internal reinforcement learning 1 internal representations 1 internal state manipulation 1 internal states 1 interoperability 1 interpolation 1 interpretable ai 1 interpretable representations 1 interruptibility 1 intervention 1 intervention timing 1 intrinsic properties 1 intrinsic reward 1 intuitive physics 1 inverse dynamics 1 inverse graphics 1 inverse kinematics 1 inverse mapping 1 inverse problems 1 inverse rendering 1 inverse scaling 1 inversion 1 inversion process 1 inversion-based editing 1 invertible networks 1 ip-adapter 1 irony detection 1 issue localization 1 iterative editing 1 iterative planning 1 jacobi forcing 1 jailbreak attacks 1 jailbreak robustness 1 japanese language 1 javascript 1 jax implementation 1 joint denoising 1 joint generation 1 joint parameter estimation 1 joint training 1 joint-embedding predictive architecture 1 judge model 1 judge models 1 judge-aware ranking 1 judge-then-generate 1 key-value states 1 keyframe consistency 1 keyframe generation 1 keyword graphs 1 kinematic estimation 1 kinematic parts 1 kinematic reasoning 1 kinematic structure 1 kinematic synthesis 1 kl divergence 1 knowledge activation 1 knowledge agents 1 knowledge alignment 1 knowledge brittleness 1 knowledge compression 1 knowledge discovery 1 knowledge extraction 1 knowledge graph construction 1 knowledge graphs 1 knowledge inheritance 1 knowledge interaction 1 knowledge internalization 1 knowledge networks 1 knowledge reasoning 1 knowledge repository 1 knowledge representation 1 knowledge retention 1 knowledge taxonomy 1 knowledge traversal 1 knowledge validation 1 knowledge-intensive evaluation 1 kolmogorov-arnold network 1 korean language 1 kv cache eviction 1 kv caching 1 kv-cache management 1 label efficiency 1 label fusion 1 lagrangian motion 1 landmark detection 1 language acquisition 1 language generation 1 language grounding 1 language guidance 1 language model alignment 1 language model assessment 1 language model behavior 1 language model enhancement 1 language model integration 1 language model pretraining 1 language understanding 1 language-driven control 1 language-driven generation 1 language-guided policies 1 language-spatial mapping 1 laplacian eigenfunctions 1 large audio-language models 1 large-scale model 1 last-token 1 last-token pooling 1 late-interaction 1 late-interaction models 1 latency constraints 1 latent action queries 1 latent behavior 1 latent collaboration 1 latent compression 1 latent flow matching 1 latent fusion 1 latent guidance 1 latent modulation 1 latent planning 1 latent policy optimization 1 latent prediction 1 latent quality 1 latent refinement 1 latent representation 1 latent reward modeling 1 latent space decomposition 1 latent space manipulation 1 latent space planning 1 latent space reasoning 1 latent space transformation 1 latent steering 1 latent variable model 1 latent vectors 1 latent working memory 1 latent world models 1 lattice coding 1 lattice problems 1 layer interaction 1 layer merging 1 layer normalization 1 layer optimization 1 layer skipping 1 layer-aware generation 1 layer-selective tuning 1 layered composition 1 layered design 1 layerwise analysis 1 layout control 1 layout optimization 1 layout reasoning 1 layout reconstruction 1 layout-to-image 1 lean theorem prover 1 learnable multipliers 1 learning dynamics 1 learning paradigm 1 learning-to-rank 1 lecture translation 1 leeck lattice 1 legal ai 1 legal compliance 1 legal information retrieval 1 legal nlp 1 length generalization 1 length optimization 1 length regularization 1 lesion segmentation 1 lie groups 1 lightweight adapter 1 lightweight architecture 1 lightweight llm 1 lightweight model 1 lightweight models 1 lightweight probes 1 likability 1 likelihood preference 1 likelihood regularization 1 line drawing generation 1 linear algebra 1 linear probes 1 linear representation 1 linear subspaces 1 linguistic competence 1 linguistic depth 1 linguistic generalization 1 linguistic memory 1 linguistic patterns 1 linguistic variability 1 lip reading 1 lip synchronization 1 lip-sync 1 lipschitz continuity 1 live benchmark 1 live streaming 1 live trading 1 llm as judge 1 llm benchmarking 1 llm collaboration 1 llm fine-tuning 1 llm framework 1 llm inference 1 llm integration 1 llm planning 1 llm prompting 1 llm reasoning 1 llm-augmented data 1 llm-based detection 1 llm-based evaluation 1 llm-driven optimization 1 llm4survey 1 local inference 1 locality 1 localization 1 localized editing 1 logic-structured training 1 logical fallacies 1 logical validity 1 logit fusion 1 long chain-of-thought 1 long context understanding 1 long document qa 1 long video reasoning 1 long video synthesis 1 long-chain reasoning 1 long-context diffusion 1 long-context evaluation 1 long-context learning 1 long-context video 1 long-form answers 1 long-form narrative 1 long-form qa 1 long-form reports 1 long-form summarization 1 long-form video generation 1 long-horizon coherence 1 long-horizon decision-making 1 long-horizon dynamics 1 long-horizon evaluation 1 long-horizon execution 1 long-horizon generation 1 long-horizon memory 1 long-horizon rl 1 long-horizon search 1 long-horizon workflows 1 long-range dependencies 1 long-range memory 1 long-range video 1 long-tailed learning 1 long-term collaboration 1 long-term stability 1 long-term tracking 1 long-term training 1 long-video generation 1 long-video synthesis 1 lookahead planning 1 lookahead strategy 1 lora fine-tuning 1 loss balancing 1 loss coefficient tuning 1 low bitwidth 1 low latency 1 low-bit 1 low-bit representation 1 low-level vision 1 low-light imaging 1 low-power vision 1 low-probability tokens 1 low-rank 1 low-rank approximation 1 low-rank compression 1 low-rank structure 1 low-resource nlp 1 low-resource speech 1 low-shot learning 1 lower bounds 1 lstm 1 lyric recognition 1 machine design 1 machine learning engineering 1 machine translation evaluation 1 mamba-attention 1 managed execution 1 manifold constraints 1 manifold optimization 1 manipulation policies 1 manipulation tasks 1 map-augmented agent 1 marginal-data transport 1 maritime surveillance 1 market concentration 1 market design 1 market simulation 1 markov decision process 1 mask propagation 1 mask tokenization 1 mask-guided generation 1 masked denoising 1 masked diffusion 1 masked discrete diffusion 1 masked image modeling 1 masked modeling 1 masked teacher 1 masked training 1 masked video modeling 1 masking 1 massive mimo 1 material estimation 1 material properties 1 materials discovery 1 materials science 1 math benchmarks 1 mathematical benchmarks 1 mathematical olympiad 1 mathematical problem-solving 1 matrix factorization 1 matrix product states 1 maze-solving 1 mcmc 1 mcts search 1 mda framework 1 mean velocity field 1 mean-field approximation 1 medical audio 1 medical data generation 1 medical dataset 1 medical evaluation 1 medical image restoration 1 medical image retrieval 1 medical knowledge 1 medical llm 1 medical segmentation 1 medical vqa 1 meeting transcription 1 meg decoding 1 membership inference 1 meme comprehension 1 memorization analysis 1 memorization mitigation 1 memory bank 1 memory decay 1 memory frameworks 1 memory networks 1 memory retrieval 1 memory selection 1 memory update 1 memory-based computation 1 mental models 1 mesh generation 1 mesh reconstruction 1 message-passing 1 meta-adaptive exploration 1 meta-awareness 1 meta-cognition 1 meta-evolution 1 meta-gradient 1 meta-heuristic 1 meta-imitation learning 1 meta-strategy 1 metaheuristic 1 metal-organic frameworks 1 metaphysical shifts 1 metric geometry 1 mid-training 1 minimal training 1 minority languages 1 misevolution 1 misinformation detection 1 misunderstanding analysis 1 misuse mitigation 1 mitigation strategy 1 mitre att&ck 1 mixed-initiative 1 mixed-initiative interaction 1 mixed-precision inference 1 mixed-precision training 1 mixture of horizons 1 mixture-of-agents 1 mle-bench 1 mobile agents 1 mobile automation 1 mobile control 1 mobile navigation 1 mobile phone agents 1 mobile robotics 1 modality alignment 1 modality calibration 1 modality complementarity 1 modality conflict 1 modality entanglement 1 modality fusion 1 modality gap 1 modality switcher 1 modality switching 1 modality-specific architectures 1 mode collapse 1 model ablation 1 model adaptation 1 model auditing 1 model behavior 1 model bias 1 model capabilities 1 model capacity 1 model clustering 1 model collaboration 1 model conditioning 1 model conversion 1 model coordination 1 model disruption 1 model downloads 1 model ecosystem 1 model editing 1 model ensemble 1 model finetuning 1 model heterogeneity 1 model inference 1 model intervention 1 model rectification 1 model reliability 1 model selection 1 model specialization 1 model stitching 1 model training 1 model transfer 1 model unlearning 1 model-agnostic 1 model-based rl 1 model-context protocol 1 modular arithmetic 1 modular design 1 modular framework 1 module communities 1 moe 1 molecular design 1 molecular structures 1 molecule generation 1 monadic design 1 mongolian 1 monitor evasion 1 monocular 3d tracking 1 monocular slam 1 monocular vision 1 monte carlo simulation 1 morphological analysis 1 motion attribution 1 motion dynamics 1 motion editing 1 motion fidelity 1 motion modeling 1 motion priors 1 motion representation 1 motion synthesis 1 motion tracking 1 motion-language reasoning 1 movie understanding 1 mri analysis 1 mri super-resolution 1 multi-agent architecture 1 multi-agent communication 1 multi-agent coordination 1 multi-agent exploration 1 multi-agent reasoning 1 multi-agent rl 1 multi-agent search 1 multi-agent simulation 1 multi-annotator dataset 1 multi-attempt performance 1 multi-benchmark aggregation 1 multi-camera 1 multi-dimensional assessment 1 multi-document 1 multi-document verification 1 multi-domain 1 multi-domain reasoning 1 multi-domain training 1 multi-environment rl 1 multi-evidence integration 1 multi-file reasoning 1 multi-file tasks 1 multi-granular alignment 1 multi-graph architecture 1 multi-head attention 1 multi-head decoding 1 multi-hop inference 1 multi-hop retrieval 1 multi-human composition 1 multi-image reasoning 1 multi-island map-elites 1 multi-language 1 multi-modal coding 1 multi-modal dataset 1 multi-modal decoding 1 multi-modal evaluation 1 multi-modal generation 1 multi-modal learning 1 multi-modal llm 1 multi-modal llms 1 multi-modal policies 1 multi-modal representation 1 multi-modal semantic drift 1 multi-modal trajectories 1 multi-modal understanding 1 multi-model consensus 1 multi-object tracking 1 multi-objective alignment 1 multi-objective reward 1 multi-path reasoning 1 multi-perspective learning 1 multi-platform 1 multi-property optimization 1 multi-reference generation 1 multi-reference grounding 1 multi-resolution 1 multi-reward 1 multi-reward optimization 1 multi-reward rl 1 multi-round tournaments 1 multi-scale 1 multi-scale architecture 1 multi-scale models 1 multi-scale processing 1 multi-scale synthesis 1 multi-scale temporal control 1 multi-scale tokenizer 1 multi-sensor dataset 1 multi-server 1 multi-session evaluation 1 multi-shot coherence 1 multi-source learning 1 multi-speaker 1 multi-speaker asr 1 multi-stage learning 1 multi-stage reasoning 1 multi-step inference 1 multi-step research 1 multi-step search 1 multi-subject composition 1 multi-subject rendering 1 multi-supervision learning 1 multi-task 1 multi-task agents 1 multi-teacher learning 1 multi-temporal fusion 1 multi-token prediction 1 multi-trajectory reasoning 1 multi-turn dialogue 1 multi-turn editing 1 multi-turn rl 1 multi-turn search 1 multi-turn tasks 1 multi-video understanding 1 multi-view images 1 multi-view learning 1 multi-view outpainting 1 multi-view perception 1 multi-view video 1 multiagent collaboration 1 multidimensional assessment 1 multidimensional evaluation 1 multidisciplinary evaluation 1 multidomain corpus 1 multijurisdictional datasets 1 multilingual adaptation 1 multilingual analysis 1 multilingual asr 1 multilingual dataset 1 multilingual dialogue 1 multilingual document retrieval 1 multilingual language model 1 multilingual misinformation 1 multilingual moderation 1 multilingual ocr 1 multilingual qa 1 multilingual rendering 1 multilingual thinking 1 multilingual tts 1 multilingual vqa 1 multimodal 1 multimodal assistant 1 multimodal attention 1 multimodal auto-completion 1 multimodal backbone 1 multimodal benchmarks 1 multimodal comprehension 1 multimodal corpora 1 multimodal datasets 1 multimodal diffusion transformer 1 multimodal dit 1 multimodal education 1 multimodal efficiency 1 multimodal embeddings 1 multimodal embodiment 1 multimodal encoder 1 multimodal environment 1 multimodal fine-tuning 1 multimodal foundation model 1 multimodal foundation models 1 multimodal grounding 1 multimodal guidance 1 multimodal instructions 1 multimodal intelligence 1 multimodal knowledge graph 1 multimodal language models 1 multimodal perception 1 multimodal prompting 1 multimodal rag 1 multimodal robustness 1 multimodal safety 1 multimodal security 1 multimodal systems 1 multimodal training 1 multimodal transformer 1 multimodal translation 1 multimodal unification 1 multimodal vqa 1 multiple instance learning 1 multiple-choice questions 1 music analysis 1 music-driven video generation 1 music-to-video 1 music-visual coherence 1 named entity recognition 1 named entity retrieval 1 narrative analysis 1 narrative coherence 1 narrative data 1 narrative structure 1 nash equilibrium 1 natural language commands 1 natural language explanations 1 natural language programming 1 navigation 1 negative curriculum 1 neighborhood attention 1 network analysis 1 network interface 1 neural architecture design 1 neural codecs 1 neural decoding 1 neural dynamics 1 neural implicit fields 1 neural metrics 1 neural modules 1 neural network training 1 neural physics simulator 1 neural processing 1 neural processing units 1 neural refinement 1 neural signal processing 1 neural tangent kernel 1 neural tokenization 1 neural video compression 1 neurodegenerative screening 1 neuron analysis 1 neuroscience discovery 1 neurosymbolic reasoning 1 news context 1 next token prediction 1 next-event prediction 1 next-scale prediction 1 next-state prediction 1 next-token prediction 1 nighttime scenes 1 nlp applications 1 nlp benchmarks 1 noise filtering 1 noise inversion 1 noise robustness 1 noise type 1 noisy black box 1 non-autoregressive 1 non-equilibrium statistical mechanics 1 non-regression 1 nonlinear waves 1 nonparametric identification 1 norm preservation 1 normalization-free 1 novelty assessment 1 novelty metrics 1 numba 1 numerical claims 1 numerical reasoning 1 nurbs modeling 1 object counting 1 object geometry 1 object grounding 1 object hallucination 1 object interactions 1 object localization 1 obstacle avoidance 1 occlusion robustness 1 off-policy 1 offline rl 1 olympiad math 1 omni-modal model 1 omnimodal understanding 1 on-device inference 1 on-policy distillation 1 on-policy reflection 1 one-shot video generation 1 online adaptation 1 online alignment 1 online assessment 1 online learning 1 online optimization 1 online processing 1 online reinforcement learning 1 online rl 1 ontology consistency 1 open model 1 open models 1 open source communities 1 open source models 1 open-ended agents 1 open-ended learning 1 open-ended problems 1 open-ended reasoning 1 open-source data 1 open-source ecosystem 1 open-source infrastructure 1 open-source llm 1 open-source model 1 open-source toolkit 1 open-vocabulary attribute encoder 1 open-vocabulary segmentation 1 open-web research 1 open-web retrieval 1 open-world learning 1 open-world manipulation 1 openly licensed corpus 1 operator networks 1 operator synthesis 1 opponent modeling 1 optical compression 1 optical flow 1 optical flow prediction 1 optimal transport 1 optimization algorithms 1 optimization dynamics 1 optimization stability 1 optimization theory 1 orchestration system 1 ordinal regression 1 organizational failure 1 orthogonal regularization 1 orthogonalization 1 orthonormal projection 1 out-of-distribution 1 outcome evaluation 1 output diversity 1 output variance 1 overconfidence 1 overfitting mitigation 1 overlap analysis 1 overrefusal reduction 1 overthinking 1 pac bounds 1 pairwise comparison 1 pairwise evaluation 1 panoptic segmentation 1 panoramic image generation 1 panoramic images 1 panoramic perception 1 panoramic video 1 paper-code alignment 1 paper-to-agent 1 paper-to-page generation 1 paper-to-slides 1 paradigm transfer 1 parallel computation 1 parallel denoising 1 parallel inference 1 parallel multilingual prompting 1 parallel sampling 1 parallel scaling 1 parameter allocation 1 parameter analysis 1 parameter disentanglement 1 parameter efficient fine-tuning 1 parameter expansion 1 parameter importance 1 parameter server 1 parameter-efficient adaptation 1 parameter-efficient finetuning 1 parameter-efficient models 1 parameter-efficient tuning 1 parameterization 1 parametric human model 1 parametric knowledge 1 parametric modeling 1 parametric representation 1 paraphrasing 1 pareto front 1 part segmentation 1 part-aware reasoning 1 part-based modeling 1 part-level control 1 partial manipulation 1 particle methods 1 pass@k 1 pass@k optimization 1 patch collapse 1 patch module 1 path planning 1 pathology ai 1 pathology image segmentation 1 patient simulator 1 pbr generation 1 pbr textures 1 pde solver 1 pdf processing 1 peak-aware attention 1 pedagogical alignment 1 peer evaluation 1 perceiver architecture 1 perception planning 1 perception policy 1 perception prediction planning 1 perception-reasoning 1 perception-reasoning alignment 1 perceptual assessment 1 perceptual distillation 1 perceptual optimization 1 perceptual realism 1 perceptual reasoning 1 perceptual shaping 1 perceptual understanding 1 performance benchmarking 1 performance degradation 1 performance engineering 1 performance estimation 1 performance gain 1 performance gap 1 performance prediction 1 permutation equivariance 1 perplexity 1 person retrieval 1 person understanding 1 persona clustering 1 persona conditioning 1 persona consistency 1 persona control 1 personal narratives 1 personalization bias 1 personalized agents 1 personalized alignment 1 personalized generation 1 perspectivist annotation 1 persuasion dynamics 1 phase preservation 1 phone recognition 1 phoneme classification 1 phonemization 1 phonetic analysis 1 phonetic tasks 1 phonological rules 1 phonon calculation 1 photo editing 1 photography enhancement 1 photorealistic generation 1 physical ai 1 physical commonsense 1 physical constraints 1 physical intelligence 1 physically based rendering 1 physics 1 physics alignment 1 physics consistency 1 physics from video 1 physics realism 1 physics understanding 1 physics-aware 1 physics-conditioned goals 1 physics-constrained generation 1 physics-constrained retargeting 1 physics-informed ai 1 physics-plausible feedback 1 pipeline 1 pipeline framework 1 pipeline parallelism 1 pixel correlations 1 pixel space 1 pixel supervision 1 pixel-level perception 1 pixel-level prediction 1 pixel-level understanding 1 planar primitives 1 planning complexity 1 planning evaluation 1 planning execution 1 plausibility evaluation 1 player simulation 1 plenoptic video 1 pluralistic alignment 1 point cloud processing 1 point maps 1 point prediction 1 point trajectories 1 point-to-point communication 1 pointcloud augmentation 1 policy co-evolution 1 policy compliance 1 policy composition 1 policy decomposition 1 policy evaluation 1 policy gradients 1 policy reinforcement 1 policy specialization 1 polymath learning 1 popularity bias 1 portfolio management 1 portrait video editing 1 pose correction 1 pose estimation 1 pose guidance 1 pose-conditioned generation 1 positional encodings 1 post-capture refocusing 1 post-editing 1 post-training data 1 post-training quantization 1 ppo-clip 1 ppo-cnn 1 practical guidelines 1 pragmatic understanding 1 pre-execution safety 1 precision flow 1 precoding 1 prediction markets 1 predictive reasoning 1 predictive sensing 1 preference adaptation 1 preference dynamics 1 preference hijacking 1 preference modeling 1 preference ranking 1 preference semantics 1 preference transitivity 1 preference tuning 1 prefilling 1 prefix tuning 1 preprocessing 1 presentation generation 1 pretext tasks 1 primal-dual methods 1 privacy awareness 1 privacy collapse 1 privacy preservation 1 privacy-preserving 1 privacy-utility trade-off 1 privileged information 1 privileged signal 1 proactive assistance 1 proactive moderation 1 proactive prediction 1 probabilistic constraints 1 probabilistic encoder-decoder 1 probabilistic scoring 1 probability bounds 1 probability-guided training 1 probe analysis 1 probing methods 1 problem generation 1 problem solving 1 procedural knowledge 1 procedural learning 1 procedural skills 1 process consistency 1 process reward modeling 1 process-aware modeling 1 product key memory 1 production systems 1 professional documents 1 prognostics 1 program-of-thoughts 1 programmatic generation 1 programmatic synthesis 1 programming abstraction 1 progress reasoning 1 progressive decoding 1 progressive generation 1 progressive pre-training 1 project-oriented agents 1 prompt binding 1 prompt evolution 1 prompt fidelity 1 prompt formatting 1 prompt ordering 1 prompt processing 1 prompt rewriting 1 prompt strategies 1 prompt-driven 1 promptable events 1 promptable segmentation 1 proof evaluation 1 proof generation 1 proof search 1 property prediction 1 prophet method 1 proportional-integral control 1 protein-ligand interaction 1 pruning 1 pruning algorithms 1 psd generation 1 pseudo-count 1 psychological computing 1 psychometric analysis 1 pyramid pooling 1 pyramidal architecture 1 python interpreter 1 python library 1 python tools 1 qa evaluation 1 qa-based assessment 1 quadrotor control 1 quadruped robots 1 qualitative research 1 quality estimation 1 quality gating 1 quality verification 1 quantitative evaluation 1 quantitative finance 1 quantum algorithms 1 quantum benchmarking 1 quantum coherence 1 quantum computing 1 quantum hardware 1 quantum information 1 quantum machine learning 1 quantum-inspired models 1 query augmentation 1 query difficulty 1 query generation 1 query performance prediction 1 query reduction 1 query refinement 1 query reformulation 1 query rewriting 1 query typology 1 query underspecification 1 query-conditioned pruning 1 question reformulation 1 question-answering 1 quiz-driven evaluation 1 qwen backbone 1 radar encoder 1 radar point cloud generation 1 rank fusion 1 rank-1 perturbation 1 ranking 1 ranking consistency 1 ranking optimization 1 ranking quality 1 ranking uncertainty 1 rare concept generation 1 rate-distortion 1 rate-distortion compression 1 rdma 1 re-identification 1 real-robot data 1 real-robot evaluation 1 real-time adaptation 1 real-time avatar 1 real-time decision making 1 real-time deformation 1 real-time information 1 real-time interaction 1 real-time intervention 1 real-time mapping 1 real-time monitoring 1 real-time strategy 1 real-time video 1 real-time video diffusion 1 real-to-sim 1 real-world benchmark 1 real-world data 1 real-world deployment 1 real-world evaluation 1 real-world scenes 1 reality alignment 1 reasoning acceleration 1 reasoning accuracy 1 reasoning alignment 1 reasoning conflict 1 reasoning consistency 1 reasoning control 1 reasoning dataset 1 reasoning decomposition 1 reasoning depth 1 reasoning distillation 1 reasoning faithfulness 1 reasoning frameworks 1 reasoning guidance 1 reasoning hallucinations 1 reasoning interpretability 1 reasoning laws 1 reasoning length 1 reasoning mechanisms 1 reasoning model 1 reasoning optimization 1 reasoning patterns 1 reasoning plateau 1 reasoning policy 1 reasoning process 1 reasoning reuse 1 reasoning robustness 1 reasoning scaling 1 reasoning sparks 1 reasoning strategies 1 reasoning styles 1 reasoning systems 1 reasoning tokens 1 reasoning traces 1 reasoning uncertainty 1 reasoning-aware generation 1 reasoning-centric rl 1 reasoning-induced vulnerability 1 rebus puzzles 1 rebuttal generation 1 recommendation models 1 recommendation system 1 recommendation systems 1 reconstruction models 1 recurrent models 1 recurrent-depth models 1 recursive models 1 recursive transformers 1 reference guidance 1 reference resolution 1 reference-guided 1 reference-less evaluation 1 reference-to-video 1 referring expression 1 referring expression comprehension 1 referring expression segmentation 1 referring grounding 1 refinement capability 1 refining framework 1 reflection analysis 1 reflection removal 1 refusal behavior 1 refusal mechanisms 1 region prompting 1 region understanding 1 region-level prompting 1 regression 1 reinforce algorithm 1 reinforcement pretraining 1 relation extraction 1 relational concepts 1 relational similarity 1 relative advantage 1 relative ranking 1 relay inference 1 release engineering 1 reliability assessment 1 reliability metrics 1 reliable ai 1 reliable generation 1 remaining useful life 1 rephrasing 1 replanning 1 report generation 1 report synthesis 1 repository generation 1 repository specialization 1 repository-level 1 repository-level evaluation 1 repository-level testing 1 representation activation 1 representation dynamics 1 representation generation 1 representation hijacking 1 representation regularization 1 representation similarity 1 representation steering 1 representation-based estimation 1 reproducible datasets 1 reproducible pipeline 1 reproducible tools 1 reranking 1 rescorla-wagner 1 research agent 1 research ecosystem 1 research mentorship 1 research paradigm 1 research planning 1 research strategies 1 research synthesis 1 research workflows 1 residual connections 1 resilience 1 resilient ai 1 resolution extrapolation 1 resource constraints 1 resource efficiency 1 resource-efficient 1 respiratory sound classification 1 response length prediction 1 response refinement 1 responsibility attribution 1 responsible ai 1 retail 1 retinal oct 1 retrieval algorithms 1 retrieval models 1 retrieval quality 1 retrieval-augmented validation 1 retriever training 1 retrospective summarization 1 reverberation 1 reverse engineering 1 reward conditioning 1 reward fine-tuning 1 reward functions 1 reward maximization 1 reward misalignment 1 reward model 1 reward normalization 1 reward variance 1 reward weighting 1 reward-guided search 1 rgb-d 1 rgb-depth fusion 1 rgb-part synthesis 1 rgba generation 1 rgbd 1 riemannian flow matching 1 riemannian gradient 1 rigid body motion 1 risk analysis 1 risk bound 1 risk detection 1 risk diagnosis 1 risk management 1 risk sensitivity 1 rl alignment 1 rl optimization 1 rl training efficiency 1 robot embodiment 1 robot planning 1 robot policies 1 robot policy 1 robot reasoning 1 robot simulation 1 robot state prediction 1 robotic perception 1 robotics manipulation 1 robust 3d reconstruction 1 robust inference 1 robust inversion 1 robust optimization 1 robust representation 1 robust updates 1 robustness testing 1 roi prediction 1 rollout clustering 1 rollout sampling 1 rope analysis 1 rope variants 1 rotary position embedding 1 rotary position embeddings 1 rotary position encoding 1 rotary positional embedding 1 rotation estimation 1 rounding error analysis 1 router alignment 1 routing 1 routing analysis 1 routing mechanism 1 rubric evaluation 1 rubric generation 1 rubric-based reward 1 rubric-guided 1 rubric-guided learning 1 rule induction 1 rule-based reasoning 1 runtime adaptation 1 russian language 1 russian language model 1 sac 1 safeguarded training 1 safety constraints 1 safety detection 1 safety moderation 1 safety monitoring 1 safety reflection 1 safety risks 1 safety testing 1 sample difficulty 1 sample engineering 1 sample polarity 1 sample rehearsal 1 sampling 1 sampling algorithms 1 sampling policies 1 sampling stochasticity 1 sampling strategies 1 sampling strategy 1 sarcasm detection 1 scalable sandboxes 1 scalable synthesis 1 scalable training 1 scaled agents 1 scaling analysis 1 scaling principles 1 scaling properties 1 scaling strategy 1 scaling trends 1 scenario evaluation 1 scene decomposition 1 scene evolution 1 scene graphs 1 scene navigation 1 scene parameter optimization 1 scene representation 1 scheduler classification 1 scheduling 1 scheduling algorithms 1 schema compliance 1 scholarly analysis 1 science agents 1 science challenge 1 science domains 1 science-grade reasoning 1 scientific ai 1 scientific articles 1 scientific code 1 scientific communication 1 scientific documents 1 scientific general intelligence 1 scientific image synthesis 1 scientific imagery 1 scientific integrity 1 scientific intelligence 1 scientific literature 1 scientific research 1 scientific understanding 1 scientific video understanding 1 scientific videos 1 scientific workflows 1 scientific writing 1 score regularization 1 screen exploration 1 screen parsing 1 scribble-based editing 1 script generation 1 script-to-video 1 search dynamics 1 search-augmented llms 1 secure code generation 1 security analysis 1 security benchmark 1 security evaluation 1 security metrics 1 security threats 1 security vulnerabilities 1 security vulnerability 1 segment anything model 1 selective editing 1 selective refusal 1 self-adversarial 1 self-alignment 1 self-attention networks 1 self-awareness 1 self-checking 1 self-conditioning 1 self-correcting pipeline 1 self-critique 1 self-evaluation 1 self-evolving 1 self-evolving systems 1 self-evolving training 1 self-grading 1 self-improving 1 self-improving agent 1 self-improving reasoning 1 self-modifying models 1 self-reconstruction 1 self-reflection 1 self-reflective learning 1 self-resampling 1 self-supervised pretraining 1 self-supervised rl 1 self-triggering 1 semantic affinity 1 semantic clustering 1 semantic codebook 1 semantic coherence 1 semantic concepts 1 semantic control 1 semantic discrepancy 1 semantic disentanglement 1 semantic distillation 1 semantic diversity 1 semantic feature injection 1 semantic fusion 1 semantic guidance 1 semantic information theory 1 semantic interpretation 1 semantic modeling 1 semantic perturbation 1 semantic reconstruction 1 semantic relations 1 semantic relationships 1 semantic representation 1 semantic schemas 1 semantic search 1 semantic similarity 1 semantic space 1 semantic state transitions 1 semantic structure 1 semantic tree 1 semantic workspaces 1 semi-autoregressive 1 semi-autoregressive decoding 1 semi-online rl 1 semi-supervised segmentation 1 semi-supervised training 1 semi-synthetic data 1 semidefinite programming 1 sensitivity detection 1 sensor design 1 sensor fusion 1 sequence distillation 1 sequence-to-sequence 1 sequential action 1 sequential decision process 1 sequential deployment 1 sequential fine-tuning 1 sequential monte carlo 1 sequential navigation 1 sequential planning 1 sequential reasoning 1 sequential recommendation 1 sequential refinement 1 service-oriented architecture 1 set alignment 1 severity classification 1 sft 1 shadow art 1 shape decomposition 1 shape optimization 1 sharpness regularization 1 sharpness-aware minimization 1 shortcut generation 1 side effects 1 siglip encoder 1 sim2real transfer 1 simulated data 1 simulated environments 1 simulated user 1 simulated users 1 simulation benchmark 1 simulation framework 1 simulation optimization 1 simultaneous localization and mapping 1 simultaneous translation 1 single image 1 single image 3d 1 single image synthesis 1 single-cell biology 1 single-pass classification 1 single-shot recovery 1 site-specific modeling 1 skeletal geometry 1 skeleton-based 1 sketch understanding 1 sketch verification 1 sketch-based interaction 1 skill acquisition 1 skill library 1 skill profiling 1 skill transfer 1 skin lesion 1 slash attention 1 slavic languages 1 slide localization 1 sliding-window attention 1 slow-fast encoding 1 small language model 1 smartphone agents 1 soccer skills 1 social behavior 1 social cognition 1 social inequality 1 social intelligence 1 social media analytics 1 social pressure 1 social reasoning 1 socio-economic prediction 1 socio-technical analysis 1 socio-technical systems 1 soft boundaries 1 soft token distributions 1 soft-thinking 1 software evolution 1 software optimization 1 software refactoring 1 soliton simulation 1 solution diversity 1 sora-2 1 source distribution 1 source grounding 1 source transparency 1 space planning 1 spacetime latents 1 span-level annotation 1 sparse autoencoder 1 sparse logistic regression 1 sparse matrices 1 sparse models 1 sparse rewards 1 sparse routing 1 sparse selection 1 sparse-view 1 spatial annotation 1 spatial audio generation 1 spatial consistency 1 spatial encoding 1 spatial generalization 1 spatial perception 1 spatial reward 1 spatial structure 1 spatial understanding 1 spatial-temporal grounding 1 spatial-temporal understanding 1 spatio-temporal cascade 1 spatio-temporal coherence 1 spatio-temporal grounding 1 spatio-textual prompting 1 spatiotemporal coherence 1 spatiotemporal consistency 1 spatiotemporal disentanglement 1 spatiotemporal grounding 1 spatiotemporal modeling 1 spatiotemporal perception 1 speaker embeddings 1 speaker identification 1 specialization 1 specialized llm 1 specification violation 1 spectral feature generation 1 spectral learning 1 spectral properties 1 speech classification 1 speech corpus 1 speech editing 1 speech emotion recognition 1 speech evaluation 1 speech foundation models 1 speech instructions 1 speech representation 1 speech transcription 1 speech understanding 1 speech-to-speech 1 speechllm 1 sphere packing 1 spiking neural networks 1 spin estimation 1 spine disorders 1 spoken dialogue systems 1 spreadsheet agents 1 spurious rewards 1 stage-aware acceleration 1 stage-aware rewards 1 stage-aware routing 1 stance change 1 standard protocol 1 standardized benchmarking 1 state construction 1 state information richness 1 state representation 1 state tracking 1 state-space model 1 state-space models 1 static analysis 1 statistical methods 1 steepest descent 1 steerability 1 stem education 1 stem reasoning 1 step abstraction 1 step-by-step reasoning 1 step-level evaluation 1 step-level policy optimization 1 step-level rewards 1 step-level supervision 1 step-level verification 1 step-wise rewards 1 stepwise feedback 1 stepwise prediction 1 stereo conversion 1 stereo matching 1 stereo synthesis 1 stereo video generation 1 stitching 1 stitching experts 1 stochastic differential equations 1 stochastic inference 1 stochastic optimization 1 story completion 1 story generation 1 story visualization 1 strategic conversation 1 strategic dialogue 1 strategic downsampling 1 strategic manipulation 1 strategic persuasion 1 strategic reasoning 1 streaming models 1 streaming synthesis 1 streaming systems 1 streaming video diffusion 1 streaming video understanding 1 structural analysis 1 structural bias 1 structural causal models 1 structural counterfactuals 1 structural patterns 1 structural reasoning 1 structure alignment 1 structure evaluation 1 structure-preserving motion 1 structured captions 1 structured constraints 1 structured data 1 structured exploration 1 structured output 1 structured prompting 1 structured retrieval 1 structured tables 1 style analysis 1 style evaluation 1 style transfer 1 style-invariant learning 1 subgoal decomposition 1 subject identity preservation 1 subject preservation 1 subjective critique 1 subjective evaluation 1 subjective quality 1 submodular optimization 1 subspace disentanglement 1 subword tokenization 1 super-resolution 1 superintelligence 1 supernumerary limbs 1 surface defect detection 1 surface normal prediction 1 surgical robotics 1 surgical video generation 1 surgical video segmentation 1 surveillance video 1 survey generation 1 sustainability 1 svg animation 1 swe-bench 1 sycophancy 1 syllogistic reasoning 1 symbolic music 1 symbolic programs 1 symbolic reasoning 1 symmetry recognition 1 synchronized generation 1 synthetic captions 1 synthetic pretraining 1 synthetic psychopathology 1 synthetic text generation 1 system cards 1 system evolution 1 system hacking 1 system monitoring 1 system prompts 1 system-2 reasoning 1 system2 1 table extraction 1 table images 1 table recognition 1 table sanitization 1 table tennis 1 table visualization 1 tabu search 1 tabular reasoning 1 tactile sensing 1 talking avatar 1 talking head 1 talking head generation 1 talking head synthesis 1 task adaptation 1 task alignment 1 task arithmetic 1 task characterization 1 task conflicts 1 task constellation 1 task embedding 1 task estimation 1 task interference 1 task performance 1 task robustness 1 task success 1 task vectors 1 task-aware routing 1 task-centric evaluation 1 task-specific adaptation 1 taxonomy 1 taxonomy adaptation 1 taxonomy reasoning 1 technical debt 1 technical indicators 1 teleoperation 1 temperature prediction 1 temporal abstraction 1 temporal context 1 temporal continuity 1 temporal control 1 temporal diffusion 1 temporal disentanglement 1 temporal editing 1 temporal evidence 1 temporal regularization 1 temporal search 1 temporal segmentation 1 temporal sparsity 1 temporal synchronization 1 tensornet2 1 terminal agents 1 terminal environments 1 termination policy 1 ternary weights 1 terrain generation 1 test case exploitation 1 test oracle 1 test set analysis 1 test set reduction 1 test-set leakage 1 test-time alignment 1 test-time evolution 1 test-time inference 1 test-time method 1 text classification 1 text detection 1 text encoder 1 text normalization 1 text preprocessing 1 text processing 1 text rendering 1 text representations 1 text structure 1 text-based environments 1 text-guided editing 1 text-rich video 1 text-to-audio 1 text-to-cad 1 text-to-environment 1 text-to-image reward 1 text-to-interaction 1 text-to-multi-image generation 1 text-to-panorama 1 text-to-sql 1 text-to-video adaptation 1 text-to-visualization 1 textual inversion 1 texture prediction 1 textured generation 1 textured mesh 1 thematic analysis 1 theoretical framework 1 theory of mind 1 thinking calibration 1 thinking models 1 thinking protocols 1 thinking trajectories 1 thought communication 1 thought processes 1 thought templates 1 threshold tuning 1 thyroid nodule 1 tibetan 1 time series 1 time series analysis 1 time series classification 1 time series forecasting 1 time series generation 1 time series reasoning 1 time-budgeted inference 1 timestep distillation 1 tissue microenvironment analysis 1 token acceptance 1 token efficiency 1 token embedding 1 token entropy 1 token filling order 1 token generation 1 token merging 1 token optimization 1 token permutation 1 token prediction 1 token prior 1 token pruning 1 token reduction 1 token routing 1 token sparsification 1 token-level control 1 token-level offloading 1 tokenizer alignment 1 tokenizer optimization 1 tool adaptation 1 tool agents 1 tool generation 1 tool safety 1 tool utilization 1 tool-augmented llm 1 tool-augmented llms 1 tool-augmented models 1 tool-augmented training 1 tool-augmented verification 1 tool-based refinement 1 tool-integrated rl 1 tool-use 1 tool-use dataset 1 tool-using agents 1 toolbox 1 toolkit 1 top-p prediction 1 topological adaptation 1 topological awareness 1 topological planning 1 tournament-based 1 tower defense 1 toxicity detection 1 training collapse 1 training data 1 training data curation 1 training ecosystem 1 training-free enhancement 1 training-free intervention 1 training-free pipeline 1 trait analysis 1 trajectory 1 trajectory analysis 1 trajectory control 1 trajectory stability 1 transferability 1 transformer compression 1 transformer efficiency 1 transformer interpretability 1 transformer mechanics 1 transformer models 1 transformer network 1 transformer networks 1 transformer pretraining 1 transformers 1 transient removal 1 transparent objects 1 travel planning 1 tree structure 1 trilemma 1 triplane diffusion 1 truth constraints 1 truth encoding 1 turkish language model 1 turkish nlu 1 two-stage generation 1 u-net architecture 1 uav 1 ubiquitous computing 1 ui agents 1 ui automation 1 ui design 1 ui sandbox 1 ui simulation 1 ui validation 1 ui-to-code 1 ultrasound 1 uncertainty reduction 1 uncertainty sampling 1 uncertainty-aware 1 understanding-generation alignment 1 unified encoding 1 unified generation 1 unified model 1 unified multimodal models 1 unified ontology 1 unified visual generation 1 universal segmentation 1 universal transformer 1 unsupervised discovery 1 unsupervised training 1 uralic languages 1 urban analysis 1 urban sensing 1 usable information 1 user behavior modeling 1 user memory 1 user preference 1 user preference learning 1 user profiling 1 user queries 1 user reviews 1 user-centric agents 1 utility evaluation 1 utility preservation 1 utility-privacy tradeoff 1 utilization metric 1 uv unwrapping 1 uyghur 1 vae 1 variable-length generation 1 variance reduction 1 variational autoencoders 1 variational objective 1 variational optimization 1 variational quantum circuits 1 vector drawings 1 vector embeddings 1 vector similarity search 1 verbosity reduction 1 verifiable ai 1 verifiable environments 1 verifiable feedback 1 verification capacity 1 verifier-free rl 1 verilog generation 1 vertebral level reasoning 1 vertex completion 1 vertex trajectories 1 vfx 1 vibrational analysis 1 video action dataset 1 video aesthetics 1 video alignment 1 video anomaly understanding 1 video chaptering 1 video completion 1 video compositing 1 video composition 1 video compression 1 video customization 1 video depth estimation 1 video difference captioning 1 video diffusion transformers 1 video emotion analysis 1 video forensics 1 video forgery 1 video foundation model 1 video frames 1 video game playing 1 video generation models 1 video generative models 1 video grounding 1 video hallucination 1 video in-context learning 1 video instruction tuning 1 video language models 1 video large language models 1 video latents 1 video matting 1 video model fine-tuning 1 video object insertion 1 video object removal 1 video qa 1 video quality metric 1 video re-rendering 1 video refinement 1 video restoration 1 video retakes 1 video sampling 1 video scene graph generation 1 video segment selection 1 video streaming 1 video structure 1 video stylization 1 video synchronization 1 video temporal grounding 1 video transfer 1 video translation 1 video world model 1 video world models 1 video-llm 1 video-to-action 1 video-to-audio 1 video-to-video diffusion 1 video-web evidence 1 view consistency 1 viewpoint conditioning 1 viewpoint learning 1 viewpoint planning 1 viewpoint selection 1 virtual screening 1 virtual worlds 1 vision backbone 1 vision encoder 1 vision encoders 1 vision models 1 vision-action model 1 vision-centric tasks 1 vision-driven control 1 vision-grounded rl 1 vision-language alignment 1 vision-language modeling 1 vision-language planning 1 vision-language pre-training 1 vision-language synergy 1 vision-text compression 1 visual answering 1 visual autoregressive models 1 visual caching 1 visual chain-of-thought 1 visual concept blending 1 visual concept composition 1 visual concept personalization 1 visual context curation 1 visual cues 1 visual decision-making 1 visual document retrieval 1 visual editing 1 visual emotion comprehension 1 visual encoder 1 visual encoders 1 visual evaluation 1 visual evidence 1 visual foresight 1 visual foundation models 1 visual generalization 1 visual grading 1 visual guidance 1 visual hallucinations 1 visual imagination 1 visual language action model 1 visual mathematical reasoning 1 visual measurement reading 1 visual observation 1 visual programming 1 visual prompt 1 visual prompting 1 visual reflection 1 visual representation preservation 1 visual representations 1 visual resolution 1 visual rumination 1 visual search 1 visual simulation 1 visual slam 1 visual storytelling 1 visual text editing 1 visual token prediction 1 visual token reduction 1 visual token reordering 1 visual tokenization 1 visual understanding 1 visual web agents 1 visual world model 1 visual-language models 1 visual-physical alignment 1 visual-symbolic understanding 1 visual-textual integration 1 visualization generation 1 visualization quality 1 visualization understanding 1 visualwebarena 1 visuomotor policy 1 visuospatial reasoning 1 vit-vae 1 vitdet 1 vla models 1 vlm adaptation 1 voice style adaptation 1 volumetric rendering 1 voting methods 1 voxel art 1 voxel assembly 1 voxel grouping 1 vq-vae 1 vqa 1 vulnerability 1 vulnerability analysis 1 vulnerability assessment 1 vulnerability testing 1 watermark evaluation 1 watermarking 1 weakly supervised learning 1 wearable ai 1 weather modeling 1 web ai agents 1 web coding 1 web reconnaissance 1 web search 1 web searching 1 web simulation 1 web-augmented agents 1 webgpu 1 weight decay 1 weight modification 1 weighted fusion 1 whisper architecture 1 white-box method 1 whole slide images 1 whole slide imaging 1 whole-body control 1 whole-body coordination 1 wikidata alignment 1 word embeddings 1 workflow evaluation 1 workload orchestration 1 workload scheduling 1 world engine 1 world knowledge 1 world simulation 1 world simulator 1 world-aware generation 1 world-centric coordinate 1 writing process 1 xbrl 1 xml 1 yolo 1 yolov5 1 yolov9 1 zero-shot action recognition 1 zero-shot classification 1 zero-shot detection 1 zero-shot prediction 1 zero-shot prompting 1 zero-shot reasoning 1 zero-shot segmentation 1 zero-shot transfer 1 zero-shot tts 1 zero-start learning 1

24小时内新更新论文 24h更新 74 72小时内新更新论文 72h更新 129 最新: Causal World Modeling for Robot Control 01-30

arXiv ID: 2511.21631

arXiv 提交日期: 2025-11-26

multi-modal llm model evaluation vision-language model long-context mixture-of-experts benchmark video understanding

Qwen3-VL技术报告 / Qwen3-VL Technical Report

1️⃣ 一句话总结

这篇论文介绍了通义千问系列目前最强的多模态大模型Qwen3-VL，它在文本理解、长上下文处理以及图像视频推理方面都表现卓越，并提供了从轻量到超大规模的不同版本，旨在成为现实应用中多模态智能的核心引擎。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.21579

arXiv 提交日期: 2025-11-26

multi-modal aigc video generation audio-video synchronization diffusion models cross-modal generation classifier-free guidance temporal alignment

和谐：通过跨任务协同实现音视频生成的协调统一 / Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

1️⃣ 一句话总结

这篇论文提出了一个名为Harmony的新框架，通过跨任务协同训练、高效的全局-局部解耦交互模块以及同步增强的引导技术，解决了音视频生成中难以保持精确同步的核心难题，显著提升了生成内容的真实感和同步质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.21395

arXiv 提交日期: 2025-11-26

multi-modal model training llm visual reasoning latent space reinforcement learning multimodal llms knowledge distillation

Monet：超越图像和语言的潜在视觉空间推理 / Monet: Reasoning in Latent Visual Space Beyond Images and Language

1️⃣ 一句话总结

这篇论文提出了一个名为Monet的训练框架，通过让多模态大语言模型直接在潜在视觉空间中生成连续的视觉思维嵌入来进行推理，并针对训练挑战设计了专门的优化方法，显著提升了模型在真实世界感知和抽象视觉推理任务上的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.21087

arXiv 提交日期: 2025-11-26

multi-modal agents model training image editing multimodal reasoning instruction following iterative reasoning tool-use dataset

MIRA：用于图像编辑的多模态迭代推理智能体 / MIRA: Multimodal Iterative Reasoning Agent for Image Editing

1️⃣ 一句话总结

本文提出了一种名为MIRA的轻量级多模态推理智能体，它通过模拟人类多轮交互过程，逐步分析和执行图像编辑指令，显著提升了复杂指令下图像编辑的准确性和质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.21025

arXiv 提交日期: 2025-11-26

model evaluation multi-modal natural language processing image captioning benchmark utility evaluation multimodal llm qa-based assessment

CaptionQA：你的图像描述是否和图像本身一样有用？ / CaptionQA: Is Your Caption as Useful as the Image Itself?

1️⃣ 一句话总结

本文提出了一个名为CaptionQA的新基准，通过量化图像描述（caption）在多大程度上能替代原始图像以支持下游任务（如检索、推荐、具身AI等），来评估描述的质量，揭示了当前最先进模型生成的描述在实用性上与原始图像存在显著差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.20785

arXiv 提交日期: 2025-11-25

multi-modal agents model training video reasoning tool calling long-form video agentic framework multimodal chain-of-thought

LongVT：通过原生工具调用激励“长视频思维” / LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling

1️⃣ 一句话总结

这篇论文提出了一个名为LongVT的智能框架，它模仿人类观看长视频时‘先概览再聚焦细节’的思维过程，通过让大模型自己学会‘裁剪’视频片段来逐步寻找答案，有效解决了现有模型在处理长视频时容易‘胡编乱造’的问题，并在多个评测中表现优异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.20649

arXiv 提交日期: 2025-11-25

video generation model training multi-modal autoregressive video diffusion rotary positional embedding inference-time framework long-form video generation action control

Infinity-RoPE：从自回归自展开中涌现的可控动作无限视频生成 / Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout

1️⃣ 一句话总结

这篇论文提出了一种名为Infinity-RoPE的新方法，它能让现有的视频生成模型突破时间长度限制，生成更长的视频，同时还能更精确地控制视频中的动作，并实现类似电影剪辑的场景切换效果，而且无需重新训练模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.20643

arXiv 提交日期: 2025-11-25

model training multi-modal data batch sampling data curation vision-language pretraining concept-aware clip

概念感知批量采样改进语言-图像预训练 / Concept-Aware Batch Sampling Improves Language-Image Pretraining

1️⃣ 一句话总结

这篇论文提出了一种名为CABS的动态批量采样方法，它能在训练过程中根据目标概念分布智能选择数据，显著提升了视觉-语言模型的性能，无需依赖预先筛选的静态数据集。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.20573

arXiv 提交日期: 2025-11-25

computer vision multi-modal model training visual question answering visual answering data generation benchmark evaluation image editing

VQ-VA World框架：面向视觉问答-视觉回答任务的数据中心化解决方案 / VQ-VA World: Towards High-Quality Visual Question-Visual Answering

1️⃣ 一句话总结

本文提出了VQ-VA World框架，通过智能数据构建管道收集180万高质量图像-文本样本，并发布IntelligentBench人工策划基准，显著提升了开源模型在视觉问答-视觉回答任务上的性能，缩小了与专有模型的差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.20494

arXiv 提交日期: 2025-11-25

multi-modal llm model evaluation adversarial attack multimodal llms security model disruption transferability

对抗性混淆攻击：扰乱多模态大语言模型 / Adversarial Confusion Attack: Disrupting Multimodal Large Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为‘对抗性混淆攻击’的新威胁方法，它通过向图像中添加微小的、人眼难以察觉的干扰，就能让多模态大语言模型（如GPT-5.1）产生混乱或自信的错误回答，从而破坏AI代理的可靠运行。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

📄 提交新论文

📄

提交新论文

AI论文阅读