Q函数论文 - 专知

会员服务 ·

Q函数

When Life Gives You BC, Make Q-functions: Extracting Q-values from Behavior Cloning for On-Robot Reinforcement Learning

Arxiv

0+阅读 · 6月16日

Fast Non-Episodic Finite-Horizon RL with K-Step Lookahead Thresholding

Arxiv

0+阅读 · 6月13日

Value Functions for Temporal Logic: Optimal Policies and Safety Filters

Arxiv

0+阅读 · 5月1日

Adaptive $Q$-Aid for Conditional Supervised Learning in Offline Reinforcement Learning

Adaptive $Q$-Aid for Conditional Supervised Learning in Offline Reinforcement Learning

Arxiv

0+阅读 · 3月13日

Cross-Domain Policy Optimization via Bellman Consistency and Hybrid Critics

Arxiv

0+阅读 · 3月12日

Uncertainty-Aware Rank-One MIMO Q Network Framework for Accelerated Offline Reinforcement Learning

Arxiv

0+阅读 · 2月23日

Direct Soft-Policy Sampling via Langevin Dynamics

Arxiv

0+阅读 · 2月8日

Choice-Model-Assisted Q-learning for Delayed-Feedback Revenue Management

Arxiv

0+阅读 · 2月2日

ME-IGM: Individual-Global-Max in Maximum Entropy Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月3日

Fast Non-Episodic Finite-Horizon RL with K-Step Lookahead Thresholding

Arxiv

0+阅读 · 1月31日

Smart Exploration in Reinforcement Learning using Bounded Uncertainty Models

Arxiv

0+阅读 · 1月28日

Off-Policy Actor-Critic with Sigmoid-Bounded Entropy for Real-World Robot Learning

Arxiv

0+阅读 · 1月22日

Gaussian-Mixture-Model Q-Functions for Policy Iteration in Reinforcement Learning

Arxiv

0+阅读 · 2025年12月21日

Semiparametric Double Reinforcement Learning with Applications to Long-Term Causal Inference

Arxiv

0+阅读 · 2025年11月12日

Aligning LLMs Toward Multi-Turn Conversational Outcomes Using Iterative PPO

Arxiv

0+阅读 · 2025年11月26日

参考链接

微信扫码咨询专知VIP会员