价值函数论文 - 专知

会员服务 ·

价值函数

Hessian-augmented Supervised Learning for Hamilton-Jacobi-Bellman PDEs

Arxiv

0+阅读 · 6月22日

From Singleton Obstacles to Clutter: Translation Invariant Compositional Avoid Sets

Arxiv

0+阅读 · 6月22日

Structural Kolmogorov-Arnold Convolutions: Learnable Function on the Values or the Filter Shape as Parameter-Efficient Alternative to Per-Edge Convolutional KANs

Arxiv

0+阅读 · 6月23日

ALOE: Action-Level Off-Policy Evaluation for Vision-Language-Action Model Post-Training

Arxiv

0+阅读 · 6月20日

Horizon Adaptive Offline Policy Learning via Value Stitching

Arxiv

0+阅读 · 6月19日

Approximate Next Policy Sampling: Replacing Conservative Target Policy Updates in Deep RL

Arxiv

0+阅读 · 6月17日

Meta Flow Maps enable scalable reward alignment

Arxiv

0+阅读 · 6月18日

VIMPO: Value-Implicit Policy Optimization for LLMs

Arxiv

0+阅读 · 6月18日

Why Tree-Style Branching Matters for Thought Advantage Estimation in GRPO

Arxiv

0+阅读 · 6月15日

Reinforcement Learning Measurement Model

Arxiv

0+阅读 · 5月10日

Knowing When to Quit: A Principled Framework for Dynamic Abstention in LLM Reasoning

Arxiv

0+阅读 · 6月12日

Knowing When to Quit: A Principled Framework for Dynamic Abstention in LLM Reasoning

Arxiv

0+阅读 · 5月25日

Improved Runtime Bound for the $(μ+ 1)$ EA on BinVal

Arxiv

0+阅读 · 6月11日

Heuristic Pathologies and Further Variance Reduction via Uncertainty Propagation in the AIVAT Family of Techniques

Arxiv

0+阅读 · 5月14日

Generative Modeling by Value-Driven Transport

Arxiv

0+阅读 · 5月21日

参考链接

微信扫码咨询专知VIP会员