成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
镜像
关注
3
综合
百科
VIP
热门
动态
论文
精华
Emotion Collider: Dual Hyperbolic Mirror Manifolds for Sentiment Recovery via Anti Emotion Reflection
Arxiv
0+阅读 · 2月18日
Orthogonalized Policy Optimization:Decoupling Sampling Geometry from Optimization Geometry in RLHF
Arxiv
0+阅读 · 2月17日
Sri Lanka Document Datasets: A Large-Scale, Multilingual Resource for Law, News, and Policy
Arxiv
0+阅读 · 2月10日
SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents
Arxiv
0+阅读 · 2月11日
Improved Regret Guarantees for Online Mirror Descent using a Portfolio of Mirror Maps
Arxiv
0+阅读 · 2月13日
Approximation of Log-Partition Function in Policy Mirror Descent Induces Implicit Regularization for LLM Post-Training
Arxiv
0+阅读 · 2月5日
Beyond KL Divergence: Policy Optimization with Flexible Bregman Divergences for LLM Reasoning
Arxiv
0+阅读 · 2月4日
Functional Stochastic Localization
Arxiv
0+阅读 · 2月3日
Sparse Training of Neural Networks based on Multilevel Mirror Descent
Arxiv
0+阅读 · 2月3日
Entropic Mirror Monte Carlo
Arxiv
0+阅读 · 2月3日
Deterministic Zeroth-Order Mirror Descent via Vector Fields with A Posteriori Certification
Arxiv
0+阅读 · 1月31日
Orthogonalized Policy Optimization:Decoupling Sampling Geometry from Optimization Geometry in RLHF
Arxiv
0+阅读 · 1月21日
A Mirror-Descent Algorithm for Computing the Petz-Rényi Capacity of Classical-Quantum Channels
Arxiv
0+阅读 · 1月15日
Docker Does Not Guarantee Reproducibility
Arxiv
0+阅读 · 1月19日
SMOTE and Mirrors: Exposing Privacy Leakage from Synthetic Minority Oversampling
Arxiv
0+阅读 · 1月27日
参考链接
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top