数学推理论文 - 专知

会员服务 ·

数学推理

Riemann-Bench: A Benchmark for Moonshot Mathematics

Arxiv

0+阅读 · 6月15日

Towards Advanced Mathematical Reasoning for LLMs via First-Order Logic Theorem Proving

Arxiv

0+阅读 · 6月15日

Formalize Once, Edit the Rest: Efficient Lean-Based Answer Selection for Math Reasoning

Arxiv

0+阅读 · 6月14日

The Quality-Utility Paradox: Why High-Reward Data Impairs Small Model Mathematical Reasoning

Arxiv

0+阅读 · 6月15日

DRA-GRPO: Your GRPO Needs to Know Diverse Reasoning Paths for Mathematical Reasoning

Arxiv

0+阅读 · 6月12日

MMR-GRPO: Accelerating GRPO-Style Training through Diversity-Aware Reward Reweighting

Arxiv

0+阅读 · 6月7日

SafeMath: Inference-time Safety improves Math Accuracy

Arxiv

0+阅读 · 3月26日

Scaling Behaviors of LLM Reinforcement Learning Post-Training: An Empirical Study in Mathematical Reasoning

Arxiv

0+阅读 · 4月17日

Triviality Corrected Endogenous Reward

Arxiv

0+阅读 · 4月13日

GanitLLM: Difficulty-Aware Bengali Mathematical Reasoning through Curriculum-GRPO

Arxiv

0+阅读 · 4月19日

TAPO: Translation Augmented Policy Optimization for Multilingual Mathematical Reasoning

Arxiv

0+阅读 · 3月26日

A Survey of Multimodal Mathematical Reasoning: From Perception, Alignment to Reasoning

Arxiv

0+阅读 · 4月14日

GRPO and Reflection Reward for Mathematical Reasoning in Large Language Models

Arxiv

0+阅读 · 3月14日

FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels

Arxiv

0+阅读 · 2月20日

NeuroProlog: Multi-Task Fine-Tuning for Neurosymbolic Mathematical Reasoning via the Cocktail Effect

Arxiv

0+阅读 · 3月4日

参考链接

微信扫码咨询专知VIP会员