Generating step-by-step "how-to" procedures is a key LLM capability: how-to advice is commonly requested in chatbots, and step-by-step planning is critical for reasoning over complex tasks. Yet, measuring and improving procedural validity at scale on real-world tasks remains challenging and understudied. To address this, we introduce How2Everything, a scalable framework to evaluate and improve goal-conditioned procedure generation. Our framework includes How2Mine, which mines 351K procedures from 980K web pages across 14 topics and readily scales to larger corpora. From this pool we build How2Bench, a 7K-example evaluation set balanced across topics. To reliably score model outputs, we develop How2Score, an evaluation protocol that uses an LLM judge to detect whether a generation contains any critical failure that would prevent achieving the goal. For low-cost, reproducible evaluation, we distill a frontier model into an open 8B model, achieving 80.5% agreement with human annotators. How2Bench reveals clear scaling trends across model sizes and training stages, providing signal early in pretraining. Finally, RL using How2Score as a reward improves performance on How2Bench by >10 points across three models without systematic regressions on standard benchmarks, with gains robust to superficial source-document memorization or format compliance. Taken together, How2Everything shows how pretraining web data can support a closed loop of capability evaluation and improvement at scale.


翻译:生成分步"操作流程"是大语言模型(LLM)的核心能力:聊天机器人常被请求提供操作指导,而分步规划对复杂任务的推理至关重要。然而,在现实任务中大规模衡量和改进流程有效性仍具挑战性且研究不足。为此,我们提出How2Everything——一个可扩展的目标条件流程生成评估与改进框架。该框架包含How2Mine,它从14个主题的98万个网页中挖掘出35.1万条流程,并能轻松扩展至更大规模语料库。基于此构建了How2Bench,这是一个涵盖各主题的7千样本平衡评估集。为可靠评分模型输出,我们开发了How2Score评估协议,采用LLM评判器检测生成内容是否包含阻碍目标实现的关键错误。为实现低成本可复现评估,我们将前沿模型蒸馏为80亿参数开源模型,与人工标注者达成80.5%的一致性。How2Bench揭示了模型规模和训练阶段间的显著扩展规律,在预训练早期即可提供有效信号。最后,使用How2Score作为奖励的强化学习使三个模型在How2Bench上的性能提升超过10分,且在标准基准测试中未出现系统性衰退,其增益对表面化的源文档记忆或格式合规具有鲁棒性。综合而言,How2Everything展示了如何利用预训练网络数据构建大规模能力评估与改进的闭环系统。

0
下载
关闭预览

相关内容

Everything 是一个文件名搜索工具。它小巧免费,支持中文,支持正则表达式,可以通过 HTTP 或 FTP 分享搜索结果。 善用佳软详细介绍: xbeta.info/everything-s
PlanGenLLMs:大型语言模型规划能力的最新综述
专知会员服务
33+阅读 · 2025年5月18日
大型语言模型(LLMs),附Slides与视频
专知会员服务
70+阅读 · 2024年6月30日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员