Synthesizing high-quality instruction data from unsupervised text is a promising paradigm for training large language models (LLMs), yet automated methods for this task still exhibit significant limitations in the diversity and difficulty of synthesized instructions. To address these challenges, we propose Self-Foveate, an LLM-driven method for instruction synthesis. Inspired by hierarchical human visual perception, Self-Foveate introduces a "Micro-Scatter-Macro" multi-level foveation methodology that guides the extraction of textual information at three complementary granularities, from fine-grained details through cross-region connections to holistic patterns, thereby enhancing both the diversity and difficulty of synthesized instructions. Furthermore, a re-synthesis module is incorporated to improve the fidelity of instructions to source text and their overall quality. Comprehensive experiments across multiple unsupervised corpora and diverse model architectures demonstrate that Self-Foveate consistently outperforms existing methods. We publicly release our code at https://github.com/Mubuky/Self-Foveate


翻译:从无监督文本合成高质量指令数据是训练大语言模型(LLM)的一种前景广阔的方法,然而该任务的自动化方法在合成指令的多样性和难度方面仍存在显著局限。为应对这些挑战,我们提出了Self-Foveate,一种基于LLM驱动的指令合成方法。该方法受人类分层视觉感知机制启发,引入了一种"微观-散射-宏观"多层次中央凹注视方法,引导模型在三个互补的粒度上提取文本信息——从细粒度细节、跨区域关联到整体模式,从而同步提升合成指令的多样性与难度。此外,我们引入了一个再合成模块,以增强指令对源文本的忠实度及其整体质量。在多个无监督语料库和不同模型架构上的综合实验表明,Self-Foveate始终优于现有方法。我们的代码已在https://github.com/Mubuky/Self-Foveate公开。

0
下载
关闭预览

相关内容

多模态大语言模型的自我改进:综述
专知会员服务
25+阅读 · 2025年10月8日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
大模型如何迭代?北大等《大型语言模型自我进化》综述
专知会员服务
65+阅读 · 2021年4月11日
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员