STRIDE: Post-Training LLMs to Reason and Refine Bio-Sequences via Edit Trajectories - 专知论文

会员服务 ·

0

步幅 · 离散化 · 优化器 · MoDELS · 控制器 ·

STRIDE: Post-Training LLMs to Reason and Refine Bio-Sequences via Edit Trajectories

翻译：暂无翻译

Daiheng Zhang,Shiyang Zhang,Sizhuang He,Yangtian Zhang,Syed Asad Rizvi,David van Dijk

from arxiv, Accepted to ICML 2026

Discrete biological sequence optimization often requires goal-directed, parser-valid edits to an existing protein or molecule. Diffusion models support iterative refinement but do not expose a controllable discrete-edit interface, while autoregressive LLMs can be myopic when planning constrained edits over multiple steps. We introduce STRIDE (Sequence Trajectory Refinement via Iterative Discrete Editing), a post-training framework that trains an LLM to emit executable INSERT/DELETE/REPLACE trajectories for variable-length refinement. STRIDE first learns Levenshtein-aligned shortest-edit demonstrations, then uses supervised fine-tuning and group-based policy optimization to align trajectories with task rewards while preserving coherent editing. On an oracle-based full-action protein stress test, STRIDE raises success over Vanilla SFT from 42% to 89% and novelty among unique improvements from 47% to 97%. On instruction-conditioned molecular editing, the GSPO-aligned variant improves strict success, controllability, and SMILES validity over the SFT-only STRIDE model (code: https://github.com/daiheng-zhang/STRIDE).

翻译：暂无翻译

0

相关内容

ICML2024｜知识感知的强化学习优化的蛋白质定向进化方法

ICML2024｜知识感知的强化学习优化的蛋白质定向进化方法

专知会员服务

15+阅读 · 2024年10月18日

ICLR2023：通过提示学习的蛋白质多级结构预训练

ICLR2023：通过提示学习的蛋白质多级结构预训练

专知会员服务

12+阅读 · 2023年11月26日

Nat. Biotechnol. | 使用语言模型和深度学习的单序列蛋白质结构预测

Nat. Biotechnol. | 使用语言模型和深度学习的单序列蛋白质结构预测

专知会员服务

11+阅读 · 2022年10月17日

【CVPR 2022】基于元内存传输的跨域少镜头语义分割，Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

【CVPR 2022】基于元内存传输的跨域少镜头语义分割，Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

专知会员服务

13+阅读 · 2022年3月12日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

【亚马逊-WWW2020】不解析,生成!用于面向任务的语义分析的序列到序列体系结构，Don't Parse, Generate! A Sequence to Sequence Architecture for Task-Oriented Semantic Parsing

【亚马逊-WWW2020】不解析,生成!用于面向任务的语义分析的序列到序列体系结构，Don't Parse, Generate! A Sequence to Sequence Architecture for Task-Oriented Semantic Parsing

专知会员服务

15+阅读 · 2020年2月1日

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

专知会员服务

28+阅读 · 2019年12月27日

【论文强烈推荐】基于卷积神经网络的基因组序列基序的表示学习，Representation learning of genomic sequence motifs with convolutional neural networks

【论文强烈推荐】基于卷积神经网络的基因组序列基序的表示学习，Representation learning of genomic sequence motifs with convolutional neural networks

专知会员服务

12+阅读 · 2019年12月21日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART III）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART III）

AINLP

25+阅读 · 2019年8月21日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

利用神经网络进行序列到序列转换的学习

利用神经网络进行序列到序列转换的学习

AI研习社

12+阅读 · 2019年4月26日

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

AI研习社

32+阅读 · 2019年4月5日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

《pyramid Attention Network for Semantic Segmentation》

《pyramid Attention Network for Semantic Segmentation》

统计学习与视觉计算组

44+阅读 · 2018年8月30日

BiSeNet：双向分割网络进行实时语义分割

BiSeNet：双向分割网络进行实时语义分割

统计学习与视觉计算组

22+阅读 · 2018年8月23日

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

专知

10+阅读 · 2018年4月8日

读书报告 | Deep Learning for Extreme Multi-label Text Classification

读书报告 | Deep Learning for Extreme Multi-label Text Classification

科技创新与创业

48+阅读 · 2018年1月10日

论文浅尝 | Question Answering over Freebase

论文浅尝 | Question Answering over Freebase

开放知识图谱

19+阅读 · 2018年1月9日

多视角识别长非编码RNA和人类复杂疾病关联预测研究

国家自然科学基金

4+阅读 · 2017年12月31日

细胞分化过程中长非编码RNA介导的三维基因组遗传信息传递网络的解析

国家自然科学基金

0+阅读 · 2015年12月31日

基于异构网络的致病基因及其复合物预测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多生物网络的蛋白质功能预测算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

与RNA、DNA及蛋白质绑定的固有无序片段的分析及预测

国家自然科学基金

2+阅读 · 2015年12月31日

部分同源片段间基因置换的研究及其可视化网络服务平台的建立

国家自然科学基金

0+阅读 · 2015年12月31日

蒙古高原反刍家畜基因序列比对分析云计算平台研究及变异关联数据库的构建

国家自然科学基金

0+阅读 · 2014年12月31日

面向蛋白质分子位点标记的多源特征提取和深度序列学习方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向基因组相关性研究的迁移学习理论与方法

国家自然科学基金

0+阅读 · 2014年12月31日

种群遗传学的多人交互式学习研究

国家自然科学基金

0+阅读 · 2014年12月31日

When Cars Have Stereotypes: Auditing Demographic Bias in Objects from Text-to-Image Models

Arxiv

0+阅读 · 6月17日

ScholarSum: Student-Teacher Abstractive Summarization via Knowledge Graph Reasoning and Reflective Refinement

Arxiv

0+阅读 · 6月17日

RegMix-D: Dynamic Data Mixing via Proxy Training Trajectories

Arxiv

0+阅读 · 6月17日

Tests for categorical data beyond Pearson: A distance covariance and energy distance approach

Arxiv

0+阅读 · 6月16日

Understanding and Debugging Failures in N-Gram-Based Generative Retrieval

Arxiv

0+阅读 · 6月16日

Spurious Correlation Learning in Preference Optimization: Mechanisms, Consequences, and Mitigation via Tie Training

Arxiv

0+阅读 · 5月29日

BijectiveRemesh: Maintaining Bijective Mappings for Data Transfer Across Remeshed Manifolds

Arxiv

0+阅读 · 5月29日

LineageFlow: Flow Matching for High-Fidelity Family-Aware Protein Sequence Generation

Arxiv

0+阅读 · 5月21日

Contraction and Hourglass Persistence for Learning on Graphs, Simplices, and Cells

Arxiv

0+阅读 · 5月14日

Generating Diverse and Accurate Visual Captions by Comparative Adversarial Learning

Arxiv

10+阅读 · 2018年4月11日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

1+阅读 · 今天15:02

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

1+阅读 · 今天15:00

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

2+阅读 · 今天14:30

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

2+阅读 · 今天14:05

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

2+阅读 · 今天13:55

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

2+阅读 · 今天13:51

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

2+阅读 · 今天13:48

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

ICML2024｜知识感知的强化学习优化的蛋白质定向进化方法

ICML2024｜知识感知的强化学习优化的蛋白质定向进化方法

专知会员服务

15+阅读 · 2024年10月18日

ICLR2023：通过提示学习的蛋白质多级结构预训练

ICLR2023：通过提示学习的蛋白质多级结构预训练

专知会员服务

12+阅读 · 2023年11月26日

Nat. Biotechnol. | 使用语言模型和深度学习的单序列蛋白质结构预测

Nat. Biotechnol. | 使用语言模型和深度学习的单序列蛋白质结构预测

专知会员服务

11+阅读 · 2022年10月17日

【CVPR 2022】基于元内存传输的跨域少镜头语义分割，Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

【CVPR 2022】基于元内存传输的跨域少镜头语义分割，Remember the Difference: Cross-Domain Few-Shot Semantic Segmentation via Meta-Memory Transfer

专知会员服务

13+阅读 · 2022年3月12日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

【亚马逊-WWW2020】不解析,生成!用于面向任务的语义分析的序列到序列体系结构，Don't Parse, Generate! A Sequence to Sequence Architecture for Task-Oriented Semantic Parsing

【亚马逊-WWW2020】不解析,生成!用于面向任务的语义分析的序列到序列体系结构，Don't Parse, Generate! A Sequence to Sequence Architecture for Task-Oriented Semantic Parsing

专知会员服务

15+阅读 · 2020年2月1日

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

专知会员服务

28+阅读 · 2019年12月27日

【论文强烈推荐】基于卷积神经网络的基因组序列基序的表示学习，Representation learning of genomic sequence motifs with convolutional neural networks

【论文强烈推荐】基于卷积神经网络的基因组序列基序的表示学习，Representation learning of genomic sequence motifs with convolutional neural networks

专知会员服务

12+阅读 · 2019年12月21日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【论文】Awesome Relation Extraction Paper（关系抽取）（PART III）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART III）

AINLP

25+阅读 · 2019年8月21日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

利用神经网络进行序列到序列转换的学习

利用神经网络进行序列到序列转换的学习

AI研习社

12+阅读 · 2019年4月26日

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

AI研习社

32+阅读 · 2019年4月5日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

《pyramid Attention Network for Semantic Segmentation》

《pyramid Attention Network for Semantic Segmentation》

统计学习与视觉计算组

44+阅读 · 2018年8月30日

BiSeNet：双向分割网络进行实时语义分割

BiSeNet：双向分割网络进行实时语义分割

统计学习与视觉计算组

22+阅读 · 2018年8月23日

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

【论文推荐】最新六篇序列推荐相关论文—卷积序列嵌入学习、用户记忆网络、上下文GRU、迁移学习

专知

10+阅读 · 2018年4月8日

读书报告 | Deep Learning for Extreme Multi-label Text Classification

读书报告 | Deep Learning for Extreme Multi-label Text Classification

科技创新与创业

48+阅读 · 2018年1月10日

论文浅尝 | Question Answering over Freebase

论文浅尝 | Question Answering over Freebase

开放知识图谱

19+阅读 · 2018年1月9日

相关论文

When Cars Have Stereotypes: Auditing Demographic Bias in Objects from Text-to-Image Models

Arxiv

0+阅读 · 6月17日

ScholarSum: Student-Teacher Abstractive Summarization via Knowledge Graph Reasoning and Reflective Refinement

Arxiv

0+阅读 · 6月17日

RegMix-D: Dynamic Data Mixing via Proxy Training Trajectories

Arxiv

0+阅读 · 6月17日

Tests for categorical data beyond Pearson: A distance covariance and energy distance approach

Arxiv

0+阅读 · 6月16日

Understanding and Debugging Failures in N-Gram-Based Generative Retrieval

Arxiv

0+阅读 · 6月16日

Spurious Correlation Learning in Preference Optimization: Mechanisms, Consequences, and Mitigation via Tie Training

Arxiv

0+阅读 · 5月29日

BijectiveRemesh: Maintaining Bijective Mappings for Data Transfer Across Remeshed Manifolds

Arxiv

0+阅读 · 5月29日

LineageFlow: Flow Matching for High-Fidelity Family-Aware Protein Sequence Generation

Arxiv

0+阅读 · 5月21日

Contraction and Hourglass Persistence for Learning on Graphs, Simplices, and Cells

Arxiv

0+阅读 · 5月14日

Generating Diverse and Accurate Visual Captions by Comparative Adversarial Learning

Arxiv

10+阅读 · 2018年4月11日

相关基金

多视角识别长非编码RNA和人类复杂疾病关联预测研究

国家自然科学基金

4+阅读 · 2017年12月31日

细胞分化过程中长非编码RNA介导的三维基因组遗传信息传递网络的解析

国家自然科学基金

0+阅读 · 2015年12月31日

基于异构网络的致病基因及其复合物预测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多生物网络的蛋白质功能预测算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

与RNA、DNA及蛋白质绑定的固有无序片段的分析及预测

国家自然科学基金

2+阅读 · 2015年12月31日

部分同源片段间基因置换的研究及其可视化网络服务平台的建立

国家自然科学基金

0+阅读 · 2015年12月31日

蒙古高原反刍家畜基因序列比对分析云计算平台研究及变异关联数据库的构建

国家自然科学基金

0+阅读 · 2014年12月31日

面向蛋白质分子位点标记的多源特征提取和深度序列学习方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向基因组相关性研究的迁移学习理论与方法

国家自然科学基金

0+阅读 · 2014年12月31日

种群遗传学的多人交互式学习研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员