Feature selection is a crucial step in large-scale industrial machine learning systems, directly affecting model accuracy, efficiency, and maintainability. Traditional feature selection methods rely on labeled data and statistical heuristics, making them difficult to apply in production environments where labeled data are limited and multiple operational constraints must be satisfied. To address this, we propose Model Feature Agent (MoFA), a model-driven framework that performs sequential, reasoning-based feature selection using both semantic and quantitative feature information. MoFA incorporates feature definitions, importance scores, correlations, and metadata (e.g., feature groups or types) into structured prompts and selects features through interpretable, constraint-aware reasoning. We evaluate MoFA in three real-world industrial applications: (1) True Interest and Time-Worthiness Prediction, where it improves accuracy while reducing feature group complexity, (2) Value Model Enhancement, where it discovers high-order interaction terms that yield substantial engagement gains in online experiments, and (3) Notification Behavior Prediction, where it selects compact, high-value feature subsets that improve both model accuracy and inference efficiency. Together, these results demonstrate the practicality and effectiveness of LLM-based reasoning for feature selection in real production systems.


翻译:特征选择是大型工业机器学习系统中的关键环节,直接影响模型精度、效率与可维护性。传统特征选择方法依赖标注数据和统计启发式策略,在标注数据有限且需满足多重运行约束的生产环境中难以应用。为解决该问题,我们提出模型特征代理框架,这是一种利用语义与量化特征信息,通过有序推理进行特征选择的模型驱动框架。该框架将特征定义、重要性评分、相关性及元数据(如特征组或类型)融入结构化提示词,通过可解释的约束感知推理选择特征。我们在三个真实工业应用场景中评估该框架:(1)真实兴趣与时效性预测任务中,它在提升精度的同时降低了特征组复杂度;(2)价值模型增强任务中,它发现的高阶交互项在在线实验中带来显著参与度提升;(3)通知行为预测任务中,它筛选出精简的高价值特征子集,同时提升模型精度与推理效率。这些结果共同证明了基于大模型推理在真实生产系统中进行特征选择的实用性与有效性。

0
下载
关闭预览

相关内容

特征选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ),或属性选择( Attribute Selection )。是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。对于一个学习算法来说,好的学习样本是训练模型的关键。
《面向智能制造的工业大模型标准化研究报告》
专知会员服务
30+阅读 · 2025年5月10日
大模型驱动的智能辅助决策原理与典型应用
专知会员服务
72+阅读 · 2025年1月7日
大模型视角下的因果推断
专知会员服务
115+阅读 · 2024年1月10日
推荐算法中的特征工程
专知会员服务
40+阅读 · 2022年9月9日
自动特征工程在推荐系统中的研究
DataFunTalk
10+阅读 · 2019年12月20日
一文读懂机器学习模型的选择与取舍
DBAplus社群
13+阅读 · 2019年8月25日
一文看懂常用特征工程方法
AI研习社
17+阅读 · 2018年5月2日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
自动特征工程在推荐系统中的研究
DataFunTalk
10+阅读 · 2019年12月20日
一文读懂机器学习模型的选择与取舍
DBAplus社群
13+阅读 · 2019年8月25日
一文看懂常用特征工程方法
AI研习社
17+阅读 · 2018年5月2日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员