We study the problem of learning a partially observed matrix under the low rank assumption in the presence of fully observed side information that depends linearly on the true underlying matrix. This problem consists of an important generalization of the Matrix Completion problem, a central problem in Statistics, Operations Research and Machine Learning, that arises in applications such as recommendation systems, signal processing, system identification and image denoising. We formalize this problem as an optimization problem with an objective that balances the strength of the fit of the reconstruction to the observed entries with the ability of the reconstruction to be predictive of the side information. We derive a mixed-projection reformulation of the resulting optimization problem and present a strong semidefinite cone relaxation. We design an efficient, scalable alternating direction method of multipliers algorithm that produces high quality feasible solutions to the problem of interest. Our numerical results demonstrate that in the small rank regime ({\color{black}$k \leq 10$}), our algorithm outputs solutions that achieve on average {\color{black}$2.3\%$} lower objective value and {\color{black}$41\%$} lower $\ell_2$ reconstruction error than the solutions returned by the best performing benchmark method on synthetic data. The runtime of our algorithm is competitive with and often superior to that of the benchmark methods. Our algorithm is able to solve problems with $n = 10000$ rows and $m = 10000$ columns in less than a minute. On large scale real world data, our algorithm produces solutions that achieve $67\%$ lower out of sample error than benchmark methods in $97\%$ less execution time.


翻译:我们研究了在存在完全观测的、与真实底层矩阵呈线性关系的辅助信息条件下,学习部分观测矩阵的低秩假设问题。该问题是矩阵补全问题的重要推广,后者作为统计学、运筹学和机器学习中的核心问题,在推荐系统、信号处理、系统辨识和图像去噪等应用中广泛出现。我们将此问题形式化为一个优化问题,其目标函数在重建结果对观测条目的拟合强度与重建结果对辅助信息的预测能力之间进行权衡。我们推导了该优化问题的混合投影重构形式,并提出了一个强半定锥松弛。我们设计了一种高效、可扩展的交替方向乘子法算法,能为目标问题生成高质量的可行解。数值结果表明,在小秩条件下($k \leq 10$),我们的算法所得解在合成数据上相比性能最佳的基准方法,平均实现了$2.3\%$更低的目标函数值和$41\%$更低的$\ell_2$重建误差。算法运行时间与基准方法相当且通常更优,能在不到一分钟内求解$n = 10000$行、$m = 10000$列规模的问题。在大规模实际数据上,我们的算法所得解相比基准方法实现了$67\%$更低的样本外误差,且运行时间减少了$97\%$。

0
下载
关闭预览

相关内容

在数学和计算机科学之中,算法(Algorithm)为一个计算的具体步骤,常用于计算、数据处理和自动推理。精确而言,算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。 来自维基百科: 算法
几何观点下的深度学习
专知会员服务
35+阅读 · 2022年12月13日
最新《 深度学习时代的低光图像增强》综述论文,
专知会员服务
38+阅读 · 2021年4月30日
专知会员服务
46+阅读 · 2020年7月29日
learn to see in the dark-低照度图像增强算法
计算机视觉life
16+阅读 · 2019年1月14日
用机器学习来预测股价(代码+文档)——2018年iNTUtion决赛大作!
量化投资与机器学习
25+阅读 · 2018年11月20日
【干货】理解深度学习中的矩阵运算
专知
12+阅读 · 2018年2月12日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员