We study revenue-optimal pricing in data markets with rational, budget-constrained buyers. Such a market offers multiple datasets for sale, and buyers aim to improve the accuracy of their prediction tasks by acquiring data bundles. For each dataset, the market sets a pricing function, which maps the number of records purchased from the dataset to a non-negative price. The market's objective is to set these pricing functions to maximize total revenue, considering that buyers with quasi-linear utilities choose their bundles optimally under budget constraints. We analyze optimal pricing when each dataset's pricing function is only required to be monotone and lower-continuous. Surprisingly, even with this generality, optimal pricing has a highly structured form: it is piecewise linear and convex (PLC) and can be computed efficiently via an LP. Moreover, the total number of kinks across all pricing functions is bounded by the number of buyers. Thus, when datasets far outnumber buyers, most pricing functions are effectively linear. This motivates studying linear pricing, where each record in a dataset is priced uniformly. Although competitive equilibrium gives revenue-optimal linear prices in rivalrous markets with quasi-linear buyers, we show that revenue maximization under linear pricing in data markets is APX-hard. Hence, a striking computational dichotomy emerges: fully general (nonlinear) pricing admits a polynomial-time algorithm, while the simpler linear scheme is APX-hard. Despite the hardness, we design a 2-approximation algorithm when datasets arrive online, and a $(1-1/e)^{-1}$-approximation algorithm for the offline setting. Our framework lays the groundwork for exploring more general pricing schemes, richer utility models, and a deeper understanding of how market structure -- rivalrous versus non-rivalrous -- shapes revenue-optimal pricing.


翻译:本研究探讨了在理性且预算受限的买家参与的数据市场中,如何实现收益最优的定价策略。此类市场提供多种待售数据集,买家旨在通过购买数据组合来提升其预测任务的准确性。对于每个数据集,市场设定一个定价函数,该函数将购买的数据记录数量映射为一个非负价格。市场的目标是在考虑买家具有拟线性效用且受预算约束下最优选择其数据组合的前提下,设定这些定价函数以实现总收益最大化。我们分析了仅要求每个数据集的定价函数单调且下半连续时的最优定价。令人惊讶的是,即使在这种一般性条件下,最优定价仍具有高度结构化的形式:它是分段线性且凸的,并可通过线性规划高效计算。此外,所有定价函数中“拐点”的总数受限于买家数量。因此,当数据集数量远多于买家时,大多数定价函数实际上呈线性。这促使我们研究线性定价,即对数据集中的每条记录进行统一定价。尽管在具有拟线性买家的竞争性市场中,竞争均衡给出了收益最优的线性价格,但我们证明了在数据市场中,线性定价下的收益最大化问题是APX难的。因此,一个显著的计算二分现象出现了:完全一般化的非线性定价存在多项式时间算法,而更简单的线性定价方案却是APX难的。尽管存在计算困难,我们为数据集在线到达的场景设计了一个2-近似算法,并为离线场景设计了一个$(1-1/e)^{-1}$-近似算法。我们的研究框架为探索更一般的定价方案、更丰富的效用模型以及更深入地理解市场结构——竞争性与非竞争性——如何影响收益最优定价奠定了基础。

0
下载
关闭预览

相关内容

《数据要素市场》最新综述,103页pdf详述
专知会员服务
21+阅读 · 2024年11月17日
《数据价值化与数据要素市场发展报告(2024年)》下载
专知会员服务
35+阅读 · 2024年10月6日
《数据赋能作战决策》
专知会员服务
217+阅读 · 2023年4月14日
专知会员服务
30+阅读 · 2021年8月20日
专知会员服务
66+阅读 · 2021年7月18日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
用机器学习来预测股价(代码+文档)——2018年iNTUtion决赛大作!
量化投资与机器学习
25+阅读 · 2018年11月20日
使用LSTM模型预测股价基于Keras
量化投资与机器学习
35+阅读 · 2018年11月17日
基于强化学习的量化交易框架
机器学习研究会
30+阅读 · 2018年2月22日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月18日
VIP会员
相关资讯
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
用机器学习来预测股价(代码+文档)——2018年iNTUtion决赛大作!
量化投资与机器学习
25+阅读 · 2018年11月20日
使用LSTM模型预测股价基于Keras
量化投资与机器学习
35+阅读 · 2018年11月17日
基于强化学习的量化交易框架
机器学习研究会
30+阅读 · 2018年2月22日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
机器学习之确定最佳聚类数目的10种方法
炼数成金订阅号
13+阅读 · 2017年10月12日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员