Reasonable pricing of data products enables data trading platforms to maximize revenue and foster the growth of the data trading market. The textual semantics of data products are vital for pricing and contain significant value that remains largely underexplored. Therefore, to investigate how textual features influence data product pricing, we employ five prevalent text representation techniques to encode the descriptive text of data products. And then, we employ six machine learning methods to predict data product prices, including linear regression, neural networks, decision trees, support vector machines, random forests, and XGBoost. Our empirical design consists of two tasks: a regression task that predicts the continuous price of data products, and a classification task that discretizes price into ordered categories. Furthermore, we conduct feature importance analysis by the mRMR feature selection method and SHAP-based interpretability techniques. Based on empirical data from the AWA Data Exchange, we find that for predicting continuous prices, Word2Vec text representations capturing semantic similarity yield superior performance. In contrast, for price-tier classification tasks, simpler representations that do not rely on semantic similarity, such as Bag-of-Words and TF-IDF, perform better. SHAP analysis reveals that semantic features related to healthcare and demographics tend to increase prices, whereas those associated with weather and environmental topics are linked to lower prices. This analytical framework significantly enhances the interpretability of pricing models.


翻译:数据产品的合理定价能够帮助数据交易平台实现收益最大化并促进数据交易市场的增长。数据产品的文本语义对定价至关重要,其中蕴含的重要价值目前尚未得到充分挖掘。为此,为探究文本特征如何影响数据产品定价,我们采用五种主流的文本表示技术对数据产品的描述文本进行编码。随后,我们运用六种机器学习方法预测数据产品价格,包括线性回归、神经网络、决策树、支持向量机、随机森林和XGBoost。我们的实证设计包含两项任务:一项是预测数据产品连续价格的回归任务,另一项是将价格离散化为有序类别的分类任务。此外,我们通过mRMR特征选择方法和基于SHAP的可解释性技术进行了特征重要性分析。基于来自AWA数据交易平台的实证数据,我们发现:在预测连续价格时,能够捕捉语义相似性的Word2Vec文本表示方法表现更优;而在价格层级分类任务中,不依赖语义相似性的更简单表示方法(如词袋模型和TF-IDF)效果更好。SHAP分析表明,与医疗健康和人口统计相关的语义特征往往推高价格,而与天气和环境主题相关的语义特征则与较低价格相关联。该分析框架显著提升了定价模型的可解释性。

0
下载
关闭预览

相关内容

用来满足人们需求和欲望的物体或无形的载体。好的产品大家都喜欢
文本分类算法及其应用场景研究
专知会员服务
19+阅读 · 2024年7月31日
文本分类算法及其应用场景研究综述
专知会员服务
29+阅读 · 2024年6月18日
基于深度学习的中文文本分类综述
专知会员服务
25+阅读 · 2024年5月9日
机器学习在金融资产定价中的应用研究综述
专知会员服务
37+阅读 · 2022年6月14日
【新书】自然语言处理表示学习技术,349页pdf,清华大学
专知会员服务
174+阅读 · 2020年7月11日
基于深度学习的数据融合方法研究综述
专知
37+阅读 · 2020年12月10日
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
机器学习自动文本分类
AI前线
23+阅读 · 2018年2月4日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月17日
VIP会员
最新内容
《美陆军条例:陆军指挥政策(2026版)》
专知会员服务
6+阅读 · 今天8:10
《军用自主人工智能系统的治理与安全》
专知会员服务
5+阅读 · 今天8:02
《系统簇式多域作战规划范畴论框架》
专知会员服务
8+阅读 · 4月20日
高效视频扩散模型:进展与挑战
专知会员服务
4+阅读 · 4月20日
乌克兰前线的五项创新
专知会员服务
8+阅读 · 4月20日
 军事通信系统与设备的技术演进综述
专知会员服务
7+阅读 · 4月20日
《北约标准:医疗评估手册》174页
专知会员服务
6+阅读 · 4月20日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员