Bangladeshi e-commerce platforms host millions of product reviews written in Bengali Unicode, English, and Banglish, where Bengali is phonetically transcribed in Latin script. However, the impact of code-mixed reviews on recommendation performance remains largely unexplored. We present the first such benchmarking on product reviews from Daraz Bangladesh, evaluating six model families under a per-user chronological leave-last-out protocol. To address the severe long-tail sparsity of the dataset, where 59.3% of users have exactly one interaction, we conduct a systematic k-core threshold ablation across five density configurations. The results reveal that Item-based Collaborative Filtering remains stable across settings, Implicit Matrix Factorization degrades sharply with decreasing density, and Explicit Matrix Factorization uniquely improves at higher thresholds. To characterize the impact of code-mixing on recommendation quality, we perform a language-stratified evaluation of content-based filtering using character n-gram TF-IDF profiles. The results provide empirical evidence that fragmentation of the Banglish vocabulary reduces NDCG@10 by 46.8% relative to Bengali-script users, a degradation traceable to transliteration inconsistency across surface forms. This work establishes a reproducible evaluation foundation for recommendation research in code-mixed, low-resource e-commerce settings. The code is publicly available at https://github.com/os-car-war-thy/daraz-recsys.


翻译:孟加拉国电商平台拥有数百万条用孟加拉语Unicode、英语和Banglish(孟加拉语用拉丁字母音译)撰写产品评论。然而,代码混合评论对推荐性能的影响在很大程度上仍未得到探讨。我们首次对Daraz孟加拉国的产品评论进行基准测试,在按用户时间顺序留一法的协议下评估了六个模型族。为应对数据集严重的长期稀疏性问题(59.3%的用户仅有单次交互),我们在五种密度配置下进行了系统的k-core阈值消融实验。结果显示:基于物品的协同过滤在所有设置中保持稳定,隐式矩阵分解随密度降低而性能急剧下降,而显式矩阵分解在高阈值下表现独特提升。为表征代码混合对推荐质量的影响,我们使用字符n-gram TF-IDF配置文件对基于内容过滤进行语言分层评估。结果提供实证证据:相较于孟加拉语文字用户,Banglish词汇碎片化导致NDCG@10降低46.8%,这种性能退化可追溯到不同表面形式间的音译不一致性。本研究为代码混合、低资源电商环境下的推荐研究建立了可复现的评估基础。代码已公开发布于:https://github.com/os-car-war-thy/daraz-recsys

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
29+阅读 · 2025年2月17日
大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
可靠深度异常检测,34页ppt,Google Balaji Lakshminarayanan讲解
个性化推荐系统技术进展
专知会员服务
66+阅读 · 2020年8月15日
最全推荐系统Embedding召回算法总结
凡人机器学习
30+阅读 · 2020年7月5日
基于 SonarQube 的增量代码扫描
DevOps时代
12+阅读 · 2019年7月18日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
5+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
9+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
11+阅读 · 6月17日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员