Urdu, as a low-resource language, lacks effective semantic content recommendation systems, particularly in the domain of personalized news retrieval. Existing approaches largely rely on lexical matching or language-agnostic techniques, which struggle to capture semantic intent and perform poorly under varying query lengths and information needs. This limitation results in reduced relevance and adaptability in Urdu content recommendation. We propose ULTRA (Urdu Language Transformer-based Recommendation Architecture),an adaptive semantic recommendation framework designed to address these challenges. ULTRA introduces a dual-embedding architecture with a query-length aware routing mechanism that dynamically distinguishes between short, intent-focused queries and longer, context-rich queries. Based on a threshold-driven decision process, user queries are routed to specialized semantic pipelines optimized for either title/headline-level or full-content/document level representations, ensuring appropriate semantic granularity during retrieval. The proposed system leverages transformer-based embeddings and optimized pooling strategies to move beyond surface-level keyword matching and enable context-aware similarity search. Extensive experiments conducted on a large-scale Urdu news corpus demonstrate that the proposed architecture consistently improves recommendation relevance across diverse query types. Results show gains in precision above 90% compared to single-pipeline baselines, highlighting the effectiveness of query-adaptive semantic alignment for low-resource languages. The findings establish ULTRA as a robust and generalizable content recommendation architecture, offering practical design insights for semantic retrieval systems in low-resource language settings.


翻译:乌尔都语作为一种低资源语言,缺乏有效的语义内容推荐系统,尤其是在个性化新闻检索领域。现有方法主要依赖于词汇匹配或语言无关技术,难以捕捉语义意图,且在查询长度和信息需求变化时表现不佳。这一局限性导致乌尔都语内容推荐的相关性和适应性降低。我们提出了ULTRA(基于乌尔都语Transformer的推荐架构),这是一种旨在应对上述挑战的自适应语义推荐框架。ULTRA引入了一种双嵌入架构,配备查询长度感知路由机制,能够动态区分短小、意图集中的查询与较长、上下文丰富的查询。基于阈值驱动的决策过程,用户查询被路由至专门优化的语义处理管道——分别针对标题/头条级别或全文/文档级别的表示进行优化,从而确保检索过程中语义粒度的适当性。该系统利用基于Transformer的嵌入表示和优化的池化策略,超越了表层的关键词匹配,实现了上下文感知的相似性搜索。在大规模乌尔都语新闻语料上进行的大量实验表明,所提出的架构能够持续提升不同类型查询的推荐相关性。结果显示,与单管道基线相比,其精确度提升超过90%,凸显了查询自适应语义对齐在低资源语言中的有效性。研究结果确立了ULTRA作为一种鲁棒且可泛化的内容推荐架构,为低资源语言环境下的语义检索系统提供了实用的设计见解。

0
下载
关闭预览

相关内容

推荐系统与大语言模型技术融合:EMNLP/NeurIPS相关论文导览
RecInterpreter:架起大语言模型与传统推荐模型的桥梁
专知会员服务
54+阅读 · 2023年11月9日
【知乎】超越Lexical:用于文本搜索引擎的语义检索框架
专知会员服务
22+阅读 · 2020年8月28日
Jiagu:中文深度学习自然语言处理工具
AINLP
90+阅读 · 2019年2月20日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员