The effectiveness of brand monitoring in India is increasingly challenged by the rise of Hinglish--a hybrid of Hindi and English--used widely in user-generated content on platforms like Twitter. Traditional Natural Language Processing (NLP) models, built for monolingual data, often fail to interpret the syntactic and semantic complexity of this code-mixed language, resulting in inaccurate sentiment analysis and misleading market insights. To address this gap, we propose a high-performance sentiment classification framework specifically designed for Hinglish tweets. Our approach fine-tunes mBERT (Multilingual BERT), leveraging its multilingual capabilities to better understand the linguistic diversity of Indian social media. A key component of our methodology is the use of subword tokenization, which enables the model to effectively manage spelling variations, slang, and out-of-vocabulary terms common in Romanized Hinglish. This research delivers a production-ready AI solution for brand sentiment tracking and establishes a strong benchmark for multilingual NLP in low-resource, code-mixed environments.


翻译:在印度,品牌监测的有效性日益受到印地语-英语混合语(Hinglish)兴起的挑战。这种印地语与英语的混合语言在Twitter等平台的用户生成内容中被广泛使用。传统的自然语言处理模型专为单语数据构建,通常无法解析这种代码混合语言的句法和语义复杂性,导致情感分析不准确和市场洞察误导。为弥补这一不足,我们提出一个专为印地语-英语混合推文设计的高性能情感分类框架。我们的方法对mBERT进行微调,利用其多语言能力以更好地理解印度社交媒体的语言多样性。我们方法的一个关键组成部分是使用子词分词,这使得模型能够有效处理罗马化印地语-英语混合语中常见的拼写变体、俚语和未登录词。本研究为品牌情感追踪提供了一个可用于生产环境的人工智能解决方案,并为低资源代码混合环境下的多语言自然语言处理建立了坚实的基准。

0
下载
关闭预览

相关内容

直接偏好优化:一种新的RLHF方法,87页ppt
专知会员服务
43+阅读 · 2024年6月10日
高效的文本生成方法 — LaserTagger 现已开源
TensorFlow
30+阅读 · 2020年2月27日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员