This paper investigates the relationship between utterance sentiment and language choice in English-Tamil code-switched text, using methods from machine learning and statistical modelling. We apply a fine-tuned XLM-RoBERTa model for token-level language identification on 35,650 romanized YouTube comments from the DravidianCodeMix dataset, producing per-utterance measurements of English proportion and language switch frequency. Linear regression analysis reveals that positive utterances exhibit significantly greater English proportion (34.3%) than negative utterances (24.8%), and mixed-sentiment utterances show the highest language switch frequency when controlling for utterance length. These findings support the hypothesis that emotional content demonstrably influences language choice in multilingual code-switching settings, due to socio-linguistic associations of prestige and identity with embedded and matrix languages.


翻译:本文利用机器学习与统计建模方法,探究英语-泰米尔语码混合文本中话语情感与语言选择之间的关系。我们采用经过微调的XLM-RoBERTa模型,对DravidianCodeMix数据集中35,650条罗马化YouTube评论进行词元级语言识别,生成每条话语的英语比例与语言转换频率指标。线性回归分析表明:积极话语的英语比例(34.3%)显著高于消极话语(24.8%),而混合情感话语在控制话语长度后显示出最高的语言转换频率。这些发现支持了情绪内容在多语言语码转换场景中显著影响语言选择的假设,其内在机制与嵌入语言和基质语言所承载的社会语言声望及身份认同关联有关。

0
下载
关闭预览

相关内容

推荐系统与大语言模型技术融合:EMNLP/NeurIPS相关论文导览
《大型语言模型情感认知》最新进展
专知会员服务
43+阅读 · 2024年10月3日
R语言自然语言处理:情感分析
R语言中文社区
16+阅读 · 2019年4月16日
中文对比英文自然语言处理NLP的区别综述
AINLP
18+阅读 · 2019年3月20日
情感分析:数据采集与词向量构造方法
北京思腾合力科技有限公司
29+阅读 · 2017年12月20日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
马赛克防御与分布式指挥:伊朗的回击(中文版)
《基于理论的威慑效能评估》
专知会员服务
2+阅读 · 45分钟前
ICML2026 | 重新思考顺序知识编辑中的正则化
专知会员服务
7+阅读 · 5月27日
《用于兵力发展选项优先排序的成本效益模型》
专知会员服务
11+阅读 · 5月27日
AutoResearch AI综述:迈向AI驱动的科学发现自动化
专知会员服务
10+阅读 · 5月26日
《Palantir边缘人工智能》手册
专知会员服务
25+阅读 · 5月26日
相关VIP内容
推荐系统与大语言模型技术融合:EMNLP/NeurIPS相关论文导览
《大型语言模型情感认知》最新进展
专知会员服务
43+阅读 · 2024年10月3日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员