跨语言分类方法评估：面向多语言社交媒体数据的主题发现 (Evaluating Cross-Lingual Classification Approaches Enabling Topic Discovery for Multilingual Social Media Data) - 专知论文

会员服务 ·

0

跨语言 · 社交 · 分析 · 标注 · 社交媒体 ·

Evaluating Cross-Lingual Classification Approaches Enabling Topic Discovery for Multilingual Social Media Data

翻译：跨语言分类方法评估：面向多语言社交媒体数据的主题发现

Deepak Uniyal,Md Abul Bashar,Richi Nayak

Analysing multilingual social media discourse remains a major challenge in natural language processing, particularly when large-scale public debates span across diverse languages. This study investigates how different approaches for cross-lingual text classification can support reliable analysis of global conversations. Using hydrogen energy as a case study, we analyse a decade-long dataset of over nine million tweets in English, Japanese, Hindi, and Korean (2013--2022) for topic discovery. The online keyword-driven data collection results in a significant amount of irrelevant content. We explore four approaches to filter relevant content: (1) translating English annotated data into target languages for building language-specific models for each target language, (2) translating unlabelled data appearing from all languages into English for creating a single model based on English annotations, (3) applying English fine-tuned multilingual transformers directly to each target language data, and (4) a hybrid strategy that combines translated annotations with multilingual training. Each approach is evaluated for its ability to filter hydrogen-related tweets from noisy keyword-based collections. Subsequently, topic modeling is performed to extract dominant themes within the relevant subsets. The results highlight key trade-offs between translation and multilingual approaches, offering actionable insights into optimising cross-lingual pipelines for large-scale social media analysis.

翻译：分析多语言社交媒体话语仍然是自然语言处理领域的重大挑战，尤其是在大规模公共讨论跨越多种语言的情况下。本研究探讨了不同的跨语言文本分类方法如何支持全球对话的可靠分析。以氢能源为案例，我们分析了跨越十年（2013-2022年）、包含超过九百万条英语、日语、印地语和韩语推文的数据集以进行主题发现。基于在线关键词驱动的数据收集产生了大量无关内容。我们探索了四种过滤相关内容的方法：（1）将英语标注数据翻译成目标语言，为每种目标语言构建特定语言模型；（2）将所有语言出现的未标注数据翻译成英语，基于英语标注创建单一模型；（3）将英语微调的多语言Transformer直接应用于各目标语言数据；（4）结合翻译标注与多语言训练的混合策略。每种方法均评估了其从基于关键词的噪声数据集中过滤氢能相关推文的能力。随后，通过主题建模提取相关子集中的主导主题。研究结果揭示了翻译方法与多语言方法之间的关键权衡，为优化大规模社交媒体分析的跨语言处理流程提供了可行见解。

0

相关内容

跨语言

领域特定文本分类中的预训练语言模型新进展：系统综述

领域特定文本分类中的预训练语言模型新进展：系统综述

专知会员服务

14+阅读 · 2025年10月24日

文本分类算法及其应用场景研究综述

文本分类算法及其应用场景研究综述

专知会员服务

29+阅读 · 2024年6月18日

多语言大型语言模型：资源、分类和前沿综述

多语言大型语言模型：资源、分类和前沿综述

专知会员服务

53+阅读 · 2024年4月9日

情报分析《微调多语言模型以剪切自动事件数据》2023最新73页论文

情报分析《微调多语言模型以剪切自动事件数据》2023最新73页论文

专知会员服务

46+阅读 · 2023年8月27日

《基于分类方法的自动人机对话》

《基于分类方法的自动人机对话》

专知会员服务

25+阅读 · 2023年7月18日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

多标签文本分类研究进展

专知会员服务

40+阅读 · 2021年5月18日

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

专知会员服务

44+阅读 · 2020年5月3日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

专知

59+阅读 · 2020年8月6日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

专知

12+阅读 · 2019年10月13日

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

AI科技评论

10+阅读 · 2019年9月17日

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

清华发布《2018自然语言处理研究报告》，65页PDF下载

清华发布《2018自然语言处理研究报告》，65页PDF下载

专知

29+阅读 · 2018年7月28日

专栏 | NLP概述和文本自动分类算法详解

专栏 | NLP概述和文本自动分类算法详解

机器之心

12+阅读 · 2018年7月24日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

读书报告 | Deep Learning for Extreme Multi-label Text Classification

读书报告 | Deep Learning for Extreme Multi-label Text Classification

科技创新与创业

48+阅读 · 2018年1月10日

基于双语主题模型的跨语言层次分类体系匹配 | 实录·PhD Talk #16

基于双语主题模型的跨语言层次分类体系匹配 | 实录·PhD Talk #16

PaperWeekly

12+阅读 · 2017年9月14日

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

社会化多媒体中的事件分析研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于概率语义分析的多关系图多类标分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

具有耦合性结构的多视图社交网络社区发现算法研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

A survey of diversity quantification in natural language processing: The why, what, where and how

Arxiv

0+阅读 · 3月13日

Multi-lingual Functional Evaluation for Large Language Models

Arxiv

0+阅读 · 3月12日

PerSoMed: A Large-Scale Balanced Dataset for Persian Social Media Text Classification

Arxiv

0+阅读 · 2月22日

Cross-Lingual Interleaving for Speech Language Models

Arxiv

0+阅读 · 2月20日

Towards Cross-lingual Values Assessment: A Consensus-Pluralism Perspective

Towards Cross-lingual Values Assessment: A Consensus-Pluralism Perspective

Arxiv

0+阅读 · 2月19日

Bridging the Multilingual Safety Divide: Efficient, Culturally-Aware Alignment for Global South Languages

Arxiv

0+阅读 · 2月14日

Tokenization and Morphological Fidelity in Uralic NLP: A Cross-Lingual Evaluation

Arxiv

0+阅读 · 2月14日

Cross-lingual Offensive Language Detection: A Systematic Review of Datasets, Transfer Approaches and Challenges

Arxiv

0+阅读 · 2月12日

Bias Beyond Borders: Political Ideology Evaluation and Steering in Multilingual LLMs

Arxiv

0+阅读 · 2月11日

Towards Analyzing N-language Polyglot Programs

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

【CMU博士论文】迈向可解释机器学习的理论基础

【CMU博士论文】迈向可解释机器学习的理论基础

专知会员服务

0+阅读 · 3分钟前

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

CVPR 2026 | HulluEdit：基于正交子空间编辑的多模态大语言模型幻觉缓解框架

专知会员服务

0+阅读 · 5分钟前

无人机视觉语言导航：研究进展、挑战与技术路线图

无人机视觉语言导航：研究进展、挑战与技术路线图

专知会员服务

0+阅读 · 13分钟前

《基于强化学习的反无人机蜂群拦截优先级排序》

《基于强化学习的反无人机蜂群拦截优先级排序》

专知会员服务

7+阅读 · 今天8:20

乌克兰反无人机方案“天穹哨兵”解析：一款人工智能驱动的近程防空系统

乌克兰反无人机方案“天穹哨兵”解析：一款人工智能驱动的近程防空系统

专知会员服务

2+阅读 · 今天7:30

美军2026条令《指挥官装甲装备维护技能测试计划》

美军2026条令《指挥官装甲装备维护技能测试计划》

专知会员服务

5+阅读 · 今天7:28

《俄罗斯构建服务于人工智能驱动自主性的主权无人机生态系统》（2026报告）

《俄罗斯构建服务于人工智能驱动自主性的主权无人机生态系统》（2026报告）

专知会员服务

6+阅读 · 今天3:09

2026年俄罗斯新型喷气动力无人机Geran-5的技术规格

2026年俄罗斯新型喷气动力无人机Geran-5的技术规格

专知会员服务

3+阅读 · 今天2:50

基于数据优化的人机协同与机器人僚机

基于数据优化的人机协同与机器人僚机

专知会员服务

4+阅读 · 今天2:08

美太空军发布两份聚焦2040年规划的文件：《2040年未来作战环境》和《2040年目标部队》（附文件）

美太空军发布两份聚焦2040年规划的文件：《2040年未来作战环境》和《2040年目标部队》（附文件）

专知会员服务

10+阅读 · 今天1:51

《为码头高价值舰艇提供反无人机系统防御方案研究》80页

《为码头高价值舰艇提供反无人机系统防御方案研究》80页

专知会员服务

8+阅读 · 4月15日

《认知战作为一个战略域：媒体生态系统、社交网络与社会韧性的侵蚀》

《认知战作为一个战略域：媒体生态系统、社交网络与社会韧性的侵蚀》

专知会员服务

5+阅读 · 4月15日

美陆军设想无人系统司令部

美陆军设想无人系统司令部

专知会员服务

3+阅读 · 4月15日

【博士论文】已对齐人工智能系统的持久脆弱性

【博士论文】已对齐人工智能系统的持久脆弱性

专知会员服务

5+阅读 · 4月15日

人工智能对指挥控制的加速及其对陆军的影响（中文报告）

人工智能对指挥控制的加速及其对陆军的影响（中文报告）

专知会员服务

5+阅读 · 4月15日

相关VIP内容

领域特定文本分类中的预训练语言模型新进展：系统综述

领域特定文本分类中的预训练语言模型新进展：系统综述

专知会员服务

14+阅读 · 2025年10月24日

文本分类算法及其应用场景研究综述

文本分类算法及其应用场景研究综述

专知会员服务

29+阅读 · 2024年6月18日

多语言大型语言模型：资源、分类和前沿综述

多语言大型语言模型：资源、分类和前沿综述

专知会员服务

53+阅读 · 2024年4月9日

情报分析《微调多语言模型以剪切自动事件数据》2023最新73页论文

情报分析《微调多语言模型以剪切自动事件数据》2023最新73页论文

专知会员服务

46+阅读 · 2023年8月27日

《基于分类方法的自动人机对话》

《基于分类方法的自动人机对话》

专知会员服务

25+阅读 · 2023年7月18日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

多标签文本分类研究进展

专知会员服务

40+阅读 · 2021年5月18日

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

专知会员服务

44+阅读 · 2020年5月3日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

【ICML2020投稿论文-CMU-DeepMind-Google】用于评估跨语言泛化的大规模多语言多任务基准

专知会员服务

14+阅读 · 2020年3月27日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于强化学习的反无人机蜂群拦截优先级排序》

美军2026条令《指挥官装甲装备维护技能测试计划》

无人机视觉语言导航：研究进展、挑战与技术路线图

乌克兰反无人机方案“天穹哨兵”解析：一款人工智能驱动的近程防空系统

相关资讯

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

专知

59+阅读 · 2020年8月6日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

【论文笔记】基于文本语料库中分类法学习的综述：问题、资源和最新进展

专知

12+阅读 · 2019年10月13日

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

AI科技评论

10+阅读 · 2019年9月17日

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

清华发布《2018自然语言处理研究报告》，65页PDF下载

清华发布《2018自然语言处理研究报告》，65页PDF下载

专知

29+阅读 · 2018年7月28日

专栏 | NLP概述和文本自动分类算法详解

专栏 | NLP概述和文本自动分类算法详解

机器之心

12+阅读 · 2018年7月24日

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

深度学习与NLP

25+阅读 · 2018年7月18日

读书报告 | Deep Learning for Extreme Multi-label Text Classification

读书报告 | Deep Learning for Extreme Multi-label Text Classification

科技创新与创业

48+阅读 · 2018年1月10日

基于双语主题模型的跨语言层次分类体系匹配 | 实录·PhD Talk #16

基于双语主题模型的跨语言层次分类体系匹配 | 实录·PhD Talk #16

PaperWeekly

12+阅读 · 2017年9月14日

相关论文

A survey of diversity quantification in natural language processing: The why, what, where and how

Arxiv

0+阅读 · 3月13日

Multi-lingual Functional Evaluation for Large Language Models

Arxiv

0+阅读 · 3月12日

PerSoMed: A Large-Scale Balanced Dataset for Persian Social Media Text Classification

Arxiv

0+阅读 · 2月22日

Cross-Lingual Interleaving for Speech Language Models

Arxiv

0+阅读 · 2月20日

Towards Cross-lingual Values Assessment: A Consensus-Pluralism Perspective

Towards Cross-lingual Values Assessment: A Consensus-Pluralism Perspective

Arxiv

0+阅读 · 2月19日

Bridging the Multilingual Safety Divide: Efficient, Culturally-Aware Alignment for Global South Languages

Arxiv

0+阅读 · 2月14日

Tokenization and Morphological Fidelity in Uralic NLP: A Cross-Lingual Evaluation

Arxiv

0+阅读 · 2月14日

Cross-lingual Offensive Language Detection: A Systematic Review of Datasets, Transfer Approaches and Challenges

Arxiv

0+阅读 · 2月12日

Bias Beyond Borders: Political Ideology Evaluation and Steering in Multilingual LLMs

Arxiv

0+阅读 · 2月11日

Towards Analyzing N-language Polyglot Programs

Arxiv

0+阅读 · 1月30日

相关基金

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

社会化多媒体中的事件分析研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于概率语义分析的多关系图多类标分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

具有耦合性结构的多视图社交网络社区发现算法研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员