BENI Global 10: A Multilingual Economic Narrative Corpus for the Global South - 专知论文

会员服务 ·

0

讲稿 · 张成子空间 · 流 · Analysis · 代码 ·

BENI Global 10: A Multilingual Economic Narrative Corpus for the Global South

翻译：BENI Global 10：面向全球南方的多语言经济叙事语料库

Ann Naser Nabil

Economic narrative indices are predominantly English-centric; 84% of sentiment-based forecasting research focuses on developed economies. We present BENI Global 10, the first multilingual economic news corpus spanning 10 languages across 7 language families and 5 economic regions: Bangla (Bangladesh), Hindi (India), Turkish (Turkey), Indonesian (Indonesia), Portuguese (Brazil), Arabic (Egypt), Vietnamese (Vietnam), Filipino (Philippines), Swahili (Kenya), and Urdu (Pakistan). The corpus contains 522,397 economically relevant articles filtered from 2.8M raw documents using 25-32 translated keywords per language. We provide: (1) a reproducible streaming pipeline with checkpoint-resume for low-resource environments, (2) per-language schema-normalized Parquet files with economic relevance labels, (3) a temporally synced cross-lingual index covering 2018-2024, and (4) comparative analysis revealing systematic differences in how economic narratives are framed across Global South regions. Inter-annotator agreement reaches kappa > 0.70 across all languages. The complete dataset, code, and annotation guidelines are publicly released for research use.

翻译：经济叙事指数主要集中于英语，84%基于情感预测的研究聚焦于发达经济体。我们提出BENI Global 10，这是首个覆盖7个语系、5个经济区域中10种语言的多语言经济新闻语料库：孟加拉语（孟加拉国）、印地语（印度）、土耳其语（土耳其）、印度尼西亚语（印度尼西亚）、葡萄牙语（巴西）、阿拉伯语（埃及）、越南语（越南）、菲律宾语（菲律宾）、斯瓦希里语（肯尼亚）和乌尔都语（巴基斯坦）。该语料库从280万份原始文档中通过每语言25-32个翻译关键词筛选出522,397篇经济相关文章。我们提供：（1）面向低资源环境的带断点续传的可复制流式处理管线；（2）含经济相关性标签的每语言模式归一化Parquet文件；（3）覆盖2018-2024年的时间同步跨语言索引；（4）揭示南半球地区经济叙事框架系统性差异的对比分析。所有语言的标注者间一致性均达到kappa>0.70。完整数据集、代码及标注指南已公开供研究使用。

0

相关内容

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

124页大模型综述最新版！人大《大型语言模型》综述中英文版本

124页大模型综述最新版！人大《大型语言模型》综述中英文版本

专知会员服务

170+阅读 · 2023年11月27日

《大语言模型与经济学》宾夕法尼亚大学Jesus ，113页ppt

《大语言模型与经济学》宾夕法尼亚大学Jesus ，113页ppt

专知会员服务

32+阅读 · 2023年9月6日

情报分析《微调多语言模型以剪切自动事件数据》2023最新73页论文

情报分析《微调多语言模型以剪切自动事件数据》2023最新73页论文

专知会员服务

47+阅读 · 2023年8月27日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

158+阅读 · 2023年8月8日

首个中文版大语言模型综述来了！人大发布60页《大语言模型综述》中文版，详述大模型技术细节

首个中文版大语言模型综述来了！人大发布60页《大语言模型综述》中文版，详述大模型技术细节

专知会员服务

264+阅读 · 2023年8月4日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

中国增速第一！《全球数字经济白皮书》发布，100页pdf

专知会员服务

41+阅读 · 2021年9月17日

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

专知会员服务

44+阅读 · 2020年5月3日

《全球数字经济新图景白皮书》（2019版）发布，85页PDF，中国信息通信研究院主编

《全球数字经济新图景白皮书》（2019版）发布，85页PDF，中国信息通信研究院主编

专知会员服务

33+阅读 · 2019年11月7日

【综述论文】2020年最新深度学习自然语言处理进展综述论文！！！

【综述论文】2020年最新深度学习自然语言处理进展综述论文！！！

深度学习自然语言处理

13+阅读 · 2020年4月6日

金融领域自然语言处理研究资源大列表

金融领域自然语言处理研究资源大列表

专知

13+阅读 · 2020年2月27日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

中文NLP福利！大规模中文自然语言处理语料

中文NLP福利！大规模中文自然语言处理语料

新智元

37+阅读 · 2019年2月13日

一份超全的NLP语料资源集合及其构建现状

一份超全的NLP语料资源集合及其构建现状

七月在线实验室

33+阅读 · 2019年1月16日

资源 | 中文NLP资源库

资源 | 中文NLP资源库

机器学习算法与Python学习

21+阅读 · 2018年11月22日

资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

量子位

15+阅读 · 2018年11月16日

NLP圣经《自然语言处理综述》2018最新版推荐

NLP圣经《自然语言处理综述》2018最新版推荐

深度学习与NLP

16+阅读 · 2018年9月26日

面向金融市场走势预测的在线论坛公众情绪挖掘与演化分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向汉语-泰语跨语言新闻事件检索方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

新疆杂话有声数据库建设研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

贸易收入链与反映贸易国民收入的DPN投入占用产出模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

GLARE: A Natural Language Interface for Querying Global Explanations

Arxiv

0+阅读 · 6月18日

CoeusBI: A Comprehensive Interactive Business Intelligence System Powered by LLMs at Baidu [Extended Version]

Arxiv

0+阅读 · 6月13日

Detecting Hate and Inflammatory Content in Bengali Memes: A New Multimodal Dataset and Co-Attention Framework

Arxiv

0+阅读 · 6月13日

AfriSUD: A Dependency Treebank Collection for Evaluating Models on African Languages

Arxiv

0+阅读 · 6月10日

AfroScope: A Framework for Studying the Linguistic Landscape of Africa

Arxiv

0+阅读 · 6月10日

Swivuriso: The South African Next Voices Multilingual Speech Dataset

Arxiv

0+阅读 · 6月9日

PerSoMed: A Large-Scale Balanced Dataset for Persian Social Media Text Classification

Arxiv

0+阅读 · 5月25日

External Demand, Domestic Monetary Conditions, and Remittance Dynamics in Nepal

Arxiv

0+阅读 · 5月19日

IndicSafe: A Benchmark for Evaluating Multilingual LLM Safety in South Asia

Arxiv

0+阅读 · 5月15日

IndicMedDialog: A Parallel Multi-Turn Medical Dialogue Dataset for Accessible Healthcare in Indic Languages

Arxiv

0+阅读 · 5月13日

VIP会员

文章信息

相关主题

张成子空间

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

4+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

5+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

8+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

12+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

5+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

7+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

8+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

6+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

7+阅读 · 6月16日

相关VIP内容

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

124页大模型综述最新版！人大《大型语言模型》综述中英文版本

124页大模型综述最新版！人大《大型语言模型》综述中英文版本

专知会员服务

170+阅读 · 2023年11月27日

《大语言模型与经济学》宾夕法尼亚大学Jesus ，113页ppt

《大语言模型与经济学》宾夕法尼亚大学Jesus ，113页ppt

专知会员服务

32+阅读 · 2023年9月6日

情报分析《微调多语言模型以剪切自动事件数据》2023最新73页论文

情报分析《微调多语言模型以剪切自动事件数据》2023最新73页论文

专知会员服务

47+阅读 · 2023年8月27日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

158+阅读 · 2023年8月8日

首个中文版大语言模型综述来了！人大发布60页《大语言模型综述》中文版，详述大模型技术细节

首个中文版大语言模型综述来了！人大发布60页《大语言模型综述》中文版，详述大模型技术细节

专知会员服务

264+阅读 · 2023年8月4日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

中国增速第一！《全球数字经济白皮书》发布，100页pdf

专知会员服务

41+阅读 · 2021年9月17日

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

专知会员服务

44+阅读 · 2020年5月3日

《全球数字经济新图景白皮书》（2019版）发布，85页PDF，中国信息通信研究院主编

《全球数字经济新图景白皮书》（2019版）发布，85页PDF，中国信息通信研究院主编

专知会员服务

33+阅读 · 2019年11月7日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

【综述论文】2020年最新深度学习自然语言处理进展综述论文！！！

【综述论文】2020年最新深度学习自然语言处理进展综述论文！！！

深度学习自然语言处理

13+阅读 · 2020年4月6日

金融领域自然语言处理研究资源大列表

金融领域自然语言处理研究资源大列表

专知

13+阅读 · 2020年2月27日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

中文NLP福利！大规模中文自然语言处理语料

中文NLP福利！大规模中文自然语言处理语料

新智元

37+阅读 · 2019年2月13日

一份超全的NLP语料资源集合及其构建现状

一份超全的NLP语料资源集合及其构建现状

七月在线实验室

33+阅读 · 2019年1月16日

资源 | 中文NLP资源库

资源 | 中文NLP资源库

机器学习算法与Python学习

21+阅读 · 2018年11月22日

资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

量子位

15+阅读 · 2018年11月16日

NLP圣经《自然语言处理综述》2018最新版推荐

NLP圣经《自然语言处理综述》2018最新版推荐

深度学习与NLP

16+阅读 · 2018年9月26日

相关论文

GLARE: A Natural Language Interface for Querying Global Explanations

Arxiv

0+阅读 · 6月18日

CoeusBI: A Comprehensive Interactive Business Intelligence System Powered by LLMs at Baidu [Extended Version]

Arxiv

0+阅读 · 6月13日

Detecting Hate and Inflammatory Content in Bengali Memes: A New Multimodal Dataset and Co-Attention Framework

Arxiv

0+阅读 · 6月13日

AfriSUD: A Dependency Treebank Collection for Evaluating Models on African Languages

Arxiv

0+阅读 · 6月10日

AfroScope: A Framework for Studying the Linguistic Landscape of Africa

Arxiv

0+阅读 · 6月10日

Swivuriso: The South African Next Voices Multilingual Speech Dataset

Arxiv

0+阅读 · 6月9日

PerSoMed: A Large-Scale Balanced Dataset for Persian Social Media Text Classification

Arxiv

0+阅读 · 5月25日

External Demand, Domestic Monetary Conditions, and Remittance Dynamics in Nepal

Arxiv

0+阅读 · 5月19日

IndicSafe: A Benchmark for Evaluating Multilingual LLM Safety in South Asia

Arxiv

0+阅读 · 5月15日

IndicMedDialog: A Parallel Multi-Turn Medical Dialogue Dataset for Accessible Healthcare in Indic Languages

Arxiv

0+阅读 · 5月13日

相关基金

面向金融市场走势预测的在线论坛公众情绪挖掘与演化分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向汉语-泰语跨语言新闻事件检索方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

新疆杂话有声数据库建设研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

贸易收入链与反映贸易国民收入的DPN投入占用产出模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员