共同于谁？印度的区域文化常识与大语言模型偏见 (Common to Whom? Regional Cultural Commonsense and LLM Bias in India) - 专知论文

会员服务 ·

0

语言模型 · 基准 · 一致 · 大语言模型 · 基准测试 ·

Common to Whom? Regional Cultural Commonsense and LLM Bias in India

翻译：共同于谁？印度的区域文化常识与大语言模型偏见

Sangmitra Madhusudan,Trush Shashank More,Steph Buongiorno,Renata Dividino,Jad Kabbara,Ali Emami

Existing cultural commonsense benchmarks treat nations as monolithic, assuming uniform practices within national boundaries. But does cultural commonsense hold uniformly within a nation, or does it vary at the sub-national level? We introduce Indica, the first benchmark designed to test LLMs' ability to address this question, focusing on India - a nation of 28 states, 8 union territories, and 22 official languages. We collect human-annotated answers from five Indian regions (North, South, East, West, and Central) across 515 questions spanning 8 domains of everyday life, yielding 1,630 region-specific question-answer pairs. Strikingly, only 39.4% of questions elicit agreement across all five regions, demonstrating that cultural commonsense in India is predominantly regional, not national. We evaluate eight state-of-the-art LLMs and find two critical gaps: models achieve only 13.4%-20.9% accuracy on region-specific questions, and they exhibit geographic bias, over-selecting Central and North India as the "default" (selected 30-40% more often than expected) while under-representing East and West. Beyond India, our methodology provides a generalizable framework for evaluating cultural commonsense in any culturally heterogeneous nation, from question design grounded in anthropological taxonomy, to regional data collection, to bias measurement.

翻译：现有的文化常识基准测试将国家视为单一整体，假定国家边界内的实践是统一的。然而，文化常识在国家内部是否具有一致性，还是在次国家层面存在差异？我们引入了Indica，这是首个旨在测试大语言模型（LLM）解决此问题能力的基准，聚焦于印度——一个拥有28个邦、8个中央直辖区和22种官方语言的国家。我们从印度五个区域（北部、南部、东部、西部和中部）收集了人类标注的答案，涵盖日常生活的8个领域的515个问题，产生了1,630个区域特定的问答对。引人注目的是，仅有39.4%的问题在所有五个区域中引发了一致回答，这表明印度的文化常识主要是区域性的，而非全国性的。我们评估了八个最先进的大语言模型，发现了两个关键差距：模型在区域特定问题上的准确率仅为13.4%-20.9%，并且它们表现出地理偏见，过度选择中部和北部印度作为“默认”区域（被选中的频率比预期高出30-40%），同时低估了东部和西部的代表性。超越印度，我们的方法论为评估任何文化异质性国家的文化常识提供了一个可推广的框架，从基于人类学分类法的问题设计，到区域数据收集，再到偏见测量。

0

相关内容

语言模型

《战争迷雾中的红线与灰色地带：基于大语言模型的军事决策风险、区域偏见基准测试》2025最新54页报告

《战争迷雾中的红线与灰色地带：基于大语言模型的军事决策风险、区域偏见基准测试》2025最新54页报告

专知会员服务

31+阅读 · 2025年10月10日

大语言模型遇上知识图谱：问答系统中的融合与机遇

大语言模型遇上知识图谱：问答系统中的融合与机遇

专知会员服务

28+阅读 · 2025年5月30日

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

专知会员服务

38+阅读 · 2025年2月21日

《以人为中心的大型语言模型（LLM）研究综述》

《以人为中心的大型语言模型（LLM）研究综述》

专知会员服务

41+阅读 · 2024年11月25日

迈向大语言模型偏好学习的统一视角综述

迈向大语言模型偏好学习的统一视角综述

专知会员服务

24+阅读 · 2024年9月7日

大模型如何处理知识冲突？清华等《大型语言模型中的知识冲突》综述

大模型如何处理知识冲突？清华等《大型语言模型中的知识冲突》综述

专知会员服务

66+阅读 · 2024年3月14日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

110+阅读 · 2023年12月19日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

中文对比英文自然语言处理NLP的区别综述

中文对比英文自然语言处理NLP的区别综述

AINLP

18+阅读 · 2019年3月20日

论文浅尝 | 基于Universal Schema与Memory Network的知识+文本问答

论文浅尝 | 基于Universal Schema与Memory Network的知识+文本问答

开放知识图谱

11+阅读 · 2018年12月16日

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

开放知识图谱

11+阅读 · 2018年10月4日

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

深度学习与NLP

25+阅读 · 2018年8月22日

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

开放知识图谱

28+阅读 · 2018年6月11日

【论文笔记】基于实体、属性和关系的知识表示学习

【论文笔记】基于实体、属性和关系的知识表示学习

专知

71+阅读 · 2018年5月22日

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

专知

37+阅读 · 2018年2月21日

读书报告 | CN-DBpedia: A Chinese Knowledge Extraction System

读书报告 | CN-DBpedia: A Chinese Knowledge Extraction System

科技创新与创业

19+阅读 · 2018年1月4日

复杂决策环境下面向共识的群体评价模型与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

全球化时代跨界民族国家认同的心理机制研究——以维吾尔族和哈萨克族为例

国家自然科学基金

2+阅读 · 2014年12月31日

基于空间认知常识的定性地理信息检索研究

国家自然科学基金

2+阅读 · 2014年12月31日

藏文化学术语规范化研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

建立在文化度量空间上的国家风险分析

国家自然科学基金

3+阅读 · 2014年12月31日

残缺判断信息下专家共识群决策理论、方法及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

IndicEval: A Bilingual Indian Educational Evaluation Framework for Large Language Models

Arxiv

0+阅读 · 2月18日

Indic-TunedLens: Interpreting Multilingual Models in Indian Languages

Arxiv

0+阅读 · 2月18日

Bridging the Multilingual Safety Divide: Efficient, Culturally-Aware Alignment for Global South Languages

Arxiv

0+阅读 · 2月14日

Bias Beyond Borders: Political Ideology Evaluation and Steering in Multilingual LLMs

Arxiv

0+阅读 · 2月11日

Conceptual Cultural Index: A Metric for Cultural Specificity via Relative Generality

Arxiv

0+阅读 · 2月10日

Bilingual Bias in Large Language Models: A Taiwan Sovereignty Benchmark Study

Arxiv

0+阅读 · 2月6日

Regional Bias in Large Language Models

Arxiv

0+阅读 · 1月22日

Common to Whom? Regional Cultural Commonsense and LLM Bias in India

Arxiv

0+阅读 · 1月22日

Entangled in Representations: Mechanistic Investigation of Cultural Biases in Large Language Models

Arxiv

0+阅读 · 1月16日

Lost in Benchmarks? Rethinking Large Language Model Benchmarking with Item Response Theory

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

大语言模型

相关VIP内容

《战争迷雾中的红线与灰色地带：基于大语言模型的军事决策风险、区域偏见基准测试》2025最新54页报告

《战争迷雾中的红线与灰色地带：基于大语言模型的军事决策风险、区域偏见基准测试》2025最新54页报告

专知会员服务

31+阅读 · 2025年10月10日

大语言模型遇上知识图谱：问答系统中的融合与机遇

大语言模型遇上知识图谱：问答系统中的融合与机遇

专知会员服务

28+阅读 · 2025年5月30日

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

专知会员服务

38+阅读 · 2025年2月21日

《以人为中心的大型语言模型（LLM）研究综述》

《以人为中心的大型语言模型（LLM）研究综述》

专知会员服务

41+阅读 · 2024年11月25日

迈向大语言模型偏好学习的统一视角综述

迈向大语言模型偏好学习的统一视角综述

专知会员服务

24+阅读 · 2024年9月7日

大模型如何处理知识冲突？清华等《大型语言模型中的知识冲突》综述

大模型如何处理知识冲突？清华等《大型语言模型中的知识冲突》综述

专知会员服务

66+阅读 · 2024年3月14日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

110+阅读 · 2023年12月19日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

中文对比英文自然语言处理NLP的区别综述

中文对比英文自然语言处理NLP的区别综述

AINLP

18+阅读 · 2019年3月20日

论文浅尝 | 基于Universal Schema与Memory Network的知识+文本问答

论文浅尝 | 基于Universal Schema与Memory Network的知识+文本问答

开放知识图谱

11+阅读 · 2018年12月16日

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

论文浅尝 | 面向跨语言实体对齐的知识图谱与实体描述协同嵌入方法

开放知识图谱

11+阅读 · 2018年10月4日

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

深度学习与NLP

25+阅读 · 2018年8月22日

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

开放知识图谱

28+阅读 · 2018年6月11日

【论文笔记】基于实体、属性和关系的知识表示学习

【论文笔记】基于实体、属性和关系的知识表示学习

专知

71+阅读 · 2018年5月22日

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

专知

37+阅读 · 2018年2月21日

读书报告 | CN-DBpedia: A Chinese Knowledge Extraction System

读书报告 | CN-DBpedia: A Chinese Knowledge Extraction System

科技创新与创业

19+阅读 · 2018年1月4日

相关论文

IndicEval: A Bilingual Indian Educational Evaluation Framework for Large Language Models

Arxiv

0+阅读 · 2月18日

Indic-TunedLens: Interpreting Multilingual Models in Indian Languages

Arxiv

0+阅读 · 2月18日

Bridging the Multilingual Safety Divide: Efficient, Culturally-Aware Alignment for Global South Languages

Arxiv

0+阅读 · 2月14日

Bias Beyond Borders: Political Ideology Evaluation and Steering in Multilingual LLMs

Arxiv

0+阅读 · 2月11日

Conceptual Cultural Index: A Metric for Cultural Specificity via Relative Generality

Arxiv

0+阅读 · 2月10日

Bilingual Bias in Large Language Models: A Taiwan Sovereignty Benchmark Study

Arxiv

0+阅读 · 2月6日

Regional Bias in Large Language Models

Arxiv

0+阅读 · 1月22日

Common to Whom? Regional Cultural Commonsense and LLM Bias in India

Arxiv

0+阅读 · 1月22日

Entangled in Representations: Mechanistic Investigation of Cultural Biases in Large Language Models

Arxiv

0+阅读 · 1月16日

Lost in Benchmarks? Rethinking Large Language Model Benchmarking with Item Response Theory

Arxiv

0+阅读 · 1月16日

相关基金

复杂决策环境下面向共识的群体评价模型与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

全球化时代跨界民族国家认同的心理机制研究——以维吾尔族和哈萨克族为例

国家自然科学基金

2+阅读 · 2014年12月31日

基于空间认知常识的定性地理信息检索研究

国家自然科学基金

2+阅读 · 2014年12月31日

藏文化学术语规范化研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

建立在文化度量空间上的国家风险分析

国家自然科学基金

3+阅读 · 2014年12月31日

残缺判断信息下专家共识群决策理论、方法及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员