DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation - 专知论文

会员服务 ·

0

多模 · 模态 · 多模态生成 · 稀疏自编码 · 多模态 ·

DialectGen: Benchmarking and Improving Dialect Robustness in Multimodal Generation

翻译：DialectGen：多模态生成中的方言鲁棒性基准测试与改进

Yu Zhou,Sohyun An,Haikang Deng,Da Yin,Clark Peng,Cho-Jui Hsieh,Kai-Wei Chang,Nanyun Peng

Contact languages like English exhibit rich regional variations in the form of dialects, which are often used by dialect speakers interacting with generative models. However, can multimodal generative models effectively produce content given dialectal textual input? In this work, we study this question by constructing a new large-scale benchmark spanning six common English dialects. We work with dialect speakers to collect and verify over 4200 unique prompts and evaluate on 17 image and video generative models. Our automatic and human evaluation results show that current state-of-the-art multimodal generative models exhibit 32.26% to 48.17% performance degradation when a single dialect word is used in the prompt. Common mitigation methods such as fine-tuning and prompt rewriting can only improve dialect performance by small margins (< 7%), while potentially incurring significant performance degradation in Standard American English (SAE). To this end, we design a general encoder-based mitigation strategy for multimodal generative models. Our method teaches the model to recognize new dialect features while preserving SAE performance. Experiments on models such as Stable Diffusion 1.5 show that our method is able to simultaneously raise performance on five dialects to be on par with SAE (+34.4%), while incurring near zero cost to SAE performance.

翻译：接触性语言（如英语）在方言形式上展现出丰富的地区性变体，这些方言常被方言使用者用于与生成模型交互。然而，多模态生成模型能否在给定方言文本输入时有效生成内容？本研究通过构建一个涵盖六种常见英语方言的大规模基准测试来探讨这一问题。我们与方言使用者合作，收集并验证了超过4200条独特提示，并在17个图像与视频生成模型上进行了评估。自动与人工评估结果表明，当提示中使用单个方言词汇时，当前最先进的多模态生成模型会出现32.26%至48.17%的性能下降。常见的缓解方法（如微调和提示词改写）仅能小幅提升方言性能（< 7%），且可能导致标准美国英语（SAE）性能显著下降。为此，我们为多模态生成模型设计了一种通用的基于编码器的缓解策略。该方法使模型能够识别新的方言特征，同时保持SAE性能。在Stable Diffusion 1.5等模型上的实验表明，我们的方法能够将五种方言的性能提升至与SAE相当的水平（+34.4%），同时对SAE性能的影响近乎为零。

0

相关内容

多模态大型语言模型：综述

多模态大型语言模型：综述

专知会员服务

46+阅读 · 2025年6月14日

多模态大规模语言模型基准的综述

多模态大规模语言模型基准的综述

专知会员服务

41+阅读 · 2024年8月25日

【博士论文】多模态语言模型中的学习、推理和组合泛化，204页pdf

【博士论文】多模态语言模型中的学习、推理和组合泛化，204页pdf

专知会员服务

36+阅读 · 2024年5月26日

《多模态大型语言模型进化》最新综述

《多模态大型语言模型进化》最新综述

专知会员服务

105+阅读 · 2024年2月23日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

【CMU博士论文】语言理解与生成优化技术，145页pdf

【CMU博士论文】语言理解与生成优化技术，145页pdf

专知会员服务

36+阅读 · 2023年11月22日

《深度多模态学习的身体语言识别与生成》综述

《深度多模态学习的身体语言识别与生成》综述

专知会员服务

27+阅读 · 2023年8月27日

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

专知会员服务

36+阅读 · 2023年2月15日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

专知会员服务

15+阅读 · 2022年3月11日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

51+阅读 · 2020年3月29日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

26+阅读 · 2019年9月9日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

AI研习社

16+阅读 · 2018年12月4日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

第二语言韵律焦点产出、合成与评价的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多特征融合与集成学习的城市高分辨率遥感影像变化检测

国家自然科学基金

4+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

Arxiv

0+阅读 · 3月8日

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Arxiv

0+阅读 · 3月6日

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

Arxiv

0+阅读 · 2月19日

Standardizing the Measurement of Text Diversity: A Tool and a Comparative Analysis of Scores

Arxiv

0+阅读 · 2月18日

ChartEditBench: Evaluating Grounded Multi-Turn Chart Editing in Multimodal Language Models

ChartEditBench: Evaluating Grounded Multi-Turn Chart Editing in Multimodal Language Models

Arxiv

0+阅读 · 2月17日

RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding

Arxiv

0+阅读 · 2月14日

LinguistAgent: A Reflective Multi-Model Platform for Automated Linguistic Annotation

Arxiv

0+阅读 · 2月5日

PersoBench: Benchmarking Personalized Response Generation in Large Language Models

Arxiv

0+阅读 · 2月4日

Standard-to-Dialect Transfer Trends Differ across Text and Speech: A Case Study on Intent and Topic Classification in German Dialects

Arxiv

0+阅读 · 2月2日

MTAVG-Bench: A Comprehensive Benchmark for Evaluating Multi-Talker Dialogue-Centric Audio-Video Generation

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

多模态生成

稀疏自编码

最新内容

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

2+阅读 · 今天6:14

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

2+阅读 · 今天5:59

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

4+阅读 · 今天5:54

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

3+阅读 · 今天5:51

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

3+阅读 · 今天5:47

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

10+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

11+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

4+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

13+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

6+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

8+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

18+阅读 · 4月19日

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

5+阅读 · 4月19日

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

15+阅读 · 4月18日

相关VIP内容

多模态大型语言模型：综述

多模态大型语言模型：综述

专知会员服务

46+阅读 · 2025年6月14日

多模态大规模语言模型基准的综述

多模态大规模语言模型基准的综述

专知会员服务

41+阅读 · 2024年8月25日

【博士论文】多模态语言模型中的学习、推理和组合泛化，204页pdf

【博士论文】多模态语言模型中的学习、推理和组合泛化，204页pdf

专知会员服务

36+阅读 · 2024年5月26日

《多模态大型语言模型进化》最新综述

《多模态大型语言模型进化》最新综述

专知会员服务

105+阅读 · 2024年2月23日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

【CMU博士论文】语言理解与生成优化技术，145页pdf

【CMU博士论文】语言理解与生成优化技术，145页pdf

专知会员服务

36+阅读 · 2023年11月22日

《深度多模态学习的身体语言识别与生成》综述

《深度多模态学习的身体语言识别与生成》综述

专知会员服务

27+阅读 · 2023年8月27日

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

专知会员服务

36+阅读 · 2023年2月15日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

【百度&北京大学】自然语言生成的保真性:分析、评价和优化方法的系统综述，Faithfulness in Natural Language Generation: A Systematic Survey of Analysis, Evaluation and Optimization Methods

专知会员服务

15+阅读 · 2022年3月11日

热门VIP内容

开通专知VIP会员享更多权益服务

军事通信系统与设备的技术演进综述

《北约标准：医疗评估手册》174页

乌克兰前线的五项创新

《北约 AI手册：作战人员的实用考量》（2026最新64页）

相关资讯

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

51+阅读 · 2020年3月29日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

26+阅读 · 2019年9月9日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

博客 | 总结+paper分享|对话系统中的自然语言生成技术（NLG）

AI研习社

16+阅读 · 2018年12月4日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

Arxiv

0+阅读 · 3月8日

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Arxiv

0+阅读 · 3月6日

MCIF: Multimodal Crosslingual Instruction-Following Benchmark from Scientific Talks

Arxiv

0+阅读 · 2月19日

Standardizing the Measurement of Text Diversity: A Tool and a Comparative Analysis of Scores

Arxiv

0+阅读 · 2月18日

ChartEditBench: Evaluating Grounded Multi-Turn Chart Editing in Multimodal Language Models

ChartEditBench: Evaluating Grounded Multi-Turn Chart Editing in Multimodal Language Models

Arxiv

0+阅读 · 2月17日

RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding

Arxiv

0+阅读 · 2月14日

LinguistAgent: A Reflective Multi-Model Platform for Automated Linguistic Annotation

Arxiv

0+阅读 · 2月5日

PersoBench: Benchmarking Personalized Response Generation in Large Language Models

Arxiv

0+阅读 · 2月4日

Standard-to-Dialect Transfer Trends Differ across Text and Speech: A Case Study on Intent and Topic Classification in German Dialects

Arxiv

0+阅读 · 2月2日

MTAVG-Bench: A Comprehensive Benchmark for Evaluating Multi-Talker Dialogue-Centric Audio-Video Generation

Arxiv

0+阅读 · 1月31日

相关基金

第二语言韵律焦点产出、合成与评价的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多特征融合与集成学习的城市高分辨率遥感影像变化检测

国家自然科学基金

4+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员