Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken Language Understanding - 专知论文

会员服务 ·

0

MoDELS · 可理解性 · 语言模型化 · ChatGPT · CASES ·

2023 年 5 月 22 日

Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken Language Understanding

翻译：能否检测意图？评估大语言模型在口语语言理解中的表现

Mutian He,Philip N. Garner

from arxiv, 6 pages, 2 figures; Accepted by Interspeech 2023

Recently, large pretrained language models have demonstrated strong language understanding capabilities. This is particularly reflected in their zero-shot and in-context learning abilities on downstream tasks through prompting. To assess their impact on spoken language understanding (SLU), we evaluate several such models like ChatGPT and OPT of different sizes on multiple benchmarks. We verify the emergent ability unique to the largest models as they can reach intent classification accuracy close to that of supervised models with zero or few shots on various languages given oracle transcripts. By contrast, the results for smaller models fitting a single GPU fall far behind. We note that the error cases often arise from the annotation scheme of the dataset; responses from ChatGPT are still reasonable. We show, however, that the model is worse at slot filling, and its performance is sensitive to ASR errors, suggesting serious challenges for the application of those textual models on SLU.

翻译：近来，大规模预训练语言模型展现了强大的语言理解能力，这尤其体现在其通过提示在下游任务上的零样本和上下文学习能力。为评估其对口语语言理解的影响，我们测试了多个此类模型（如不同规模的ChatGPT和OPT）在多基准上的表现。我们验证了最大规模模型独有的涌现能力——在给定理想转录的情况下，它们能在多种语言的零样本或少样本场景下达到与监督模型相近的意图分类准确率。相比之下，适配单GPU的小型模型结果则远远落后。我们注意到错误案例常源于数据集的标注方案，而ChatGPT的回复仍具合理性。然而，研究表明模型在槽填充任务上表现较差，且其性能对语音识别错误敏感，这表明这些文本模型在口语语言理解应用中面临严峻挑战。

0

相关内容

MoDELS

ACM/IEEE第23届模型驱动工程语言和系统国际会议，是模型驱动软件和系统工程的首要会议系列，由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来，模型涵盖了建模的各个方面，从语言和方法到工具和应用程序。模特的参加者来自不同的背景，包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛，参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会，并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。官网链接：http://www.modelsconference.org/

CVPR 2023开会了！谷歌等最新《视觉上理解和解释注意力》教程，附152页ppt

CVPR 2023开会了！谷歌等最新《视觉上理解和解释注意力》教程，附152页ppt

专知会员服务

86+阅读 · 2023年6月19日

百篇论文纵览大型语言模型最新研究进展

百篇论文纵览大型语言模型最新研究进展

专知会员服务

70+阅读 · 2023年3月31日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

326+阅读 · 2020年11月26日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

专知会员服务

79+阅读 · 2019年10月10日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

84+阅读 · 2019年10月9日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

NLP 2018 Highlights：2018自然语言处理技术亮点汇总

NLP 2018 Highlights：2018自然语言处理技术亮点汇总

AINLP

10+阅读 · 2019年2月9日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

【推荐】自然语言处理（NLP）指南

【推荐】自然语言处理（NLP）指南

机器学习研究会

35+阅读 · 2017年11月17日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

【推荐】图像分类必读开创性论文汇总

【推荐】图像分类必读开创性论文汇总

机器学习研究会

14+阅读 · 2017年8月15日

EAST高功率低杂波与边界等离子体非线性相互作用的机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于肠毒素预测模型的原料乳金黄色葡萄球菌风险评估基础研究

国家自然科学基金

0+阅读 · 2013年12月31日

提高基于Bulk-Micromegas结构的快中子探测器探测效率和位置分辨的方法的研究

国家自然科学基金

0+阅读 · 2012年12月31日

磁化氢气脉冲放电的PIC/MC/DSMC模拟研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于数据稀疏特性的电磁积分方程快速算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

神经粘附分子CHL1在缺氧性脑损伤中的调节作用及机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

微尺度流动沸腾的不稳定性形成机理与非稳态液膜相变动力学

国家自然科学基金

0+阅读 · 2012年12月31日

BdDUOX和BdRelish在橘小实蝇肠道微生物群落稳态维持中的作用机理

国家自然科学基金

0+阅读 · 2012年12月31日

麦胚抗氧化肽对细胞氧化应激的调控机制及其构效关系

国家自然科学基金

0+阅读 · 2011年12月31日

小胶质细胞转核P2X7受体介导的生物学效应的研究

国家自然科学基金

0+阅读 · 2009年12月31日

Exploring the Potential of Large Language Models (LLMs) in Learning on Graphs

Arxiv

0+阅读 · 2023年7月10日

Can Generative Large Language Models Perform ASR Error Correction?

Arxiv

0+阅读 · 2023年7月9日

Improving Textless Spoken Language Understanding with Discrete Units as Intermediate Target

Arxiv

0+阅读 · 2023年7月8日

On decoder-only architecture for speech-to-text and large language model integration

Arxiv

0+阅读 · 2023年7月8日

Evaluating Open-Domain Question Answering in the Era of Large Language Models

Arxiv

0+阅读 · 2023年7月6日

KoLA: Carefully Benchmarking World Knowledge of Large Language Models

Arxiv

0+阅读 · 2023年7月6日

KoRC: Knowledge oriented Reading Comprehension Benchmark for Deep Text Understanding

Arxiv

0+阅读 · 2023年7月6日

A Survey on Evaluation of Large Language Models

Arxiv

0+阅读 · 2023年7月6日

Style Over Substance: Evaluation Biases for Large Language Models

Arxiv

0+阅读 · 2023年7月6日

Evaluation of ChatGPT on Biomedical Tasks: A Zero-Shot Comparison with Fine-Tuned Generative Transformers

Arxiv

0+阅读 · 2023年7月5日

VIP会员

文章信息

相关主题

语言模型化

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

10+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

24+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

12+阅读 · 6月17日

相关VIP内容

CVPR 2023开会了！谷歌等最新《视觉上理解和解释注意力》教程，附152页ppt

CVPR 2023开会了！谷歌等最新《视觉上理解和解释注意力》教程，附152页ppt

专知会员服务

86+阅读 · 2023年6月19日

百篇论文纵览大型语言模型最新研究进展

百篇论文纵览大型语言模型最新研究进展

专知会员服务

70+阅读 · 2023年3月31日

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

326+阅读 · 2020年11月26日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

【人工智能在2019：一年回顾】反人工智能，AI in 2019: A Year in Review

专知会员服务

79+阅读 · 2019年10月10日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

84+阅读 · 2019年10月9日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

NLP 2018 Highlights：2018自然语言处理技术亮点汇总

NLP 2018 Highlights：2018自然语言处理技术亮点汇总

AINLP

10+阅读 · 2019年2月9日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

【推荐】自然语言处理（NLP）指南

【推荐】自然语言处理（NLP）指南

机器学习研究会

35+阅读 · 2017年11月17日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

【推荐】图像分类必读开创性论文汇总

【推荐】图像分类必读开创性论文汇总

机器学习研究会

14+阅读 · 2017年8月15日

相关论文

Exploring the Potential of Large Language Models (LLMs) in Learning on Graphs

Arxiv

0+阅读 · 2023年7月10日

Can Generative Large Language Models Perform ASR Error Correction?

Arxiv

0+阅读 · 2023年7月9日

Improving Textless Spoken Language Understanding with Discrete Units as Intermediate Target

Arxiv

0+阅读 · 2023年7月8日

On decoder-only architecture for speech-to-text and large language model integration

Arxiv

0+阅读 · 2023年7月8日

Evaluating Open-Domain Question Answering in the Era of Large Language Models

Arxiv

0+阅读 · 2023年7月6日

KoLA: Carefully Benchmarking World Knowledge of Large Language Models

Arxiv

0+阅读 · 2023年7月6日

KoRC: Knowledge oriented Reading Comprehension Benchmark for Deep Text Understanding

Arxiv

0+阅读 · 2023年7月6日

A Survey on Evaluation of Large Language Models

Arxiv

0+阅读 · 2023年7月6日

Style Over Substance: Evaluation Biases for Large Language Models

Arxiv

0+阅读 · 2023年7月6日

Evaluation of ChatGPT on Biomedical Tasks: A Zero-Shot Comparison with Fine-Tuned Generative Transformers

Arxiv

0+阅读 · 2023年7月5日

相关基金

EAST高功率低杂波与边界等离子体非线性相互作用的机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于肠毒素预测模型的原料乳金黄色葡萄球菌风险评估基础研究

国家自然科学基金

0+阅读 · 2013年12月31日

提高基于Bulk-Micromegas结构的快中子探测器探测效率和位置分辨的方法的研究

国家自然科学基金

0+阅读 · 2012年12月31日

磁化氢气脉冲放电的PIC/MC/DSMC模拟研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于数据稀疏特性的电磁积分方程快速算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

神经粘附分子CHL1在缺氧性脑损伤中的调节作用及机制研究

国家自然科学基金

0+阅读 · 2012年12月31日

微尺度流动沸腾的不稳定性形成机理与非稳态液膜相变动力学

国家自然科学基金

0+阅读 · 2012年12月31日

BdDUOX和BdRelish在橘小实蝇肠道微生物群落稳态维持中的作用机理

国家自然科学基金

0+阅读 · 2012年12月31日

麦胚抗氧化肽对细胞氧化应激的调控机制及其构效关系

国家自然科学基金

0+阅读 · 2011年12月31日

小胶质细胞转核P2X7受体介导的生物学效应的研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员