HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace - 专知论文

会员服务 ·

0

Hugging Face · ChatGPT · AI · 模态 · 任务规划 ·

2023 年 4 月 2 日

HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace

翻译：HuggingGPT：利用ChatGPT及其HuggingFace伙伴解决人工智能任务

Yongliang Shen,Kaitao Song,Xu Tan,Dongsheng Li,Weiming Lu,Yueting Zhuang

Solving complicated AI tasks with different domains and modalities is a key step toward advanced artificial intelligence. While there are abundant AI models available for different domains and modalities, they cannot handle complicated AI tasks. Considering large language models (LLMs) have exhibited exceptional ability in language understanding, generation, interaction, and reasoning, we advocate that LLMs could act as a controller to manage existing AI models to solve complicated AI tasks and language could be a generic interface to empower this. Based on this philosophy, we present HuggingGPT, a framework that leverages LLMs (e.g., ChatGPT) to connect various AI models in machine learning communities (e.g., Hugging Face) to solve AI tasks. Specifically, we use ChatGPT to conduct task planning when receiving a user request, select models according to their function descriptions available in Hugging Face, execute each subtask with the selected AI model, and summarize the response according to the execution results. By leveraging the strong language capability of ChatGPT and abundant AI models in Hugging Face, HuggingGPT is able to cover numerous sophisticated AI tasks in different modalities and domains and achieve impressive results in language, vision, speech, and other challenging tasks, which paves a new way towards advanced artificial intelligence.

翻译：解决跨不同领域和模态的复杂人工智能任务，是迈向高级人工智能的关键一步。尽管针对不同领域和模态已有大量人工智能模型可用，但它们仍无法处理复杂的AI任务。考虑到大语言模型（LLMs）在语言理解、生成、交互和推理方面展现出非凡能力，我们主张LLMs可作为控制器来管理现有AI模型以解决复杂AI任务，而语言可作为实现这一目标的通用接口。基于这一理念，我们提出HuggingGPT框架，该框架利用LLMs（如ChatGPT）连接机器学习社区（如Hugging Face）中的各类AI模型来解决AI任务。具体而言，当收到用户请求时，我们使用ChatGPT进行任务规划，依据Hugging Face中可用的功能描述选择模型，用所选AI模型执行每个子任务，并根据执行结果汇总响应。通过结合ChatGPT强大的语言能力与Hugging Face丰富的AI模型，HuggingGPT能够覆盖不同模态和领域的众多复杂AI任务，并在语言、视觉、语音及其他具有挑战性的任务中取得显著成果，这为迈向高级人工智能开辟了新路径。

2

相关内容

Hugging Face

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

《自动常识空间推理：仍然是一个巨大的挑战》英国利兹大学27页报告

《自动常识空间推理：仍然是一个巨大的挑战》英国利兹大学27页报告

专知会员服务

23+阅读 · 2023年2月25日

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

专知会员服务

22+阅读 · 2022年3月18日

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

DeepMind发69页长文掀开AlphaZero的黑盒：神经网络学到的知识和人类基本相似！

DeepMind发69页长文掀开AlphaZero的黑盒：神经网络学到的知识和人类基本相似！

专知会员服务

35+阅读 · 2021年12月7日

知识增强预训练语言模型:全面综述

知识增强预训练语言模型:全面综述

专知会员服务

97+阅读 · 2021年10月19日

【神经语言生成：形式化，方法与评价，70页pdf】

【神经语言生成：形式化，方法与评价，70页pdf】

专知会员服务

37+阅读 · 2020年8月8日

史上最全！358篇机器学习&自然语言处理综述论文！都这儿了

专知会员服务

129+阅读 · 2020年7月18日

【哈工大】基于文档的对话系统(DGDS)综述，A Survey of Document Grounded Dialogue Systems (DGDS)

【哈工大】基于文档的对话系统(DGDS)综述，A Survey of Document Grounded Dialogue Systems (DGDS)

专知会员服务

36+阅读 · 2020年4月30日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

7 Papers & Radios | Meta「分割一切」AI模型；从T5到GPT-4盘点大语言模型

7 Papers & Radios | Meta「分割一切」AI模型；从T5到GPT-4盘点大语言模型

机器之心

4+阅读 · 2023年4月9日

ChatGPT懂常识吗？中科院等最新《ChatGPT是一个有知识但没有经验的求解器:大型语言模型常识问题的研究》论文解答

ChatGPT懂常识吗？中科院等最新《ChatGPT是一个有知识但没有经验的求解器:大型语言模型常识问题的研究》论文解答

专知

5+阅读 · 2023年4月5日

ChatGPT自己会选模型了！微软亚研院+浙大爆火新论文，HuggingGPT项目已开源

ChatGPT自己会选模型了！微软亚研院+浙大爆火新论文，HuggingGPT项目已开源

PaperWeekly

4+阅读 · 2023年4月4日

DeepMind发30页长文：我们要给聊天机器人不同的「三观」

DeepMind发30页长文：我们要给聊天机器人不同的「三观」

新智元

0+阅读 · 2022年9月11日

7 Papers & Radios | 朱松纯团队让AI读懂人类价值观；DeepMind新模型像婴儿般学习物理规则

7 Papers & Radios | 朱松纯团队让AI读懂人类价值观；DeepMind新模型像婴儿般学习物理规则

机器之心

2+阅读 · 2022年7月17日

谷歌为1000+「长尾」语言创建机器翻译系统，Google翻译已支持部分小众语言

谷歌为1000+「长尾」语言创建机器翻译系统，Google翻译已支持部分小众语言

机器之心

0+阅读 · 2022年5月25日

Hugging Face出品:如何快速跟上NLP领域最新技术？

Hugging Face出品:如何快速跟上NLP领域最新技术？

专知

15+阅读 · 2019年5月23日

从语言学到深度学习NLP，一文概述自然语言处理

从语言学到深度学习NLP，一文概述自然语言处理

人工智能学家

13+阅读 · 2018年1月28日

【教程】如何使用深度学习为照片自动生成文本描述？

【教程】如何使用深度学习为照片自动生成文本描述？

GAN生成式对抗网络

20+阅读 · 2017年11月19日

教程 | 如何使用深度学习为照片自动生成文本描述？

教程 | 如何使用深度学习为照片自动生成文本描述？

机器之心

10+阅读 · 2017年11月15日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类驾驶知识的无人驾驶车辆智能决策系统研究

国家自然科学基金

8+阅读 · 2013年12月31日

融合用户、上下文和系统：基于量子理论的信息检索模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

货币政策多目标交互行为协调控制研究

国家自然科学基金

0+阅读 · 2012年12月31日

“多胺-环糊精-量子点”纳米药物转运系统的设计及生物活性研究

国家自然科学基金

0+阅读 · 2012年12月31日

复杂运动条件下动作表象的神经心理机制研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于域知识的自定义Web对象自动抽取技术

国家自然科学基金

0+阅读 · 2012年12月31日

直升机低阶鲁棒飞行控制器设计及仿真研究

国家自然科学基金

1+阅读 · 2011年12月31日

管理决策过程中考虑决策者犹豫程度的直觉模糊多目标决策理论与方法

国家自然科学基金

0+阅读 · 2011年12月31日

跨文化多模态情感语音的心理、生理及声学研究

国家自然科学基金

0+阅读 · 2009年12月31日

Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For Large Language Models

Arxiv

0+阅读 · 2023年5月24日

EASE: An Easily-Customized Annotation System Powered by Efficiency Enhancement Mechanisms

Arxiv

0+阅读 · 2023年5月23日

Leveraging Open Information Extraction for Improving Few-Shot Trigger Detection Domain Transfer

Arxiv

0+阅读 · 2023年5月23日

Is GPT-3 all you need for Visual Question Answering in Cultural Heritage?

Arxiv

0+阅读 · 2023年5月19日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

176+阅读 · 2023年4月20日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

501+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

64+阅读 · 2023年3月29日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

88+阅读 · 2023年3月21日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

VIP会员

文章信息

相关主题

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

12+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

7+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

8+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

10+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

9+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

10+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

10+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

6+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

6+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

8+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

6+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

7+阅读 · 7月17日

相关VIP内容

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

《自动常识空间推理：仍然是一个巨大的挑战》英国利兹大学27页报告

《自动常识空间推理：仍然是一个巨大的挑战》英国利兹大学27页报告

专知会员服务

23+阅读 · 2023年2月25日

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

专知会员服务

22+阅读 · 2022年3月18日

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

【斯坦福Kevin Chen博士论文】视觉、语言和具身AI的多模态表示， Multimodal representations for vision, language, and embodied AI

专知会员服务

64+阅读 · 2022年3月6日

DeepMind发69页长文掀开AlphaZero的黑盒：神经网络学到的知识和人类基本相似！

DeepMind发69页长文掀开AlphaZero的黑盒：神经网络学到的知识和人类基本相似！

专知会员服务

35+阅读 · 2021年12月7日

知识增强预训练语言模型:全面综述

知识增强预训练语言模型:全面综述

专知会员服务

97+阅读 · 2021年10月19日

【神经语言生成：形式化，方法与评价，70页pdf】

【神经语言生成：形式化，方法与评价，70页pdf】

专知会员服务

37+阅读 · 2020年8月8日

史上最全！358篇机器学习&自然语言处理综述论文！都这儿了

专知会员服务

129+阅读 · 2020年7月18日

【哈工大】基于文档的对话系统(DGDS)综述，A Survey of Document Grounded Dialogue Systems (DGDS)

【哈工大】基于文档的对话系统(DGDS)综述，A Survey of Document Grounded Dialogue Systems (DGDS)

专知会员服务

36+阅读 · 2020年4月30日

机器学习入门的经验与建议

机器学习入门的经验与建议

专知会员服务

94+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

7 Papers & Radios | Meta「分割一切」AI模型；从T5到GPT-4盘点大语言模型

7 Papers & Radios | Meta「分割一切」AI模型；从T5到GPT-4盘点大语言模型

机器之心

4+阅读 · 2023年4月9日

ChatGPT懂常识吗？中科院等最新《ChatGPT是一个有知识但没有经验的求解器:大型语言模型常识问题的研究》论文解答

ChatGPT懂常识吗？中科院等最新《ChatGPT是一个有知识但没有经验的求解器:大型语言模型常识问题的研究》论文解答

专知

5+阅读 · 2023年4月5日

ChatGPT自己会选模型了！微软亚研院+浙大爆火新论文，HuggingGPT项目已开源

ChatGPT自己会选模型了！微软亚研院+浙大爆火新论文，HuggingGPT项目已开源

PaperWeekly

4+阅读 · 2023年4月4日

DeepMind发30页长文：我们要给聊天机器人不同的「三观」

DeepMind发30页长文：我们要给聊天机器人不同的「三观」

新智元

0+阅读 · 2022年9月11日

7 Papers & Radios | 朱松纯团队让AI读懂人类价值观；DeepMind新模型像婴儿般学习物理规则

7 Papers & Radios | 朱松纯团队让AI读懂人类价值观；DeepMind新模型像婴儿般学习物理规则

机器之心

2+阅读 · 2022年7月17日

谷歌为1000+「长尾」语言创建机器翻译系统，Google翻译已支持部分小众语言

谷歌为1000+「长尾」语言创建机器翻译系统，Google翻译已支持部分小众语言

机器之心

0+阅读 · 2022年5月25日

Hugging Face出品:如何快速跟上NLP领域最新技术？

Hugging Face出品:如何快速跟上NLP领域最新技术？

专知

15+阅读 · 2019年5月23日

从语言学到深度学习NLP，一文概述自然语言处理

从语言学到深度学习NLP，一文概述自然语言处理

人工智能学家

13+阅读 · 2018年1月28日

【教程】如何使用深度学习为照片自动生成文本描述？

【教程】如何使用深度学习为照片自动生成文本描述？

GAN生成式对抗网络

20+阅读 · 2017年11月19日

教程 | 如何使用深度学习为照片自动生成文本描述？

教程 | 如何使用深度学习为照片自动生成文本描述？

机器之心

10+阅读 · 2017年11月15日

相关论文

Have LLMs Advanced Enough? A Challenging Problem Solving Benchmark For Large Language Models

Arxiv

0+阅读 · 2023年5月24日

EASE: An Easily-Customized Annotation System Powered by Efficiency Enhancement Mechanisms

Arxiv

0+阅读 · 2023年5月23日

Leveraging Open Information Extraction for Improving Few-Shot Trigger Detection Domain Transfer

Arxiv

0+阅读 · 2023年5月23日

Is GPT-3 all you need for Visual Question Answering in Cultural Heritage?

Arxiv

0+阅读 · 2023年5月19日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

176+阅读 · 2023年4月20日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

501+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

64+阅读 · 2023年3月29日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

88+阅读 · 2023年3月21日

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Is Prompt All You Need? No. A Comprehensive and Broader View of Instruction Learning

Arxiv

20+阅读 · 2023年3月21日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

相关基金

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于人类驾驶知识的无人驾驶车辆智能决策系统研究

国家自然科学基金

8+阅读 · 2013年12月31日

融合用户、上下文和系统：基于量子理论的信息检索模型研究

国家自然科学基金

0+阅读 · 2012年12月31日

货币政策多目标交互行为协调控制研究

国家自然科学基金

0+阅读 · 2012年12月31日

“多胺-环糊精-量子点”纳米药物转运系统的设计及生物活性研究

国家自然科学基金

0+阅读 · 2012年12月31日

复杂运动条件下动作表象的神经心理机制研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于域知识的自定义Web对象自动抽取技术

国家自然科学基金

0+阅读 · 2012年12月31日

直升机低阶鲁棒飞行控制器设计及仿真研究

国家自然科学基金

1+阅读 · 2011年12月31日

管理决策过程中考虑决策者犹豫程度的直觉模糊多目标决策理论与方法

国家自然科学基金

0+阅读 · 2011年12月31日

跨文化多模态情感语音的心理、生理及声学研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员