Towards Better Instruction Following Language Models for Chinese: Investigating the Impact of Training Data and Evaluation - 专知论文

会员服务 ·

0

模型性能 · 训练数据 · 定量分析 · 多轮对话 · 定量 ·

2023 年 4 月 16 日

Towards Better Instruction Following Language Models for Chinese: Investigating the Impact of Training Data and Evaluation

翻译：面向更好遵循指令的中文语言模型：探究训练数据及评估的影响

Yunjie Ji,Yan Gong,Yong Deng,Yiping Peng,Qiang Niu,Baochang Ma,Xiangang Li

Recently, significant public efforts have been directed towards developing low-cost models with capabilities akin to ChatGPT, thereby fostering the growth of open-source conversational models. However, there remains a scarcity of comprehensive and in-depth evaluations of these models' performance. In this study, we examine the influence of training data factors, including quantity, quality, and linguistic distribution, on model performance. Our analysis is grounded in several publicly accessible, high-quality instruction datasets, as well as our own Chinese multi-turn conversations. We assess various models using a evaluation set of 1,000 samples, encompassing nine real-world scenarios. Our goal is to supplement manual evaluations with quantitative analyses, offering valuable insights for the continued advancement of open-source chat models. Furthermore, to enhance the performance and training and inference efficiency of models in the Chinese domain, we extend the vocabulary of LLaMA - the model with the closest open-source performance to proprietary language models like GPT-3 - and conduct secondary pre-training on 3.4B Chinese words. We make our model, data, as well as code publicly available.

翻译：近期，大量公共资源投入开发类似ChatGPT能力的低成本模型，从而推动了开源对话模型的进展。然而，对这些模型性能进行全面而深入的评估仍然匮乏。本研究审视了包括数量、质量与语言分布在内的训练数据因素对模型性能的影响。我们的分析基于多个可公开获取的高质量指令数据集，以及自建的中文多轮对话数据。我们使用包含1000个样本、覆盖九种真实场景的评估集对多种模型进行了评估。目标在于通过定量分析补充人工评估，为开源聊天模型的持续改进提供宝贵见解。此外，为提升模型在中文领域的性能及训练推理效率，我们扩展了LLaMA（开源性能最接近GPT-3等专有语言模型的模型）的词表，并在34亿中文词汇上进行二次预训练。我们将模型、数据及代码公开。

2

相关内容

模型性能

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

揭秘ChatGPT情感对话能力

揭秘ChatGPT情感对话能力

专知会员服务

59+阅读 · 2023年4月9日

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

专知会员服务

167+阅读 · 2023年4月9日

ChatAug: 利用ChatGPT进行文本数据增强

ChatAug: 利用ChatGPT进行文本数据增强

专知会员服务

81+阅读 · 2023年3月4日

1370亿参数、接近人类水平，谷歌对话AI模型LaMDA放出论文

1370亿参数、接近人类水平，谷歌对话AI模型LaMDA放出论文

专知会员服务

46+阅读 · 2022年1月24日

神经文本生成可用么？斯坦福Abigail博士论文《开放式文本和对话的神经生成》，192页pdf

专知会员服务

26+阅读 · 2021年9月1日

【CIKM2021】超链接预训练信息检索

专知会员服务

17+阅读 · 2021年8月24日

【ACL2020】不要停止预训练:根据领域和任务自适应调整语言模型，Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

【ACL2020】不要停止预训练:根据领域和任务自适应调整语言模型，Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

专知会员服务

46+阅读 · 2020年4月25日

【ACL2020-浙大-微软】多轮对话推理数据集，MuTual: A Dataset for Multi-Turn Dialogue Reasoning

【ACL2020-浙大-微软】多轮对话推理数据集，MuTual: A Dataset for Multi-Turn Dialogue Reasoning

专知会员服务

38+阅读 · 2020年4月10日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

首次：微软用GPT-4做大模型指令微调，新任务零样本性能再提升

首次：微软用GPT-4做大模型指令微调，新任务零样本性能再提升

机器之心

7+阅读 · 2023年4月9日

大规模、高性能，清华、聆心智能推出中文开放域对话预训练开源模型OPD

大规模、高性能，清华、聆心智能推出中文开放域对话预训练开源模型OPD

机器之心

0+阅读 · 2022年11月12日

「多语言图像描述」最强评估基准XM3600来了！涵盖36种语言

「多语言图像描述」最强评估基准XM3600来了！涵盖36种语言

新智元

0+阅读 · 2022年10月24日

ICML 2022 | 字节提出首个用于评测预训练视觉语言模型真正泛化能力的基准评测平台 VLUE

ICML 2022 | 字节提出首个用于评测预训练视觉语言模型真正泛化能力的基准评测平台 VLUE

PaperWeekly

0+阅读 · 2022年8月7日

NLPCC2020 开放任务评测发布，涵盖预训练、情感分析、信息抽取

NLPCC2020 开放任务评测发布，涵盖预训练、情感分析、信息抽取

AI科技评论

24+阅读 · 2020年3月15日

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

论文浅尝 | XQA：一个跨语言开放域问答数据集

论文浅尝 | XQA：一个跨语言开放域问答数据集

开放知识图谱

26+阅读 · 2019年9月11日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

【数据集】新的YELP数据集官方下载

【数据集】新的YELP数据集官方下载

机器学习研究会

16+阅读 · 2017年8月31日

基于Medip-seq 和MRE-seq数据的甲基化水平的估计及差异性检验

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于单语语料的无监督统计机器翻译模型研究

国家自然科学基金

2+阅读 · 2013年12月31日

对象模型上交互式修复生成技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

在线口碑对消费者决策行为影响的实证研究：基于启发式-系统式模型的扩展视角

国家自然科学基金

1+阅读 · 2012年12月31日

跨语言信息检索中的机器翻译研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于最优化理论的空间数据质量检验二级抽样模型

国家自然科学基金

0+阅读 · 2011年12月31日

基于谓词规划树的规划方法的研究

国家自然科学基金

1+阅读 · 2009年12月31日

基于多Agent的通信交互式动态影响图研究及应用

国家自然科学基金

2+阅读 · 2009年12月31日

基于双语文档反馈的跨语言信息检索研究

国家自然科学基金

0+阅读 · 2008年12月31日

Matching-based Data Valuation for Generative Model

Arxiv

0+阅读 · 2023年6月2日

On the Effectiveness of Hybrid Mutual Information Estimation

Arxiv

0+阅读 · 2023年6月2日

Multiscale Positive-Unlabeled Detection of AI-Generated Texts

Arxiv

0+阅读 · 2023年6月2日

Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters

Arxiv

0+阅读 · 2023年6月1日

Correcting Semantic Parses with Natural Language through Dynamic Schema Encoding

Arxiv

0+阅读 · 2023年5月31日

A technique to jointly estimate depth and depth uncertainty for unmanned aerial vehicles

Arxiv

0+阅读 · 2023年5月31日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

501+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

64+阅读 · 2023年3月29日

A Graph-based Relevance Matching Model for Ad-hoc Retrieval

Arxiv

11+阅读 · 2021年1月28日

Few-shot Natural Language Generation for Task-Oriented Dialog

Few-shot Natural Language Generation for Task-Oriented Dialog

Arxiv

30+阅读 · 2020年2月27日

VIP会员

文章信息

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

11+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

7+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

揭秘ChatGPT情感对话能力

揭秘ChatGPT情感对话能力

专知会员服务

59+阅读 · 2023年4月9日

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用，31页pdf

专知会员服务

167+阅读 · 2023年4月9日

ChatAug: 利用ChatGPT进行文本数据增强

ChatAug: 利用ChatGPT进行文本数据增强

专知会员服务

81+阅读 · 2023年3月4日

1370亿参数、接近人类水平，谷歌对话AI模型LaMDA放出论文

1370亿参数、接近人类水平，谷歌对话AI模型LaMDA放出论文

专知会员服务

46+阅读 · 2022年1月24日

神经文本生成可用么？斯坦福Abigail博士论文《开放式文本和对话的神经生成》，192页pdf

专知会员服务

26+阅读 · 2021年9月1日

【CIKM2021】超链接预训练信息检索

专知会员服务

17+阅读 · 2021年8月24日

【ACL2020】不要停止预训练:根据领域和任务自适应调整语言模型，Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

【ACL2020】不要停止预训练:根据领域和任务自适应调整语言模型，Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

专知会员服务

46+阅读 · 2020年4月25日

【ACL2020-浙大-微软】多轮对话推理数据集，MuTual: A Dataset for Multi-Turn Dialogue Reasoning

【ACL2020-浙大-微软】多轮对话推理数据集，MuTual: A Dataset for Multi-Turn Dialogue Reasoning

专知会员服务

38+阅读 · 2020年4月10日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

首次：微软用GPT-4做大模型指令微调，新任务零样本性能再提升

首次：微软用GPT-4做大模型指令微调，新任务零样本性能再提升

机器之心

7+阅读 · 2023年4月9日

大规模、高性能，清华、聆心智能推出中文开放域对话预训练开源模型OPD

大规模、高性能，清华、聆心智能推出中文开放域对话预训练开源模型OPD

机器之心

0+阅读 · 2022年11月12日

「多语言图像描述」最强评估基准XM3600来了！涵盖36种语言

「多语言图像描述」最强评估基准XM3600来了！涵盖36种语言

新智元

0+阅读 · 2022年10月24日

ICML 2022 | 字节提出首个用于评测预训练视觉语言模型真正泛化能力的基准评测平台 VLUE

ICML 2022 | 字节提出首个用于评测预训练视觉语言模型真正泛化能力的基准评测平台 VLUE

PaperWeekly

0+阅读 · 2022年8月7日

NLPCC2020 开放任务评测发布，涵盖预训练、情感分析、信息抽取

NLPCC2020 开放任务评测发布，涵盖预训练、情感分析、信息抽取

AI科技评论

24+阅读 · 2020年3月15日

自然语言生成资源列表

自然语言生成资源列表

专知

17+阅读 · 2020年1月4日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

论文浅尝 | XQA：一个跨语言开放域问答数据集

论文浅尝 | XQA：一个跨语言开放域问答数据集

开放知识图谱

26+阅读 · 2019年9月11日

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

RoBERTa for Chinese：大规模中文预训练RoBERTa模型

AINLP

30+阅读 · 2019年9月8日

【数据集】新的YELP数据集官方下载

【数据集】新的YELP数据集官方下载

机器学习研究会

16+阅读 · 2017年8月31日

相关论文

Matching-based Data Valuation for Generative Model

Arxiv

0+阅读 · 2023年6月2日

On the Effectiveness of Hybrid Mutual Information Estimation

Arxiv

0+阅读 · 2023年6月2日

Multiscale Positive-Unlabeled Detection of AI-Generated Texts

Arxiv

0+阅读 · 2023年6月2日

Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters

Arxiv

0+阅读 · 2023年6月1日

Correcting Semantic Parses with Natural Language through Dynamic Schema Encoding

Arxiv

0+阅读 · 2023年5月31日

A technique to jointly estimate depth and depth uncertainty for unmanned aerial vehicles

Arxiv

0+阅读 · 2023年5月31日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

501+阅读 · 2023年3月31日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

64+阅读 · 2023年3月29日

A Graph-based Relevance Matching Model for Ad-hoc Retrieval

Arxiv

11+阅读 · 2021年1月28日

Few-shot Natural Language Generation for Task-Oriented Dialog

Few-shot Natural Language Generation for Task-Oriented Dialog

Arxiv

30+阅读 · 2020年2月27日

相关基金

基于Medip-seq 和MRE-seq数据的甲基化水平的估计及差异性检验

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于单语语料的无监督统计机器翻译模型研究

国家自然科学基金

2+阅读 · 2013年12月31日

对象模型上交互式修复生成技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

在线口碑对消费者决策行为影响的实证研究：基于启发式-系统式模型的扩展视角

国家自然科学基金

1+阅读 · 2012年12月31日

跨语言信息检索中的机器翻译研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于最优化理论的空间数据质量检验二级抽样模型

国家自然科学基金

0+阅读 · 2011年12月31日

基于谓词规划树的规划方法的研究

国家自然科学基金

1+阅读 · 2009年12月31日

基于多Agent的通信交互式动态影响图研究及应用

国家自然科学基金

2+阅读 · 2009年12月31日

基于双语文档反馈的跨语言信息检索研究

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员