随着大型语言模型(LLMs)的快速发展,关于其安全性和风险的担忧日益增加,这主要源于对其能力和局限性的理解不足。在本教程中,我们的目标是通过呈现全面的LLM评估概述来填补这一空白。首先,我们从“什么”、“哪里”和“如何评估”这三个角度,讨论了LLM评估的最新进展。接着,我们介绍了LLM评估中的几个关键挑战,如数据污染和固定复杂度。基于这些挑战,我们介绍了如何克服这些问题。之后,我们展示了如何在不同的下游任务中评估LLMs,包括自然科学和社会科学,接着是一些流行的代码库和基准测试。我们希望学术界和工业界的研究人员继续努力,使LLMs更加安全、负责任和准确。 https://llm-understand.github.io/

成为VIP会员查看完整内容
46

相关内容

【CVPR2025教程】大规模多模态模型的评估:挑战与方法
专知会员服务
15+阅读 · 2025年6月13日
【PODS2023】从查询语言的视角看图学习,111页ppt
专知会员服务
26+阅读 · 2023年7月22日
【EACL2021教程】无监督神经机器翻译,125页ppt
专知会员服务
24+阅读 · 2021年11月13日
【干货书】优化算法,232页pdf
专知
26+阅读 · 2022年9月8日
【新书】分布式强化学习,280页pdf
专知
24+阅读 · 2021年12月19日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
176+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
501+阅读 · 2023年3月31日
Arxiv
83+阅读 · 2023年3月26日
Arxiv
182+阅读 · 2023年3月24日
VIP会员
最新内容
乌克兰前线的五项创新
专知会员服务
1+阅读 · 今天6:14
 军事通信系统与设备的技术演进综述
专知会员服务
1+阅读 · 今天5:59
《北约标准:医疗评估手册》174页
专知会员服务
2+阅读 · 今天5:51
《提升生成模型的安全性与保障》博士论文
专知会员服务
0+阅读 · 今天5:47
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
10+阅读 · 4月19日
澳大利亚发布《国防战略(2026年)》
专知会员服务
4+阅读 · 4月19日
全球高超音速武器最新发展趋势
专知会员服务
4+阅读 · 4月19日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员