【AAAI2025教程】评估大型语言模型：挑战与方法，199页ppt - 专知VIP

会员服务 ·

28

AAAI 2025 · 大型语言模型 · 大模型评估 ·

2025 年 2 月 27 日

【AAAI2025教程】评估大型语言模型：挑战与方法，199页ppt

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

随着大型语言模型（LLMs）的快速发展，关于其安全性和风险的担忧日益增加，这主要源于对其能力和局限性的理解不足。在本教程中，我们的目标是通过呈现全面的LLM评估概述来填补这一空白。首先，我们从“什么”、“哪里”和“如何评估”这三个角度，讨论了LLM评估的最新进展。接着，我们介绍了LLM评估中的几个关键挑战，如数据污染和固定复杂度。基于这些挑战，我们介绍了如何克服这些问题。之后，我们展示了如何在不同的下游任务中评估LLMs，包括自然科学和社会科学，接着是一些流行的代码库和基准测试。我们希望学术界和工业界的研究人员继续努力，使LLMs更加安全、负责任和准确。 https://llm-understand.github.io/

成为VIP会员查看完整内容

46

相关内容

AAAI 2025

【CVPR2025教程】大规模多模态模型的评估：挑战与方法

【CVPR2025教程】大规模多模态模型的评估：挑战与方法

专知会员服务

15+阅读 · 2025年6月13日

【AAAI2025教程】大语言模型中的幻觉问题：挑战与解决方案，86页ppt

【AAAI2025教程】大语言模型中的幻觉问题：挑战与解决方案，86页ppt

专知会员服务

48+阅读 · 2025年3月4日

【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

专知会员服务

34+阅读 · 2024年8月14日

【COLING教程】导航现代评估领域：大语言模型 (LLMs) 基准和框架的考量，181页ppt

【COLING教程】导航现代评估领域：大语言模型 (LLMs) 基准和框架的考量，181页ppt

专知会员服务

28+阅读 · 2024年5月31日

【WSDM2024教程】无偏学习排序：关于近期进展和实际应用，198页ppt

【WSDM2024教程】无偏学习排序：关于近期进展和实际应用，198页ppt

专知会员服务

20+阅读 · 2024年3月7日

【PODS2023】从查询语言的视角看图学习，111页ppt

【PODS2023】从查询语言的视角看图学习，111页ppt

专知会员服务

26+阅读 · 2023年7月22日

【WSDM2023教程】面向自然语言处理的知识增强方法，191页ppt

【WSDM2023教程】面向自然语言处理的知识增强方法，191页ppt

专知会员服务

25+阅读 · 2023年2月25日

【VLDB2022教程】查询图结构关系的现代技术:基础、系统实现和开放挑战，320页ppt

【VLDB2022教程】查询图结构关系的现代技术:基础、系统实现和开放挑战，320页ppt

专知会员服务

12+阅读 · 2022年11月3日

【EACL2021教程】无监督神经机器翻译，125页ppt

【EACL2021教程】无监督神经机器翻译，125页ppt

专知会员服务

24+阅读 · 2021年11月13日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知会员服务

105+阅读 · 2020年3月19日

【2022新书】机器学习中的统计建模:概念和应用，398页pdf

【2022新书】机器学习中的统计建模:概念和应用，398页pdf

专知

46+阅读 · 2022年11月5日

【干货书】优化算法，232页pdf

【干货书】优化算法，232页pdf

专知

26+阅读 · 2022年9月8日

【干货书】机器学习线性代数与优化，507页pdf

【干货书】机器学习线性代数与优化，507页pdf

专知

23+阅读 · 2022年7月28日

【干货书】实用时间序列分析：使用Python掌握时间序列数据处理、可视化和建模,238页pdf

【干货书】实用时间序列分析：使用Python掌握时间序列数据处理、可视化和建模,238页pdf

专知

30+阅读 · 2022年5月26日

【新书】分布式强化学习，280页pdf

【新书】分布式强化学习，280页pdf

专知

24+阅读 · 2021年12月19日

【开放书】深度学习导论，196页pdf，Introduction to Deep Learning

【开放书】深度学习导论，196页pdf，Introduction to Deep Learning

专知

11+阅读 · 2020年7月15日

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

专知

24+阅读 · 2020年6月11日

【干货书】R语言书: 编程和统计的第一课程，835页pdf

【干货书】R语言书: 编程和统计的第一课程，835页pdf

专知

40+阅读 · 2020年5月9日

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

专知

12+阅读 · 2019年12月16日

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

不完全信息下的投资组合选择模型研究：一个时间一致性的视角

国家自然科学基金

5+阅读 · 2015年12月31日

互联网商业模式价格形成机制与资源配置效率研究——基于消费者信息不完美与搜寻的博弈理论视角

国家自然科学基金

0+阅读 · 2015年12月31日

模糊情况下的最优消费与投资

国家自然科学基金

3+阅读 · 2015年12月31日

Filling问题的最优化原理及其求解方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

非均质量子器件Schr？dinger-Poisson系统多尺度分析与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

模仿型新产品开发过程及对新产品绩效的影响机制：中、美、印的跨国研究

国家自然科学基金

0+阅读 · 2014年12月31日

一类极大加和逆优化问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

176+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

43+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

88+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

501+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

156+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

64+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

83+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

182+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

88+阅读 · 2023年3月21日

VIP会员

相关主题

大型语言模型

大模型评估

最新内容

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

8+阅读 · 7月22日

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

3+阅读 · 7月22日

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

7+阅读 · 7月22日

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

6+阅读 · 7月22日

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

15+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

12+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

9+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

7+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

9+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

8+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

10+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

9+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

相关VIP内容

【CVPR2025教程】大规模多模态模型的评估：挑战与方法

【CVPR2025教程】大规模多模态模型的评估：挑战与方法

专知会员服务

15+阅读 · 2025年6月13日

【AAAI2025教程】大语言模型中的幻觉问题：挑战与解决方案，86页ppt

【AAAI2025教程】大语言模型中的幻觉问题：挑战与解决方案，86页ppt

专知会员服务

48+阅读 · 2025年3月4日

【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

专知会员服务

34+阅读 · 2024年8月14日

【COLING教程】导航现代评估领域：大语言模型 (LLMs) 基准和框架的考量，181页ppt

【COLING教程】导航现代评估领域：大语言模型 (LLMs) 基准和框架的考量，181页ppt

专知会员服务

28+阅读 · 2024年5月31日

【WSDM2024教程】无偏学习排序：关于近期进展和实际应用，198页ppt

【WSDM2024教程】无偏学习排序：关于近期进展和实际应用，198页ppt

专知会员服务

20+阅读 · 2024年3月7日

【PODS2023】从查询语言的视角看图学习，111页ppt

【PODS2023】从查询语言的视角看图学习，111页ppt

专知会员服务

26+阅读 · 2023年7月22日

【WSDM2023教程】面向自然语言处理的知识增强方法，191页ppt

【WSDM2023教程】面向自然语言处理的知识增强方法，191页ppt

专知会员服务

25+阅读 · 2023年2月25日

【VLDB2022教程】查询图结构关系的现代技术:基础、系统实现和开放挑战，320页ppt

【VLDB2022教程】查询图结构关系的现代技术:基础、系统实现和开放挑战，320页ppt

专知会员服务

12+阅读 · 2022年11月3日

【EACL2021教程】无监督神经机器翻译，125页ppt

【EACL2021教程】无监督神经机器翻译，125页ppt

专知会员服务

24+阅读 · 2021年11月13日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知会员服务

105+阅读 · 2020年3月19日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

对抗环境下超视距目标打击的情报支援

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

相关资讯

【2022新书】机器学习中的统计建模:概念和应用，398页pdf

【2022新书】机器学习中的统计建模:概念和应用，398页pdf

专知

46+阅读 · 2022年11月5日

【干货书】优化算法，232页pdf

【干货书】优化算法，232页pdf

专知

26+阅读 · 2022年9月8日

【干货书】机器学习线性代数与优化，507页pdf

【干货书】机器学习线性代数与优化，507页pdf

专知

23+阅读 · 2022年7月28日

【干货书】实用时间序列分析：使用Python掌握时间序列数据处理、可视化和建模,238页pdf

【干货书】实用时间序列分析：使用Python掌握时间序列数据处理、可视化和建模,238页pdf

专知

30+阅读 · 2022年5月26日

【新书】分布式强化学习，280页pdf

【新书】分布式强化学习，280页pdf

专知

24+阅读 · 2021年12月19日

【开放书】深度学习导论，196页pdf，Introduction to Deep Learning

【开放书】深度学习导论，196页pdf，Introduction to Deep Learning

专知

11+阅读 · 2020年7月15日

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

【斯坦福CS520】向量空间中嵌入的知识图谱推理，48页ppt

专知

24+阅读 · 2020年6月11日

【干货书】R语言书: 编程和统计的第一课程，835页pdf

【干货书】R语言书: 编程和统计的第一课程，835页pdf

专知

40+阅读 · 2020年5月9日

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

【NeurlPS2019教程】微软首席研究员Katja Hofmann - 强化学习：过去、现在和未来展望，附97页ppt

专知

12+阅读 · 2019年12月16日

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

相关基金

不完全信息下的投资组合选择模型研究：一个时间一致性的视角

国家自然科学基金

5+阅读 · 2015年12月31日

互联网商业模式价格形成机制与资源配置效率研究——基于消费者信息不完美与搜寻的博弈理论视角

国家自然科学基金

0+阅读 · 2015年12月31日

模糊情况下的最优消费与投资

国家自然科学基金

3+阅读 · 2015年12月31日

Filling问题的最优化原理及其求解方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

非均质量子器件Schr？dinger-Poisson系统多尺度分析与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

模仿型新产品开发过程及对新产品绩效的影响机制：中、美、印的跨国研究

国家自然科学基金

0+阅读 · 2014年12月31日

一类极大加和逆优化问题的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

176+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

43+阅读 · 2023年4月19日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

88+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

501+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

156+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

64+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

83+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

182+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

88+阅读 · 2023年3月21日

微信扫码咨询专知VIP会员