成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
0
ACL 2020最佳论文直播重磅来袭,二作学霸小姐姐驾到!
专知AI搜索
2020 年 8 月 7 日
AI科技评论
在这个万事万物都需要准确“评价”和“度量”的时代,NLP 模型也不例外。
正所谓工欲善其事必先利其器,只有对模型建立正确的评估方法,其本质和内在规律才能够被剖析出来,研究者也才能有的放矢地对其进行深入探索并解决相关问题。
在今年的ACL 2020上一举拿下最佳论文奖的论文,便针对NLP 模型提出了一种全新的测试方法——CheckList,令人记忆犹新。
论文地址:https://www.aclweb.org/anthology/2020.acl-main.442/
开源代码:
https://github.com/marcotcr/checklist
当前NLP 模型最常采用“留出法”(held-out)这一评估方法,然而这种方法往往会高估模型的泛化能力 。与此同时,现有的其他评估方法则通常只针对某一特定任务或某种特定的模型行为。
对此,最佳论文团队受软件工程行为测试原理的启发,提出了 CheckList 测试方法。具体而言,它作为一种模型测试框架,可以将行为测试抽象为一个独立于具体任务的“模型性能x测试类型”的矩阵,让用户可以通过填表全方位地设计、构想各种测试。
不仅如此,CheckList作为一个开源软件,也提供了包括可视化、填词建议等实用组件,帮助用户快速生成大量和多样化的测试用例。在用户实验中,使用CheckList的模型错误,几乎是没使用它的模型的三倍。
值得关注的是,
这篇最佳论文的二作,还是一位华人学生——正在华盛顿大学读博士四年级的吴彤霜。
她师从Jeffrey Heer和Dan Weld,主要研究方向是通过结合人机交互的技术,来探索和改进自然语言处理模型的训练和评估步骤,最终帮助用户更有效、系统地与他们的模型进行交互。
2020年8月11日上午10:30,在AI 科技评论重磅推出的ACL 2020最佳论文直播中,学霸小姐姐吴彤霜将亲自为大家带来详细的论文解读。
届时,与吴彤霜一同现身的还有来自哈尔滨工业大学社会计算与信息检索研究中心(SCIR)的在读博士生覃立波。他将作为本次直播的主持人,与吴彤霜进行一场思想的碰撞!
直播主题:不止于准确性:使用CheckList为NLP模型进行行为测试
直播嘉宾:
吴彤霜,本科毕业于香港科技大学,目前在华盛顿大学读博士四年级,导师为Jeffrey Heer和Dan Weld。主要研究方向是通过结合人机交互的技术,来探索和改进自然语言处理模型的训练和评估步骤,最终帮助用户更有效、系统地与他们的模型进行交互。
主持人
:覃立波 (忆臻),哈尔滨工业大学社会计算与信息检索研究中心(SCIR)在读博士生,导师车万翔教授,研究兴趣为任务型对话系统,相应研究成果发表在ACL、EMNLP、AAAI、IJCAI上。
直播时间:
2020年8月11日上午10:30
如何加入?
扫码关注[ AI研习社顶会小助手] 微信号,发送关键字“ACL 2020+直播”,即可进群观看直播和获取课程资料。
阅读原文,直达“ ACL ”小组,了解更多会议信息
登录查看更多
点赞并收藏
0
暂时没有读者
1
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:
[email protected]
),我们会尽快为您处理
相关内容
ACL 2020
关注
15
【NeurIPS2020】图网的主邻域聚合
专知会员服务
33+阅读 · 2020年9月27日
自然语言处理ACL2020最佳论文出炉!微软摘得最佳论文,Bengio论文获时间检验奖
专知会员服务
45+阅读 · 2020年7月9日
CVPR 2020 最佳论文与最佳学生论文!
专知会员服务
36+阅读 · 2020年6月17日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
97+阅读 · 2020年5月31日
斯坦福2020硬课《分布式算法与优化》
专知会员服务
123+阅读 · 2020年5月6日
最新!CCF-A类人工智能顶会WWW2020最佳论文出炉!OSU最佳论文,北邮斩获最佳学生论文!
专知会员服务
27+阅读 · 2020年4月25日
预训练语言模型BERT,Jacob Devlin斯坦福演讲PPT:BERT介绍与答疑,35页ppt
专知会员服务
115+阅读 · 2020年1月7日
【CVPR 2019 | tutorial】阿波罗,开放式自主驾驶平台:Apollo, Open Autonomous Driving Platform
专知会员服务
32+阅读 · 2019年11月28日
NLP技术之于文本对读的实践与发现,南京大学历史学院王涛教授,第八届全国社会媒体处理大会SMP2019
专知会员服务
6+阅读 · 2019年10月24日
问答与对话-理论与基础之面向自然语言处理的深度学习基础 【邱锡鹏】 第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第13期
专知会员服务
48+阅读 · 2019年10月21日
实录分享 | 计算未来轻沙龙:图神经网络前沿研讨会
PaperWeekly
6+阅读 · 2019年12月3日
@即将开学的你,请收好这份必读论文清单
PaperWeekly
4+阅读 · 2019年8月19日
ACL 主席周明:一起拥抱 ACL 和 NLP 的光明未来(附下载)
THU数据派
3+阅读 · 2019年8月13日
XLNet团队:只要公平对比,BERT毫无还手之力
机器之心
6+阅读 · 2019年7月23日
DevOps 国际峰会 2019 · 北京站完整实录(附PPT)
DevOps时代
52+阅读 · 2019年7月8日
本周值得读的15篇AI论文,还有源码搭配服用
中国人工智能学会
3+阅读 · 2019年3月26日
美国AI科学家的100堂NLP公开课~
深度学习与NLP
4+阅读 · 2019年3月18日
直播 | 自然语言处理中的多任务学习 & 复旦大学NLP实验室介绍
AI科技评论
6+阅读 · 2018年10月22日
直播 | 基于对抗跨语言多任务学习的微博个性化情感分析
AI科技评论
4+阅读 · 2018年10月9日
快醒醒,一大波最新 AI 论文加开源代码来袭!
PaperWeekly
3+阅读 · 2018年4月19日
Generating Question Relevant Captions to Aid Visual Question Answering
Arxiv
5+阅读 · 2019年9月9日
Inferred successor maps for better transfer learning
Arxiv
3+阅读 · 2019年7月2日
Unsupervised Neural Text Simplification
Arxiv
3+阅读 · 2018年12月19日
Receptive Field Block Net for Accurate and Fast Object Detection
Arxiv
3+阅读 · 2018年7月26日
What we really want to find by Sentiment Analysis: The Relationship between Computational Models and Psychological State
Arxiv
6+阅读 · 2018年6月3日
Psychological State in Text: A Limitation of Sentiment Analysis
Arxiv
8+阅读 · 2018年6月3日
A Sentiment Analysis of Breast Cancer Treatment Experiences and Healthcare Perceptions Across Twitter
Arxiv
4+阅读 · 2018年5月25日
Predicting Cyber Events by Leveraging Hacker Sentiment
Arxiv
3+阅读 · 2018年4月14日
A Benchmark Study on Sentiment Analysis for Software Engineering Research
Arxiv
3+阅读 · 2018年3月17日
Twitter Sentiment Analysis
Arxiv
5+阅读 · 2015年9月14日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
ACL 2020
最佳论文
ACL
学霸
论文
NLP
最新内容
无人机视觉语言导航:研究进展、挑战与技术路线图
专知会员服务
0+阅读 · 9分钟前
《基于强化学习的反无人机蜂群拦截优先级排序》
专知会员服务
7+阅读 · 今天8:20
乌克兰反无人机方案“天穹哨兵”解析:一款人工智能驱动的近程防空系统
专知会员服务
2+阅读 · 今天7:30
美军2026条令《指挥官装甲装备维护技能测试计划》
专知会员服务
5+阅读 · 今天7:28
《俄罗斯构建服务于人工智能驱动自主性的主权无人机生态系统》(2026报告)
专知会员服务
6+阅读 · 今天3:09
2026年俄罗斯新型喷气动力无人机Geran-5的技术规格
专知会员服务
3+阅读 · 今天2:50
基于数据优化的人机协同与机器人僚机
专知会员服务
4+阅读 · 今天2:08
美太空军发布两份聚焦2040年规划的文件:《2040年未来作战环境》和《2040年目标部队》(附文件)
专知会员服务
10+阅读 · 今天1:51
《为码头高价值舰艇提供反无人机系统防御方案研究》80页
专知会员服务
8+阅读 · 4月15日
《认知战作为一个战略域:媒体生态系统、社交网络与社会韧性的侵蚀》
专知会员服务
5+阅读 · 4月15日
美陆军设想无人系统司令部
专知会员服务
3+阅读 · 4月15日
【博士论文】已对齐人工智能系统的持久脆弱性
专知会员服务
5+阅读 · 4月15日
人工智能对指挥控制的加速及其对陆军的影响(中文报告)
专知会员服务
5+阅读 · 4月15日
扭曲还是编造?视频大语言模型幻觉研究综述
专知会员服务
6+阅读 · 4月15日
美欧最新(2026)反无人机系统选项、技术与获取一览
专知会员服务
6+阅读 · 4月15日
相关VIP内容
【NeurIPS2020】图网的主邻域聚合
专知会员服务
33+阅读 · 2020年9月27日
自然语言处理ACL2020最佳论文出炉!微软摘得最佳论文,Bengio论文获时间检验奖
专知会员服务
45+阅读 · 2020年7月9日
CVPR 2020 最佳论文与最佳学生论文!
专知会员服务
36+阅读 · 2020年6月17日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
97+阅读 · 2020年5月31日
斯坦福2020硬课《分布式算法与优化》
专知会员服务
123+阅读 · 2020年5月6日
最新!CCF-A类人工智能顶会WWW2020最佳论文出炉!OSU最佳论文,北邮斩获最佳学生论文!
专知会员服务
27+阅读 · 2020年4月25日
预训练语言模型BERT,Jacob Devlin斯坦福演讲PPT:BERT介绍与答疑,35页ppt
专知会员服务
115+阅读 · 2020年1月7日
【CVPR 2019 | tutorial】阿波罗,开放式自主驾驶平台:Apollo, Open Autonomous Driving Platform
专知会员服务
32+阅读 · 2019年11月28日
NLP技术之于文本对读的实践与发现,南京大学历史学院王涛教授,第八届全国社会媒体处理大会SMP2019
专知会员服务
6+阅读 · 2019年10月24日
问答与对话-理论与基础之面向自然语言处理的深度学习基础 【邱锡鹏】 第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第13期
专知会员服务
48+阅读 · 2019年10月21日
热门VIP内容
开通专知VIP会员 享更多权益服务
《基于强化学习的反无人机蜂群拦截优先级排序》
美军2026条令《指挥官装甲装备维护技能测试计划》
无人机视觉语言导航:研究进展、挑战与技术路线图
乌克兰反无人机方案“天穹哨兵”解析:一款人工智能驱动的近程防空系统
相关资讯
实录分享 | 计算未来轻沙龙:图神经网络前沿研讨会
PaperWeekly
6+阅读 · 2019年12月3日
@即将开学的你,请收好这份必读论文清单
PaperWeekly
4+阅读 · 2019年8月19日
ACL 主席周明:一起拥抱 ACL 和 NLP 的光明未来(附下载)
THU数据派
3+阅读 · 2019年8月13日
XLNet团队:只要公平对比,BERT毫无还手之力
机器之心
6+阅读 · 2019年7月23日
DevOps 国际峰会 2019 · 北京站完整实录(附PPT)
DevOps时代
52+阅读 · 2019年7月8日
本周值得读的15篇AI论文,还有源码搭配服用
中国人工智能学会
3+阅读 · 2019年3月26日
美国AI科学家的100堂NLP公开课~
深度学习与NLP
4+阅读 · 2019年3月18日
直播 | 自然语言处理中的多任务学习 & 复旦大学NLP实验室介绍
AI科技评论
6+阅读 · 2018年10月22日
直播 | 基于对抗跨语言多任务学习的微博个性化情感分析
AI科技评论
4+阅读 · 2018年10月9日
快醒醒,一大波最新 AI 论文加开源代码来袭!
PaperWeekly
3+阅读 · 2018年4月19日
相关论文
Generating Question Relevant Captions to Aid Visual Question Answering
Arxiv
5+阅读 · 2019年9月9日
Inferred successor maps for better transfer learning
Arxiv
3+阅读 · 2019年7月2日
Unsupervised Neural Text Simplification
Arxiv
3+阅读 · 2018年12月19日
Receptive Field Block Net for Accurate and Fast Object Detection
Arxiv
3+阅读 · 2018年7月26日
What we really want to find by Sentiment Analysis: The Relationship between Computational Models and Psychological State
Arxiv
6+阅读 · 2018年6月3日
Psychological State in Text: A Limitation of Sentiment Analysis
Arxiv
8+阅读 · 2018年6月3日
A Sentiment Analysis of Breast Cancer Treatment Experiences and Healthcare Perceptions Across Twitter
Arxiv
4+阅读 · 2018年5月25日
Predicting Cyber Events by Leveraging Hacker Sentiment
Arxiv
3+阅读 · 2018年4月14日
A Benchmark Study on Sentiment Analysis for Software Engineering Research
Arxiv
3+阅读 · 2018年3月17日
Twitter Sentiment Analysis
Arxiv
5+阅读 · 2015年9月14日
大家都在搜
maven
palantir
无人机系统
无人机蜂群
伊朗战争
terraform
助贷模式
雷鸟科技
篮球制作
GitHub上已超过
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top