RoBERTa在SuperGLUE得分逼近人类,甩baseline十多个点

生成大数据摘要

作者:宁静,曹培新

7月30日,据报道Digest已被谷歌XLNet彻底轰炸,被Facebook升级并转变为“稳健优化的BERT方法”强大优化的BERT方法,重新掌握GLUE,SQUAD和RACE三个排名。

RACE测试集的结果表明,RoBERTa的Accyracy比BERT(大)高10%,比XLNet(大)高2%。

现在,Facebook AI已将RoBERTa提交给SuperGLUE。该列表显示,RoBERTa已经将Bert领先15个百分点,其表现几乎与人性相当。

从GLUE到SuperGLUE:更加困难

基于GLUE设计,SuperGLUE采用了一系列更加困难的语言理解任务。除了常见的任务识别文本蕴涵(RTE)和Winograd模式挑战(WSC)之外,它还增加了诸如常识推理和词义消除等任务。表中给出的其他测试数据集包括:

CB短文本语料库

MultiRC真假问答任务数据集

COPA因果推理

WiC字意义消除

RoBERTa离人类有多远

从SuperGLUE排名来看,RoBERTa的得分仅为人均5.2分,但纽约大学数据科学中心助理教授Sam Bowman也评论了Roberta的推特表现。

SuperGLUE代表了我们需要处理的35项任务中最难的一项。对于35个任务中的大多数,BERT本身的性能接近极限。

还有一些事情要注意:

RoBERTa的良好表现极大地受益于丰富的数据集:ReCoRD和MultiRC。将效果转移到不良数据任务更加困难。

WinoGender coref.accuracy表现更好,但代价是更差的奇偶校验。

RTE模型在向下单调推断中表现仍然不佳:例如,它倾向于假设“所有的狗都喜欢抓住他们的耳朵”。 “所有动物都喜欢揉耳朵。”

Sam Bowman认为他认为RoBERTa有一个明确的上限,而且我们对人类表现的估计较低,他认为接下来的5到10个百分点将很难突破。

让我们期待人们通过功率计算数据和变压器推动NLP的程度!

特别声明:本文由网易上传并由媒体平台“网易”作者发表,仅代表作者的观点。网易只提供信息发布平台。

跟进

跟进

0

参与

0

阅读下一篇文章

国庆节结束后,300个城市的销售收入被释放,房屋奴隶流下眼泪。

返回网易主页

下载网易新闻客户端

生成大数据摘要

作者:宁静,曹培新

7月30日,据报道Digest已被谷歌XLNet彻底轰炸,被Facebook升级并转变为“稳健优化的BERT方法”强大优化的BERT方法,重新掌握GLUE,SQUAD和RACE三个排名。

RACE测试集的结果表明,RoBERTa的Accyracy比BERT(大)高10%,比XLNet(大)高2%。

现在,Facebook AI已将RoBERTa提交给SuperGLUE。该列表显示,RoBERTa已经将Bert领先15个百分点,其表现几乎与人性相当。

从GLUE到SuperGLUE:更加困难

基于GLUE设计,SuperGLUE采用了一系列更加困难的语言理解任务。除了常见的任务识别文本蕴涵(RTE)和Winograd模式挑战(WSC)之外,它还增加了诸如常识推理和词义消除等任务。表中给出的其他测试数据集包括:

CB短文本语料库

MultiRC真假问答任务数据集

COPA因果推理

WiC字意义消除

RoBERTa离人类有多远

从SuperGLUE排名来看,RoBERTa的得分仅为人均5.2分,但纽约大学数据科学中心助理教授Sam Bowman也评论了Roberta的推特表现。

SuperGLUE代表了我们需要处理的35项任务中最难的一项。对于35个任务中的大多数,BERT本身的性能接近极限。

还有一些事情要注意:

RoBERTa的良好表现极大地受益于丰富的数据集:ReCoRD和MultiRC。将效果转移到不良数据任务更加困难。

WinoGender coref.accuracy表现更好,但代价是更差的奇偶校验。

RTE模型在向下单调推断中表现仍然不佳:例如,它倾向于假设“所有的狗都喜欢抓住他们的耳朵”。 “所有动物都喜欢揉耳朵。”

Sam Bowman认为他认为RoBERTa有一个明确的上限,而且我们对人类表现的估计较低,他认为接下来的5到10个百分点将很难突破。

让我们期待人们通过功率计算数据和变压器推动NLP的程度!

生成大数据摘要

作者:宁静,曹培新

7月30日,据报道Digest已被谷歌XLNet彻底轰炸,被Facebook升级并转变为“稳健优化的BERT方法”强大优化的BERT方法,重新掌握GLUE,SQUAD和RACE三个排名。

RACE测试集的结果表明,RoBERTa的Accyracy比BERT(大)高10%,比XLNet(大)高2%。

现在,Facebook AI已将RoBERTa提交给SuperGLUE。该列表显示,RoBERTa已经将Bert领先15个百分点,其表现几乎与人性相当。

从GLUE到SuperGLUE:更加困难

基于GLUE设计,SuperGLUE采用了一系列更加困难的语言理解任务。除了常见的任务识别文本蕴涵(RTE)和Winograd模式挑战(WSC)之外,它还增加了诸如常识推理和词义消除等任务。表中给出的其他测试数据集包括:

CB短文本语料库

MultiRC真假问答任务数据集

COPA因果推理

WiC字意义消除

RoBERTa离人类有多远

从SuperGLUE排名来看,RoBERTa的得分仅为人均5.2分,但纽约大学数据科学中心助理教授Sam Bowman也评论了Roberta的推特表现。

SuperGLUE代表了我们需要处理的35项任务中最难的一项。对于35个任务中的大多数,BERT本身的性能接近极限。

还有一些事情要注意:

RoBERTa的良好表现极大地受益于丰富的数据集:ReCoRD和MultiRC。将效果转移到不良数据任务更加困难。

WinoGender coref.accuracy表现更好,但代价是更差的奇偶校验。

RTE模型在向下单调推断中表现仍然不佳:例如,它倾向于假设“所有的狗都喜欢抓住他们的耳朵”。 “所有动物都喜欢揉耳朵。”

Sam Bowman认为他认为RoBERTa有一个明确的上限,而且我们对人类表现的估计较低,他认为接下来的5到10个百分点将很难突破。

让我们期待人们通过功率计算数据和变压器推动NLP的程度!

特别声明:本文由网易上传并由媒体平台“网易”作者发表,仅代表作者的观点。网易只提供信息发布平台。

跟进

跟进

0

参与

0

阅读下一篇文章

国庆节结束后,300个城市的销售收入被释放,房屋奴隶流下眼泪。

返回网易主页

下载网易新闻客户端

生成大数据摘要

作者:宁静,曹培新

7月30日,据报道Digest已被谷歌XLNet彻底轰炸,被Facebook升级并转变为“稳健优化的BERT方法”强大优化的BERT方法,重新掌握GLUE,SQUAD和RACE三个排名。

RACE测试集的结果表明,RoBERTa的Accyracy比BERT(大)高10%,比XLNet(大)高2%。

现在,Facebook AI已将RoBERTa提交给SuperGLUE。该列表显示,RoBERTa已经将Bert领先15个百分点,其表现几乎与人性相当。

从GLUE到SuperGLUE:更加困难

基于GLUE设计,SuperGLUE采用了一系列更加困难的语言理解任务。除了常见的任务识别文本蕴涵(RTE)和Winograd模式挑战(WSC)之外,它还增加了诸如常识推理和词义消除等任务。表中给出的其他测试数据集包括:

CB短文本语料库

MultiRC真假问答任务数据集

COPA因果推理

WiC字意义消除

RoBERTa离人类有多远

从SuperGLUE排名来看,RoBERTa的得分仅为人均5.2分,但纽约大学数据科学中心助理教授Sam Bowman也评论了Roberta的推特表现。

SuperGLUE代表了我们需要处理的35项任务中最难的一项。对于35个任务中的大多数,BERT本身的性能接近极限。

还有一些事情要注意:

RoBERTa的良好表现极大地受益于丰富的数据集:ReCoRD和MultiRC。将效果转移到不良数据任务更加困难。

WinoGender coref.accuracy表现更好,但代价是更差的奇偶校验。

RTE模型在向下单调推断中表现仍然不佳:例如,它倾向于假设“所有的狗都喜欢抓住他们的耳朵”。 “所有动物都喜欢揉耳朵。”

Sam Bowman认为他认为RoBERTa有一个明确的上限,而且我们对人类表现的估计较低,他认为接下来的5到10个百分点将很难突破。

让我们期待人们通过功率计算数据和变压器推动NLP的程度!

生成大数据摘要

作者:宁静,曹培新

7月30日,据报道Digest已被谷歌XLNet彻底轰炸,被Facebook升级并转变为“稳健优化的BERT方法”强大优化的BERT方法,重新掌握GLUE,SQUAD和RACE三个排名。

RACE测试集的结果表明,RoBERTa的Accyracy比BERT(大)高10%,比XLNet(大)高2%。

现在,Facebook AI已将RoBERTa提交给SuperGLUE。该列表显示,RoBERTa已经将Bert领先15个百分点,其表现几乎与人性相当。

从GLUE到SuperGLUE:更加困难

基于GLUE设计,SuperGLUE采用了一系列更加困难的语言理解任务。除了常见的任务识别文本蕴涵(RTE)和Winograd模式挑战(WSC)之外,它还增加了诸如常识推理和词义消除等任务。表中给出的其他测试数据集包括:

CB短文本语料库

MultiRC真假问答任务数据集

COPA因果推理

WiC字意义消除

RoBERTa离人类有多远

从SuperGLUE排名来看,RoBERTa的得分仅为人均5.2分,但纽约大学数据科学中心助理教授Sam Bowman也评论了Roberta的推特表现。

SuperGLUE代表了我们需要处理的35项任务中最难的一项。对于35个任务中的大多数,BERT本身的性能接近极限。

还有一些事情要注意:

RoBERTa的良好表现极大地受益于丰富的数据集:ReCoRD和MultiRC。将效果转移到不良数据任务更加困难。

WinoGender coref.accuracy表现更好,但代价是更差的奇偶校验。

RTE模型在向下单调推断中表现仍然不佳:例如,它倾向于假设“所有的狗都喜欢抓住他们的耳朵”。 “所有动物都喜欢揉耳朵。”

Sam Bowman认为他认为RoBERTa有一个明确的上限,而且我们对人类表现的估计较低,他认为接下来的5到10个百分点将很难突破。

让我们期待人们通过功率计算数据和变压器推动NLP的程度!