pytorch版本的softmax下206行的args.label2id['[SEP]'] #67

hanxi0511 · 2021-11-02T11:24:24Z

keyerror '[SEP]'

linjun-pt · 2021-11-09T07:01:20Z

我也遇到这个错误，怎么解决的？

hanxi0511 · 2021-11-16T11:08:43Z

楼上没搞清楚在乱说，首先要搞清楚[SEP]是句子末尾的标记符号，其对应的label是[END]，具体可在ner_seq.py 文件中看到。这里应该填写的是[SEP]对应的label，即[END]，而不是直接填写[SEP]

我知道有start和end标签，但是softmax分类的模型在做评估的时候句子末尾是没有[END]的，在跑模型的时候设置[END]会无法判断句子结束从而导致不更新acc和re，评估结果都是0，我在做打印输出的时候看到了句子结尾都是补全的0，所以我才投机取巧默认遇到padding的0就是句子结束，我承认我这是投机取巧但是也不是乱说啊，我只是一个刚接触NLP的菜鸡研究生，只是把自己的解决办法说了出来我也不是故意在这坑人的

pcx-pcx · 2021-11-17T02:04:48Z

楼上没搞清楚在乱说，首先要搞清楚[SEP]是句子末尾的标记符号，其对应的label是[END]，具体可在ner_seq.py 文件中看到。这里应该填写的是[SEP]对应的label，即[END]，而不是直接填写[SEP]

我知道有start和end标签，但是softmax分类的模型在做评估的时候句子末尾是没有[END]的，在跑模型的时候设置[END]会无法判断句子结束从而导致不更新acc和re，评估结果都是0，我在做打印输出的时候看到了句子结尾都是补全的0，所以我才投机取巧默认遇到padding的0就是句子结束，我承认我这是投机取巧但是也不是乱说啊，我只是一个刚接触NLP的菜鸡研究生，只是把自己的解决办法说了出来我也不是故意在这坑人的

不好意思哈，鲁莽了，请忽略我之前讲的话哈。其实这里metric要更新的话，条件应该是到real句子（未padding的句子）末尾最后一个token，也即[END]，所以需要用到batch中的real句子长度信息，这个其实已经在batch[4]里面记录了，详细可以看ner_seq.py中的convert_examples_to_features函数和collate_fn函数的输出

pcx-pcx · 2021-11-17T02:17:20Z

不好意思哈，鲁莽了，请忽略我之前讲的话哈。其实这里metric要更新的话，条件应该是到real句子（未padding的句子）末尾最后一个token，也即[END]，所以需要用到batch中的real句子长度信息，这个其实已经在batch[4]里面记录了，详细可以看ner_seq.py中的convert_examples_to_features函数和collate_fn函数的输出。

…

------------------ 原始邮件 ------------------ 发件人: "CLUEbenchmark/CLUENER2020" ***@***.***>; 发送时间: 2021年11月16日(星期二) 晚上7:08 ***@***.***>; ***@***.******@***.***>; 主题: Re: [CLUEbenchmark/CLUENER2020] pytorch版本的softmax下206行的args.label2id['[SEP]'] (Issue #67) 楼上没搞清楚在乱说，首先要搞清楚[SEP]是句子末尾的标记符号，其对应的label是[END]，具体可在ner_seq.py 文件中看到。这里应该填写的是[SEP]对应的label，即[END]，而不是直接填写[SEP] 我知道有start和end标签，但是sofamax分类的模型在做评估的时候句子末尾是没有[END]的，在跑模型的时候设置[END]会无法判断句子结束从而导致不更新acc和re，评估结果都是0，我在做打印输出的时候看到了句子结尾都是补全的0，所以我才投机取巧默认遇到padding的0就是句子结束，我承认我这是投机取巧但是也不是乱说啊，你跑一下试试就知道了。 — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe. Triage notifications on the go with GitHub Mobile for iOS or Android.

wuzhanglin123 · 2022-09-09T07:38:38Z

206行改成 elif j == batch[4].cpu().numpy().tolist()[i] - 1:

JinFish · 2022-09-15T09:19:25Z

代码里 token [SEP]对应的是O标签，当然找不到[SEP]标签。
tokens += [sep_token]
label_ids += [label_map['O']]
segment_ids = [sequence_a_segment_id] * len(tokens)

brightmart assigned skyhawk1990 Nov 2, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

pytorch版本的softmax下206行的args.label2id['[SEP]'] #67

pytorch版本的softmax下206行的args.label2id['[SEP]'] #67

hanxi0511 commented Nov 2, 2021

linjun-pt commented Nov 9, 2021

hanxi0511 commented Nov 16, 2021 •

edited

Loading

pcx-pcx commented Nov 17, 2021

pcx-pcx commented Nov 17, 2021 via email

wuzhanglin123 commented Sep 9, 2022

JinFish commented Sep 15, 2022

pytorch版本的softmax下206行的args.label2id['[SEP]'] #67

pytorch版本的softmax下206行的args.label2id['[SEP]'] #67

Comments

hanxi0511 commented Nov 2, 2021

linjun-pt commented Nov 9, 2021

hanxi0511 commented Nov 16, 2021 • edited Loading

pcx-pcx commented Nov 17, 2021

pcx-pcx commented Nov 17, 2021 via email

wuzhanglin123 commented Sep 9, 2022

JinFish commented Sep 15, 2022

hanxi0511 commented Nov 16, 2021 •

edited

Loading