Fast tokenizer #32

paulcx · 2024-06-19T01:51:12Z

目前的tokenizer都与之前的不一样了（vocab里缺少了id 3-13, 新增了许多added_tokens），是有什么特别理由吗？

是否可以在vocab补上缺失的那几个tokens?

nuoma · 2024-07-02T08:58:53Z

你好，因为我们发现fast tokenizer会有一些问题，比如32K base模型无法输出空格，但slow tokenizer不会出现，所以对tokenier.json进行了更新。

paulcx · 2024-07-02T09:34:36Z

你好，因为我们发现fast tokenizer会有一些问题，比如32K base模型无法输出空格，但slow tokenizer不会出现，所以对tokenier.json进行了更新。

能给个示例吗，我测试下来fast和slow都可以正常输出空格(token_id)。

Haijian06 added the bug Something isn't working label Aug 2, 2024

Provide feedback