如何预训练模型和增加词汇表？ #49

xiongxiaochu · 2023-04-06T02:40:24Z

下载下来7B的模型之后，测试了几个中文问题，发现回答有很多无法识别的字符，是不是模型中中文的词汇表特别小？请问如何扩充中文词汇，并且在此基础上增加中文预训练语料来预训练？

PhoebusSi · 2023-04-06T06:04:30Z

可以试试bloom

forex24 · 2023-04-09T06:41:10Z

PhoebusSi · 2023-04-09T10:03:58Z

看https://github.com/ymcui/Chinese-LLaMA-Alpaca，这个项目增加了词汇表

发现这个链接没有给增加词表和预训练的相关代码，是否还有其他的推荐？

Provide feedback