-
Notifications
You must be signed in to change notification settings - Fork 3.2k
Open
Description
我从Github等各种地方一直在收集字词典,其中en_vocab.txt
(149330)是从各种英文资源里摘取的内容,vocab.txt
(23659)是字节长度大于1的各种单字和符号(主要是繁简汉字)(vocab_simplified.txt
(20056)是用OpenCC去繁体版本,毕竟繁简可以用映射互换),尽管MiniMind词典很小显然装不下所有中英文字词,但是我觉得还是值得给试图收集支持更多字词词表支持的人一份可能还算不错的数据,也可以用这份数据大致了解一下自己的分词器的覆盖度如何有个基本了解。
至于\x00
到\xFF
这256字节,大家自己做BBPE分词器时就会得到了,所以vocab.txt
过滤了长度1字节的内容。
Metadata
Metadata
Assignees
Labels
No labels