Skip to content

[数据资源] 中英文单字词数据 #486

@nwdxlgzs

Description

@nwdxlgzs

我从Github等各种地方一直在收集字词典,其中en_vocab.txt(149330)是从各种英文资源里摘取的内容,vocab.txt(23659)是字节长度大于1的各种单字和符号(主要是繁简汉字)(vocab_simplified.txt(20056)是用OpenCC去繁体版本,毕竟繁简可以用映射互换),尽管MiniMind词典很小显然装不下所有中英文字词,但是我觉得还是值得给试图收集支持更多字词词表支持的人一份可能还算不错的数据,也可以用这份数据大致了解一下自己的分词器的覆盖度如何有个基本了解。
至于\x00\xFF这256字节,大家自己做BBPE分词器时就会得到了,所以vocab.txt过滤了长度1字节的内容。

vocab_simplified.txt
vocab.txt
en_vocab.txt

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions