Skip to content

测试数据和vocab问题 #7

@soundmemories

Description

@soundmemories

你好,请问gaiic_track3_round1_testB_20210317.tsv测试文件能提供一下吗?非常感谢!

另外,在看您的代码时有些疑惑,根据docker run走的流程如下:
run.sh->run_inner_2.sh-> pipeline/pipeline_d.py->process_data_s1.sh,然后执行了下面两个.py
convert_data.py --n_splits=8
process_oov_data.py

convert_data:对train.tsv抽取字表,字:字频 保存为normal_vocab.json,字:索引 保存为idmap.json;然后利用这两个表把train.tsv和test.tsv转为id表示后保存。
convert_data.py:这里用construct_vocab函数创建了另一个vocab.json(不同于idmap.json),然后用convert_record_style函数根据vocab.json把之前保存的train.tsv和test.tsv(都用idmap.json转为id了)还原成文字,转完是乱码一样的文字。我疑惑的是为什么用不一样的词表转换呢?为什么这么做?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions