Skip to content

調整詞典規格為 輸入詞\t輸出詞1\t輸出詞2\t... 以支援含有空格的轉換詞 #1039

@danny0838

Description

@danny0838

目前的規格主要是輸入詞\t輸出詞1 輸出詞2 輸出詞3 ...,這樣的格式導致輸出詞不能含有空格,否則會被判定為二個輸出詞而截斷。

這導致使用者無法自訂含有空格詞組,降低 OpenCC 作為通用性工具的能力。

含有空格的詞組可能在以下情況被使用:

  1. 含空格外文語+中文詞,例如:

  2. 含有簡單數字或英文的詞,如:

    • B 型肝炎乙型肝炎
    • 1 只鸟1 隻鳥
      目前寫法只支援 B型肝炎乙型肝炎,對於中英文之間有插入空格的文本就無法正確處理。官方詞典不一定要有含空格的詞條,使用者可以透過腳本自動補上含有空格的詞條,但目前會受限於 OpenCC 的架構而無效。
  3. 某些含有空格的中文文本,例如:

建議把規格改成標準的 TSV,即 輸入詞\t輸出詞1\t輸出詞2\t輸出詞3\t...,應該就能有效解決此問題,缺點是會犧牲向下相容。

也可以考慮支援 TSV 常用的 """ 脫義格式以支援全字元,但如果引進了上述更新,需要處理的特殊字元應該只剩下 \t\r\n,這些都不是一般預期文本會使用的字元,反而引進 " 跳脫會導致語法解析更複雜且導致含有 " 的詞不易編寫,可再商榷。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions