locus_tag_prefix
2019 INSDC meeting で haploid genome は以下のように共通 BioSample と別々の BioProject で登録することになった。
Umbrella BioProject 1
- BioProject 2 - BioSample 1, locus_tag 1 and 2 - haploid genome 1, locus_tag 1
- BioProject 3 - BioSample 1, locus_tag 1 and 2 - haploid genome 2, locus_tag 2
haploid に異なる locus_tag が使われた場合、一つの BioSample に二つの locus_tag が書かれることになる。
登録 Assembly 例
component_organism
何が含まれているか分からない "xxx metagenome" が適切ではない、
含まれている生物種が確実に分かっているサンプル登録が増えている
例
サンゴと褐虫藻を実験室環境で共生、サンプリング、RNA-seq、TSA
DRA
- organism: mixed sample
- component organism: Acropora solitaryensis サンゴ
- component organism: Cladocopium goreaui 褐虫藻
trad TSA
配列で計算機上で生物振り分け
- サンゴ TSA organism: Acropora solitaryensis サンゴ
- 褐虫藻 TSA organism: Cladocopium goreaui 褐虫藻
BioSample では生物が混在しているため organism: mixed sample とし、構成生物種を component organism: organism name in tax DB で複数記載する
BioSample 登録例
対応
BioSample RDB は name:value ペアで属性を格納しているので複数属性に対応している
- attribute_name = locus_tag_prefix
- attribute_value = A
- attribute_name = locus_tag_prefix
- attribute_value = B
D-way では運用ルールとして重複属性をエラーにしていたが、validator 導入に伴いチェックを外しており、現在は validator ルール BS_R0061 error で弾かれる。チェックの下流では最後の値が使われる
しかし、上記のように特定属性で重複が想定されており、受付方法を検討する必要がある
ENA では属性毎に複数許可を定義しており、ほとんどが複数許容になっている
ERC000013
<FIELD>
<LABEL>germline</LABEL>
<NAME>germline</NAME>
<DESCRIPTION>the sample described presented in the entry has not undergone somatic genomic rearrangement as part of an adaptive immune response; it is the unrearranged molecule that was inherited from the parental germline</DESCRIPTION>
<FIELD_TYPE>
<TEXT_FIELD/>
</FIELD_TYPE>
<MANDATORY>optional</MANDATORY>
<MULTIPLICITY>multiple</MULTIPLICITY> <-- 複数許容
</FIELD>
NCBI は状況不明だが複数記載されているサンプルがある
方法1: 特定属性のみ複数を許容する
複数記載が必要なケースは稀であるため、許可された属性のみ複数対応を実施する
複数許可属性
- locus_tag_prefix
- component_organism
これらの値は下流では使われない
方法2: 値をデリミタで区切る
locus_tag_prefix = A,B
データ利用や検索がやりにくくなる
locus tag 予約ステップを BioProject から BioSample に移行するにあたっては複数の方がシンプル?
方法3: 問題ない属性以外は複数許容
1 想定: sample_name, sample_title, organism, taxonomy_id etc
locus_tag_prefix
2019 INSDC meeting で haploid genome は以下のように共通 BioSample と別々の BioProject で登録することになった。
Umbrella BioProject 1
haploid に異なる locus_tag が使われた場合、一つの BioSample に二つの locus_tag が書かれることになる。
登録 Assembly 例
component_organism
何が含まれているか分からない "xxx metagenome" が適切ではない、
含まれている生物種が確実に分かっているサンプル登録が増えている
例
サンゴと褐虫藻を実験室環境で共生、サンプリング、RNA-seq、TSA
DRA
trad TSA
配列で計算機上で生物振り分け
BioSample では生物が混在しているため organism: mixed sample とし、構成生物種を component organism: organism name in tax DB で複数記載する
BioSample 登録例
対応
BioSample RDB は name:value ペアで属性を格納しているので複数属性に対応している
D-way では運用ルールとして重複属性をエラーにしていたが、validator 導入に伴いチェックを外しており、現在は validator ルール BS_R0061 error で弾かれる。チェックの下流では最後の値が使われる
しかし、上記のように特定属性で重複が想定されており、受付方法を検討する必要がある
ENA では属性毎に複数許可を定義しており、ほとんどが複数許容になっている
ERC000013
NCBI は状況不明だが複数記載されているサンプルがある
方法1: 特定属性のみ複数を許容する
複数記載が必要なケースは稀であるため、許可された属性のみ複数対応を実施する
複数許可属性
これらの値は下流では使われない
方法2: 値をデリミタで区切る
locus_tag_prefix = A,B
データ利用や検索がやりにくくなる
locus tag 予約ステップを BioProject から BioSample に移行するにあたっては複数の方がシンプル?
方法3: 問題ない属性以外は複数許容
1 想定: sample_name, sample_title, organism, taxonomy_id etc