Skip to content

複数属性の処理方法 #67

@komstat

Description

@komstat

locus_tag_prefix

2019 INSDC meeting で haploid genome は以下のように共通 BioSample と別々の BioProject で登録することになった。

Umbrella BioProject 1

  • BioProject 2 - BioSample 1, locus_tag 1 and 2 - haploid genome 1, locus_tag 1
  • BioProject 3 - BioSample 1, locus_tag 1 and 2 - haploid genome 2, locus_tag 2

haploid に異なる locus_tag が使われた場合、一つの BioSample に二つの locus_tag が書かれることになる。

登録 Assembly 例

component_organism

何が含まれているか分からない "xxx metagenome" が適切ではない、
含まれている生物種が確実に分かっているサンプル登録が増えている


サンゴと褐虫藻を実験室環境で共生、サンプリング、RNA-seq、TSA

DRA

  • organism: mixed sample
  • component organism: Acropora solitaryensis サンゴ
  • component organism: Cladocopium goreaui 褐虫藻

trad TSA
配列で計算機上で生物振り分け

  • サンゴ TSA organism: Acropora solitaryensis サンゴ
  • 褐虫藻 TSA organism: Cladocopium goreaui 褐虫藻

BioSample では生物が混在しているため organism: mixed sample とし、構成生物種を component organism: organism name in tax DB で複数記載する
BioSample 登録例

対応

BioSample RDB は name:value ペアで属性を格納しているので複数属性に対応している

  • attribute_name = locus_tag_prefix
  • attribute_value = A
  • attribute_name = locus_tag_prefix
  • attribute_value = B

D-way では運用ルールとして重複属性をエラーにしていたが、validator 導入に伴いチェックを外しており、現在は validator ルール BS_R0061 error で弾かれる。チェックの下流では最後の値が使われる
しかし、上記のように特定属性で重複が想定されており、受付方法を検討する必要がある

ENA では属性毎に複数許可を定義しており、ほとんどが複数許容になっている

ERC000013

<FIELD>  
	<LABEL>germline</LABEL>  
		<NAME>germline</NAME>  
		<DESCRIPTION>the sample described presented in the entry has not undergone somatic genomic rearrangement as part of an adaptive immune response; it is the unrearranged molecule that was inherited from the parental germline</DESCRIPTION>  
		<FIELD_TYPE>  
		<TEXT_FIELD/>  
		</FIELD_TYPE>  
		<MANDATORY>optional</MANDATORY>  
		<MULTIPLICITY>multiple</MULTIPLICITY> <-- 複数許容  
</FIELD>  

NCBI は状況不明だが複数記載されているサンプルがある

方法1: 特定属性のみ複数を許容する

複数記載が必要なケースは稀であるため、許可された属性のみ複数対応を実施する

複数許可属性

  • locus_tag_prefix
  • component_organism

これらの値は下流では使われない

方法2: 値をデリミタで区切る

locus_tag_prefix = A,B

データ利用や検索がやりにくくなる
locus tag 予約ステップを BioProject から BioSample に移行するにあたっては複数の方がシンプル?

方法3: 問題ない属性以外は複数許容

1 想定: sample_name, sample_title, organism, taxonomy_id etc

Metadata

Metadata

Assignees

No one assigned

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions