Quick guide
A guide written in English is prepared.
EST データベース(マツノザイセンチュウ, ニセマツノザイセンチュウ, スギ, ヒノキ)
データベースに格納されているデータ
ソースデータ
- EST(Expressed Sequence Tag)
- 本データベースの基礎となる配列データです。詳細は、各生物種の information を参照してください。
EST の配列には、次のような情報が関連づけられています。
- クローンID
- Genbank の Accession番号
- ライブラリの種類
- EST のシーケンス配列
- Cluster 番号と Subcluster 番号
よって、これらの情報を検索することにより、目的とするESTが構成する Cluster や Subcluster の一覧を得ることができます。
- NCBI-nr
- NCBI 提供している全生物種の non-redundant な蛋白質配列です。
EST の Assemble 結果として得られる consensus 配列に、アノテーションを付与するため、すべてのコンセンサス配列をこの NCBI-nr にBLASTX
した結果を格納しています。
コンセンサス配列に関連付けて、この BLASTX の結果の Top hit protein が データベースに格納されていますので、Top hit protein の
description に文字列検索をかけて、目的の蛋白に類似性の高い遺伝子を見つけ出すことが可能となっています
データ処理方法
- EST(Expressed Sequence Tag)配列群を、 Partigene を利用して、Clustering & Assemble、及び、アノテーションを行います。
詳細は、Partigeneのサイトを参照してください。
-
- STEP1:塩基配列の相同性により、ESTを“Cluster(=遺伝子)”ごとに分類します。
- STEP2:各Clusterごとに、Phrap を利用して Assemble を行います。
- STEP3:Assemleの過程で、各 Cluster がさらに、小さなグループに分類らされますが、それを本データベースでは、SubCluster
と呼んでいます。
その結果、Subcluster 単位に、次のデータを出力します。
Assemble で得られる Consensus 配列
Consensus 配列の素となる、EST配列とそのアライメント情報
- STEP4:すべての consensus 配列を NCBI-nr に BLASTX を行い、結果ファイルが出力されます。
- 上記の Clustering と Assemble の結果、NCBI-nr との BLASTX の結果、及び、各 EST の情報を postgreSQL
のテーブルとして格納して、本データベースで検索できるようにしています。
データの構造と用語の説明
-
生物種のデータ構成
-
本データベースでは、生物種ごとに異なるデータ領域(PostgreSQLのデータベース)に格納しています。
従って、種間を越えた検索を行うことは原則としてできません。
Consensus配列へのBLAST検索は、可能です。
生物種は、アルファベット2文字を使います。
データベースは、<生物種表記><ビルド番号>で表します。
-
Clusterの情報
-
Cluster;EST配列の相同性があるもの同士をグループ化したもの。
ClusterID:生物種のビルド単位に、ユニークな番号です。ビルド単位で異なる番号となります。表記は <生物種表記><ClusterID>
-
Subcluster の情報
-
Subcluster:ひとつの Cluster に属する EST を Assemble する過程で、一部配列の相同性がありますが、一部は相同性がない配列同士は、異なる Assemble
が行われることがあります。
つまり、同じ Cluster に分類された配列がさらに小さなグループにわけられることになります。
このグループを本データベースでは、Subclusterと呼びます。
SuclusterID:PartiGene が付与した Cluster 内の通し番号です。
Consensus配列:Assemble の結果として得られた仮想最大長 cDNA 配列です。
Best hit protein:Consensus 配列を NCBI-nr(全生物種の既知蛋白質)に BLASTX を実行した結果のTop hit の蛋白質。
コンセンサス配列の機能予測結果です。
-
EST配列の情報
-
CloneID:クローンの識別IDです。
AccessionNo.Genbank の Accession No.です。
mRNA source: クローンの由来情報です。
画面構成
GENOME データベース(シイタケ, マツタケ)
データベースに格納されているデータ
ソースデータ
- ゲノムコンティグ
-
本データベースの基礎となる配列データです。上記ゲノムコンティグを、AUGASUTAS により遺伝子予測を行ないました。詳細は、各生物種の information
を参照してください。
- NCBI-nr
-
NCBIが提供している全生物種の non-redundant な蛋白質配列です。
AUGASUTAS により得られた予測遺伝子配列を NCBI-nr に対して BLASTX を行い、
結果をアノテーションとして格納しています。
予測遺伝子配列に関連付けて、この BLASTX の結果の Top hit protein がデータベースに格納されていますので、Top hit protein の
description に文字列検索をかけて、
目的の蛋白に類似性の高い遺伝子を見つけ出すことが可能となっています。
- NCBI gene データベース
-
NCGI が提供している XML ファイルを解析し、アノテーションとして使用しています。
- BLASTXの全ての結果
- KEGG Pathway
- Gene Ontology
- Pfam
-
AUGASUTAS により得られた予測遺伝子配列を NCBI-nr に対して BLASTX を行い、BLASTX 結果の全てとヒットしたGene Ontology、KEGG
Pathway をデータベースに格納しています。
加えて、予測遺伝子配列と Pfam 検索の結果もデータベースに格納しています。
これらを条件に、予測遺伝子配列を検索することが可能となっております。 Pfam の詳細は、Pfam のサイトを参照してください。
データ処理方法
- 遺伝子予測
-
AUGASUTAS を使用しました。詳細はAUGUSTASのサイトを参照してください。
- 最適なトレーニングセットとコンティグの組み合わせを比較する為に次の3種類の生物種と2つのコンティグについて調査を行いました。
- トレーニングセット
- Laccaria: Laccaria bicolor(オオキツネタケ)
- Ustilago: Ustilago maydis(黒穂菌)
- Coprinus: Coprinus cinereus(ネナガノヒトヨタケ)
- コンティグ
- Le_contigs_s2.fasta 全33131コンティグ
- Le_contigs_oe_500_s2.fasta 500bp以上の12875コンティグ
- 各トレーニングセット毎に予測された遺伝子数と遺伝子が予測されたコンティグの数
トレーニング セット |
入力コンティグ |
予測された 遺伝子数 |
遺伝子が予測 されたコンティグ数
|
| Laccaria |
Le_contigs_s2.fasta |
13089 |
7809 |
| Le_contigs_oe_500_s2.fasta |
12829 |
7544 |
| Ustilago |
Le_contigs_s2.fasta |
6566 |
4760 |
| Le_contigs_oe_500_s2.fasta |
6402 |
4591 |
| Coprinus |
Le_contigs_s2.fasta |
6366 |
4405 |
| Le_contigs_oe_500_s2.fasta |
6252 |
4286 |
- 採用したトレーニングセットとコンティグ
- トレーニングセット
- Laccaria: Laccaria bicolor(オオキツネタケ)
- コンティグ
- Le_contigs_s2.fasta 全33131コンティグ
- NCBI の KEGG, GO 情報の XML を解析
-
- 入手元 URL
- ftp://ftp.ncbi.nih.gov/gene/DATA/ASN_BINARY/All_Data.ags.gz
- 入手日
-
XMLファイルをスクリプトにより解析し、データベース用のデータ化を行なう。
画面構成