GenBankフォーマットについて
 

GenBankフォーマットデータは次のようになっています。
このファイルは、NCBIからダウンロードしてきたgbpri1.seqというファイルの一部です。 同ファイル内には、このようなデータが1万件ほど格納されていてファイルサイズも約250Mバイトになります(また、このようなファイルが数十個存在しています)。
GenBankフォーマットは、開始するカラムが意味を持ちます。 カラム位置の指定には、タブは使われずスペースが複数個使われています。

                                                                                         
LOCUS       AB000360                2582 bp    DNA     linear   PRI 14-APR-2000
DEFINITION  Homo sapiens PIGC gene, complete cds.
ACCESSION   AB000360
VERSION     AB000360.1  GI:2547041
KEYWORDS    PIGC; glycosylphosphatidylinositol-synthesis gene.
SOURCE      Homo sapiens DNA.
  ORGANISM  Homo sapiens
            Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
            Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo.
REFERENCE   1  (sites)
  AUTHORS   Hong,Y., Ohishi,K., Inoue,N., Endo,Y., Fujita,T., Takeda,J. and
            Kinoshita,T.
  TITLE     Structures and chromosomal localizations of the
            glycosylphosphatidylinositol synthesis gene PIGC and its pseudogene
            PIGCP1
  JOURNAL   Genomics 44 (3), 347-349 (1997)
  MEDLINE   97468149
   PUBMED   9325057
REFERENCE   2  (bases 1 to 2582)
  AUTHORS   Hong,Y.
  TITLE     Direct Submission
  JOURNAL   Submitted (08-JAN-1997) Yeongjin Hong, Research Institute for
            Microbial Diseases, Immunoregulation; 3-1 Yamada-oka, Suita, Osaka
            565, Japan (E-mail:kohishi@biken.osaka-u.ac.jp, Tel:81-6-879-8329,
            Fax:81-6-875-5233)
                                                                                         
FEATURES             Location/Qualifiers
     source          1..2582
                     /organism="Homo sapiens"
                     /db_xref="taxon:9606"
                     /chromosome="1"
                     /map="1q23-q25"
     exon            808..2266
     gene            1101..1994
                     /gene="PIGC"
     CDS             1101..1994
                     /gene="PIGC"
                     /standard_name="glycosylphosphatidylinositol-synthesis
                     gene"
                     /codon_start=1
                     /protein_id="BAA22866.1"
                     /db_xref="GI:2547042"
                     /translation="MYAQPVTNTKEVKWQKVLYERQPFPDNYVDRRFLEELRKNIHAR
                     KYQYWAVVFESSVVIQQLCSVCVFVVIWWYMDEGLLAPHWLLGTGLASSLIGYVLFDL
                     IDGGEGRKKSGQTRWADLKSALVFITFTYGFSPVLKTLTESVSTDTIYAMSVFMLLGH
                     LIFFDYGANAAIVSSTLSLNMAIFASVCLASRLPRSLHAFIMVTFAIQIFALWPMLQK
                     KLKACTPRSYVGVTLLFAFSAVGGLLSISAVGAVLFALLLMSISCLCSFYLIRLQLFK
                     ENIHGPWDEAEIKEDLSRFLS"
     variation       1896
                     /gene="PIGC"
                     /replace="c"
     polyA_signal    2246..2251
     variation       2259
                     /replace="t"
     repeat_region   2331..2356
                     /rpt_unit=gt
                                                                                         
BASE COUNT      694 a    494 c    581 g    813 t
ORIGIN      
        1 ggatccctgc tgcagagggg gtaacggtgt ctggcttgcc aagcaatatt tgttgtggtc
       61 tatcatggaa gaaataaagt cgggcaatat gaattttttt tttctcaaat ttgccggatg
      121 gctgtggtgt ttctgactct tagttttctc attgtgaaaa aggaatgatt atcttcttcg
      181 atcctctcaa gagtttcctt gttttgagta gattgatagc tctttaaagg atgctaagct
      241 cagctaatgg aagaagagtc tagtttcttt gaggctttga ttttggttaa actatagagc
      301 tcataccttt ctgtatggtg cagcttacta ttgtctttgg attggtaact taaaaaatac
      361 aaataacatg cctttgagaa ccaataaaaa ctatggatat tatccctata aatttacaca
      421 aatccagata taagcatgca atgtgatata cctaagggat atgtgaacca ctgagttaag
      481 aactgcttta gagggagata caatgtgaga cacaggcttt gggataagac tttggtttga
      541 atcctggctc tgctctgtta ccttagggca aagttactta agcatcttga atctcagctt
      601 ttttaccaaa gcaggactaa tactaactta caaggtggtg aggattaagt gaaagaagat
      661 acataaggca cttagcacat agtaggtact caataagcga tagctaacag atgtctatta
      721 ttattcaagg aattataatt ttcaaatctg aaatgcagtt ttaatgtccc ataaggtgac
      781 taccacatac atttttctca gacttttagt aaactgagtt gatttgactt tatctcagta
      841 ctactcttga cctttcacaa ctttcgtagg ttcacagtct ctctttttct aggaacttgg
      901 ctgtgttgtc ctgcctcaga gacaaattca tctattgtag gcctagcccc tgcctttgaa
      961 aacaaggaaa ggttggtaga acatcaacac agcatggaat ttccagggag gtctcatttc
     1021 aaaacttcat aaagaacaag aaccacctgg acttctgtga gggcgatgat taaactggcc
     1081 tgagtttgaa tgaaaggata atgtatgctc aacctgtgac taacaccaag gaggtcaagt
     1141 ggcagaaggt cttgtatgag cgacagccct ttcctgataa ctatgtggac cggcgattcc
     1201 tggaagagct ccggaaaaac atccatgctc ggaaatacca atattgggct gtggtatttg
     1261 agtccagtgt ggtgatccag cagctgtgca gtgtttgtgt ttttgtggtt atctggtggt
     1321 atatggatga gggtcttctg gccccccatt ggcttttagg gactggcctg gcttcttcac
     1381 tgattgggta tgttttgttt gatctcattg atggaggtga agggcggaag aagagtgggc
     1441 agacccggtg ggctgacctg aagagtgccc tagtcttcat tactttcact tatgggtttt
     1501 caccagtgct gaagaccctt acagagtctg tcagcactga caccatctat gccatgtcag
     1561 tcttcatgct gttaggccat ctcatctttt ttgactatgg tgccaatgct gccattgtat
     1621 ccagcacact atccttgaac atggccatct ttgcttctgt atgcttggca tcacgtcttc
     1681 cccggtccct gcatgccttc atcatggtga catttgccat tcagattttt gccctgtggc
     1741 ccatgttgca gaagaaacta aaggcatgta ctccccggag ctatgtgggg gtcacactgc
     1801 tttttgcatt ttcagccgtg ggaggcctac tgtccattag tgctgtggga gccgtactct
     1861 ttgcccttct gctgatgtct atctcatgtc tgtgttcatt ctacctcatt cgcttgcagc
     1921 tttttaaaga aaacattcat gggccttggg atgaagctga aatcaaggaa gacttgtcca
     1981 ggttcctcag ttaaattagg acatccatta cattattaaa gcaagctgat agattagcct
     2041 cctaactagt atagaactta aagacagagt tccattctgg aagcagcatg tcattgtggt
     2101 aagagaatag agatcaaaac caaaaaaaat gaaccaaagg cttgggtggt gagggtgctt
     2161 atcctttctg ttattttgta gatgaaaaaa ctttctgggg acctcttgaa ttacatgctg
     2221 taacatatga agtgatgtgg tttctattaa aaaaataaca catccatcaa gttgtctcat
     2281 gatttttcca taaacaggag gcagacagag gggcatgaag agtgaagtaa gtgtgtgtgt
     2341 gtgtgtgtgt gtgtgtaaag tcacttcttt ctaccctttt caatgtgcta atgctctttt
     2401 atttatctag ggctcaaatc ttagaacaca gggtgctatg ctcagttttg ttgcccaaga
     2461 tcacagaatt ggttacttaa ccttgactca gagtttctac cttgttctta gggaagcata
     2521 tcacaactaa ttgcaaagca gagtgtgatg tgtcacaata agcagaatgc tagggggaat
     2581 tc
//

GenBankフォーマットは、上の例で色分けしたようにおおむね3つのパートに分かれています。
シーケンスFEATUREその他の部分です。 GenBankフォーマットの解析プログラムを作成する場合、FEATURE部が最も複雑になります。
また、GenBankフォーマットの概要やファイル名と内容との関係などは下記のファイルに書かれています。
GBREL.TXT.Z
GBREL.TXT.Zミラー
GBREL.TXT          Genetic Sequence Data Bank
                         June 15 2002

               NCBI-GenBank Flat File Release 130.0

                    Distribution Release Notes

 17471130 loci, 20648748345 bases, from 17471130 reported sequences
		...



ORCHIDのホームページ
バイオ関連トップ
お問い合わせ先