게시판 뷰
게시판 뷰페이지
1-2. GenBank 염기서열의 분석
작성자 안홍선
날짜 2009.05.12
조회수 4,514
앞에서 검색한 페이지를 text로 가져와서 붙여보았습니다. 염기서열을 표시할 때는 Courier (New)라는 font를 쓰는 게
좋습니다. (해 보면 알지요.)

1: X02469. Human mRNA
for p5...[gi:35209] Related Sequences, OMIM, Protein, PubMed, Taxonomy, LinkOut
 


LOCUS
      HSP53
       1317 bp    mRNA
           PRI
      12-SEP-1993
DEFINITION  Human mRNA
for p53 cellular tumor antigen.
ACCESSION   X02469
M60950
VERSION     X02469.1  GI:35209
KEYWORDS
   antigen; tumor antigen.
SOURCE
     human.
  ORGANISM  Homo
sapiens
            Eukaryota;
Metazoa; Chordata; Craniata; Vertebrata;
Euteleostomi;
            Mammalia;
Eutheria; Primates; Catarrhini; Hominidae; Homo.
REFERENCE   1
 (bases 1 to 1317)
  AUTHORS   Zakut-Houri,R.,
Bienz-Tadmor,B., Givol,D. and Oren,M.
  TITLE
    Human p53 cellular tumor antigen: cDNA sequence and
expression
in
            COS
cells
  JOURNAL   EMBO J. 4 (5), 1251-1255
(1985)
  MEDLINE   85230577
COMMENT
    Data kindly reviewed (19-FEB-1986) by D.
Givol.
FEATURES
            Location/Qualifiers
     source
         1..1317
                     /organism="Homo
sapiens"
                     /db_xref="taxon:9606"
     CDS
            136..1317
                     /note="p53
tumor antigen (aa
1- )"
                     /codon_start=1
                     /protein_id="CAA26306.1"
                     /db_xref="GI:35210"
                     /db_xref="SWISS-PROT:P04637"
                     /translation="MEEPQSDPSVEPPLSQETFSDLWKLLPENNVLSPLPSQAMDDLM
                     LSPDDIEQWFTEDPGPDEAPRMPEAAPPVAPAPAAPTPAAPAPAPSWPLSSSVPSQKT
                     YQGSYGFRLGFLHSGTAKSVTCTYSPALNKMFCQLAKTCPVQLWVDSTPPPGTRVRAM
                     AIYKQSQHMTEVVRRCPHHERCSDSDGLAPPQHLIRVEGNLRVEYLDDRNTFRHSVVV
                     PYEPPEVGSDCTTIHYNYMCNSSCMGGMNRRPILTIITLEDSSGNLLGRNSFEVRVCA
                     CPGRDRRTEEENLRKKGEPHHELPPGSTKRALPNNTSSSPQPKKKPLDGEYFTLQIRG
                     RERFEMFRELNEALELKDAQAGKEPGGSRAHSSHLKSKKGQSTSRHKKLMFKTEGPDS
                     D"
     repeat_region
  354..368
                     /note="direct
repeat 1"
     repeat_region
  384..398
                     /note="direct
repeat 1"
BASE COUNT      295 a
   408 c    352 g    262
t
ORIGIN
     
        1
gtctagagcc accgtccagg gagcaggtag ctgctgggct ccggggacac
tttgcgttcg
       61 ggctgggagc gtgctttcca
cgacggtgac acgcttccct ggattggcag
ccagactgcc
      121 ttccgggtca ctgccatgga
ggagccgcag tcagatccta gcgtcgagcc
ccctctgagt
      181 caggaaacat tttcagacct
atggaaacta cttcctgaaa acaacgttct
gtcccccttg
      241 ccgtcccaag caatggatga
tttgatgctg tccccggacg atattgaaca
atggttcact
      301 gaagacccag gtccagatga
agctcccaga atgccagagg ctgctccccc
cgtggcccct
      361 gcaccagcag ctcctacacc
ggcggcccct gcaccagccc cctcctggcc
cctgtcatct
      421 tctgtccctt cccagaaaac
ctaccagggc agctacggtt tccgtctggg
cttcttgcat
      481 tctgggacag ccaagtctgt
gacttgcacg tactcccctg ccctcaacaa
gatgttttgc
      541 caactggcca agacctgccc
tgtgcagctg tgggttgatt ccacaccccc
gcccggcacc
      601 cgcgtccgcg ccatggccat
ctacaagcag tcacagcaca tgacggaggt
tgtgaggcgc
      661 tgcccccacc atgagcgctg
ctcagatagc gatggtctgg cccctcctca
gcatcttatc
      721 cgagtggaag gaaatttgcg
tgtggagtat ttggatgaca gaaacacttt
tcgacatagt
      781 gtggtggtgc cctatgagcc
gcctgaggtt ggctctgact gtaccaccat
ccactacaac
      841 tacatgtgta acagttcctg
catgggcggc atgaaccgga ggcccatcct
caccatcatc
      901 acactggaag actccagtgg
taatctactg ggacggaaca gctttgaggt
gcgtgtttgt
      961 gcctgtcctg ggagagaccg
gcgcacagag gaagagaatc tccgcaagaa
aggggagcct
     1021 caccacgagc tgcccccagg
gagcactaag cgagcactgc ccaacaacac
cagctcctct
     1081 ccccagccaa agaagaaacc
actggatgga gaatatttca cccttcagat
ccgtgggcgt
     1141 gagcgcttcg agatgttccg
agagctgaat gaggccttgg aactcaagga
tgcccaggct
     1201 gggaaggagc caggggggag
cagggctcac tccagccacc tgaagtccaa
aaagggtcag
     1261 tctacctccc gccataaaaa
actcatgttc aagacagaag ggcctgactc agactga
//


이 정보를 보면 우선 유전자의 이름이 DEFINITION Human mRNA for p53
cellular tumor antigen
이라고 되어 있습니다. 즉 사람 p53 cellular tumor antigen mRNA
유전자이고 mRNA 염기서열입니다. 유전자의 일부이면 "partial sequence", coding sequence가 완전하면
"complete CDS"란 말이 붙습니다.


고유 등록번호는 ACCESSION X02469라고 되어있지요. 고유번호가 하나 더
붙어있네요. 그만큼 아직 중구난방입니다.


SOURCE에서 human 즉
사람에게서 얻은 것임을 명백히 하고 있습니다. 때로는 어떤 조직에서 분리하였는가 까지도 나타납니다.


그 아래에서는 이 염기서열을 발표한 저자들과 논문이 적혀있는 경우가 많습니다. 이 정보가 정확한 유전자를 찾는데에 많은 도움이
됩니다.


FEATURES란 것은 이 염기서열의 부분 부분이 어떤 특징이 있는가를 표시하는 곳입니다.
이 유전자가 genomic DNA인 경우 exon과 intron이 어디부터 어디까지인지 표시되어 있습니다. 또 이 부분에는 color=maroon>CDS라는 중요한 정보가 있습니다. 이는 coding sequence를 나타내는 것으로 단백질 합성에
template가 되는 부분을 표시합니다. 우리가 보통 부르는 ORF(open reading frame)에 해당하는 부위죠. 즉
initiation codon으로부터 termination codon까지입니다. 이로부터 나오는 아미노산 염기서열도 표시합니다. 아미노산 서열이
single letter code로 되어 있어서 읽기 힘들지만 이런 건 반드시 알아야 합니다. Glycine = Gly = G, Lysine =
Lys = K 이런 식입니다.


그리고 그 밑으로 ORIGIN이라고 하여 우리가 정말 필요로하는 DNA sequence가
나오고 있습니다.


한가지 미리 설명해두고 싶은 것은 mRNA이건 DNA이건 GenBank에서는 ACGT를 사용해서 표기합니다. RNA라고 해서 U를 쓰지
않습니다. 그리고 cDNA sequence나 mRNA sequence나 모두 같습니다. 또한 mRNA에서 유래하는 cDNA라고 해서 mRNA와
상보적인, (그래서 염기서열이 180도 다른) complementary sequence를 쓰지 않습니다. 그리고 방향은 무조건 5' 으로부터
3' 쪽으로 쓰며 double strand에서의 sense strand만을 표기합니다. 이런 것들의 의미는 이 강의 노트에서 끝까지 공부하다보면
모두 알게 될 것입니다.


Genomic DNA, mRNA, CDS와의 관계


위 정보를 분석하기 위해서 반드시 먼저 알아야 할 지식들이 있습니다.

사람의 유전자는 exon과 intron으로 구성되어 있음을 다들 알고 계실 것으로 믿습니다. 첫 exon 앞에는 이 유전자의 발현을
조절해주는 promoter가 존재합니다.


src="http://dkbiophysi.pulun.net/genbank06_dna_rna_protein.gif" width=458
border=0>


이 그림에서 보듯이 mature mRNA가 되면 exon만이 주욱 연결된 모양이 됩니다. 그런데, 이 mRNA도 모두 단백질로 연결되는
부분이 아닙니다. 그림에서 보듯이 앞쪽과 뒤쪽에 codon과는 무관한 5'-nontranslating region 과
3'-nontranslating region 이 존재하며 (통상 untranslated라고 써서 UTR이라고도 합니다), 그 사이에 open
reading frame(ORF)이 있습니다. ORF의 시작은 AUG(initiation codon), 끝은 UGA, UAG,
UAA(termination codons)입니다.


border=0>


아시다시피 유전자의 암호인 코돈(codon)은 염기 3 개씩으로 이루어져 있습니다. 항상 methionine을 코딩하는 AUG로 시작하고
UGA, UAG, UAA로 끝납니다.


border=0>


자, 다시 봅시다. 여기서 문제입니다. 하나의 코돈이 3 개의 염기로 구성되므로 시작지점을 어디로 잡느냐에 따라서 여러개의 ORF가
존재합니다. 간단히 예를 들면 AUG CAU GCU UCU AAU UAA UUA GUA 라는 염기서열은 AUG CAU GCU UCU AAU
UAA UUA GUA 로 읽을 수도 있고 A UGC AUG CUU CUA AUU AAU UAG UA 로 읽을 수도 있는 것입니다.

실제 위 p53의 mRNA에는 다음과 같은 여러 종류의 open reading frame이 존재할 수 있습니다. 모두 ATG로 시작하여
termination codon으로 끝나고 있습니다.


width=547 border=0>


보통은 가장 긴 염기서열이 의미가 있기 때문에 일단은 맨 처음 나타나는 시작 코돈부터 open reading frame 을 잡으면 됩니다.
그래서 유전자를 밝힌 사람이 대개 CDS가 어디부터 어디까지인가를 표시하는 것입니다.

아래에서 보면 분명히 CDS에 해당하는 부위가 ATG로부터 TGA(붉게 표시함)로 끝나고 있습니다.

face="Courier New">style="FONT-SIZE: 9pt">        1
gtctagagcc accgtccagg gagcaggtag ctgctgggct ccggggacac
tttgcgttcg
       61 ggctgggagc gtgctttcca
cgacggtgac acgcttccct ggattggcag
ccagactgcc
      121 ttccgggtca
ctgcc
style="FONT-SIZE: 9pt">atgstyle="FONT-SIZE: 9pt">ga ggagccgcag tcagatccta gcgtcgagcc
ccctctgagt
      181 caggaaacat tttcagacct
atggaaacta cttcctgaaa acaacgttct
gtcccccttg
      241 ccgtcccaag caatggatga
tttgatgctg tccccggacg atattgaaca
atggttcact
      301 gaagacccag gtccagatga
agctcccaga atgccagagg ctgctccccc
cgtggcccct
      361 gcaccagcag ctcctacacc
ggcggcccct gcaccagccc cctcctggcc
cctgtcatct
      421 tctgtccctt cccagaaaac
ctaccagggc agctacggtt tccgtctggg
cttcttgcat
      481 tctgggacag ccaagtctgt
gacttgcacg tactcccctg ccctcaacaa
gatgttttgc
      541 caactggcca agacctgccc
tgtgcagctg tgggttgatt ccacaccccc
gcccggcacc
      601 cgcgtccgcg ccatggccat
ctacaagcag tcacagcaca tgacggaggt
tgtgaggcgc
      661 tgcccccacc atgagcgctg
ctcagatagc gatggtctgg cccctcctca
gcatcttatc
      721 cgagtggaag gaaatttgcg
tgtggagtat ttggatgaca gaaacacttt
tcgacatagt
      781 gtggtggtgc cctatgagcc
gcctgaggtt ggctctgact gtaccaccat
ccactacaac
      841 tacatgtgta acagttcctg
catgggcggc atgaaccgga ggcccatcct
caccatcatc
      901 acactggaag actccagtgg
taatctactg ggacggaaca gctttgaggt
gcgtgtttgt
      961 gcctgtcctg ggagagaccg
gcgcacagag gaagagaatc tccgcaagaa
aggggagcct
     1021 caccacgagc tgcccccagg
gagcactaag cgagcactgc ccaacaacac
cagctcctct
     1081 ccccagccaa agaagaaacc
actggatgga gaatatttca cccttcagat
ccgtgggcgt
     1141 gagcgcttcg agatgttccg
agagctgaat gaggccttgg aactcaagga
tgcccaggct
     1201 gggaaggagc caggggggag
cagggctcac tccagccacc tgaagtccaa
aaagggtcag
     1261 tctacctccc gccataaaaa
actcatgttc aagacagaag ggcctgactc agac
color=red>tga

사실 염기서열의 분석을 눈으로 하기는 여간 괴로운 것이 아닙니다. 여기서 모두 소개할 수는 없지만, 분자생물학을 하는 사람들이 DNA를
분석하는 프로그램으로 DNAstar 또는 VectorNTI와 같은 것을 씁니다. 여러 가지 분석 도구도 있지만, 염기서열의 번호와 길이,
제한효소 부위, 염기서열의 검색 같은 일이 기본적으로 프로그램에서 이루어집니다.