Gene cloning - DKU 생리생화학실험실

메뉴 바로가기: 콘텐츠로 이동 메뉴 바로가기

Lecture

게시판 뷰

게시판 뷰페이지
1-2. GenBank 염기서열의 분석
작성자	안홍선
날짜	2009.05.12
조회수	4,610
앞에서 검색한 페이지를 text로 가져와서 붙여보았습니다. 염기서열을 표시할 때는 Courier (New)라는 font를 쓰는 게 좋습니다. (해 보면 알지요.) 1: X02469. Human mRNA for p5...[gi:35209] Related Sequences, OMIM, Protein, PubMed, Taxonomy, LinkOut LOCUS HSP53 1317 bp mRNA PRI 12-SEP-1993 DEFINITION Human mRNA for p53 cellular tumor antigen. ACCESSION X02469 M60950 VERSION X02469.1 GI:35209 KEYWORDS antigen; tumor antigen. SOURCE human. ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. REFERENCE 1 (bases 1 to 1317) AUTHORS Zakut-Houri,R., Bienz-Tadmor,B., Givol,D. and Oren,M. TITLE Human p53 cellular tumor antigen: cDNA sequence and expression in COS cells JOURNAL EMBO J. 4 (5), 1251-1255 (1985) MEDLINE 85230577 COMMENT Data kindly reviewed (19-FEB-1986) by D. Givol. FEATURES Location/Qualifiers source 1..1317 /organism="Homo sapiens" /db_xref="taxon:9606" CDS 136..1317 /note="p53 tumor antigen (aa 1- )" /codon_start=1 /protein_id="CAA26306.1" /db_xref="GI:35210" /db_xref="SWISS-PROT:P04637" /translation="MEEPQSDPSVEPPLSQETFSDLWKLLPENNVLSPLPSQAMDDLM LSPDDIEQWFTEDPGPDEAPRMPEAAPPVAPAPAAPTPAAPAPAPSWPLSSSVPSQKT YQGSYGFRLGFLHSGTAKSVTCTYSPALNKMFCQLAKTCPVQLWVDSTPPPGTRVRAM AIYKQSQHMTEVVRRCPHHERCSDSDGLAPPQHLIRVEGNLRVEYLDDRNTFRHSVVV PYEPPEVGSDCTTIHYNYMCNSSCMGGMNRRPILTIITLEDSSGNLLGRNSFEVRVCA CPGRDRRTEEENLRKKGEPHHELPPGSTKRALPNNTSSSPQPKKKPLDGEYFTLQIRG RERFEMFRELNEALELKDAQAGKEPGGSRAHSSHLKSKKGQSTSRHKKLMFKTEGPDS D" repeat_region 354..368 /note="direct repeat 1" repeat_region 384..398 /note="direct repeat 1" BASE COUNT 295 a 408 c 352 g 262 t ORIGIN 1 gtctagagcc accgtccagg gagcaggtag ctgctgggct ccggggacac tttgcgttcg 61 ggctgggagc gtgctttcca cgacggtgac acgcttccct ggattggcag ccagactgcc 121 ttccgggtca ctgccatgga ggagccgcag tcagatccta gcgtcgagcc ccctctgagt 181 caggaaacat tttcagacct atggaaacta cttcctgaaa acaacgttct gtcccccttg 241 ccgtcccaag caatggatga tttgatgctg tccccggacg atattgaaca atggttcact 301 gaagacccag gtccagatga agctcccaga atgccagagg ctgctccccc cgtggcccct 361 gcaccagcag ctcctacacc ggcggcccct gcaccagccc cctcctggcc cctgtcatct 421 tctgtccctt cccagaaaac ctaccagggc agctacggtt tccgtctggg cttcttgcat 481 tctgggacag ccaagtctgt gacttgcacg tactcccctg ccctcaacaa gatgttttgc 541 caactggcca agacctgccc tgtgcagctg tgggttgatt ccacaccccc gcccggcacc 601 cgcgtccgcg ccatggccat ctacaagcag tcacagcaca tgacggaggt tgtgaggcgc 661 tgcccccacc atgagcgctg ctcagatagc gatggtctgg cccctcctca gcatcttatc 721 cgagtggaag gaaatttgcg tgtggagtat ttggatgaca gaaacacttt tcgacatagt 781 gtggtggtgc cctatgagcc gcctgaggtt ggctctgact gtaccaccat ccactacaac 841 tacatgtgta acagttcctg catgggcggc atgaaccgga ggcccatcct caccatcatc 901 acactggaag actccagtgg taatctactg ggacggaaca gctttgaggt gcgtgtttgt 961 gcctgtcctg ggagagaccg gcgcacagag gaagagaatc tccgcaagaa aggggagcct 1021 caccacgagc tgcccccagg gagcactaag cgagcactgc ccaacaacac cagctcctct 1081 ccccagccaa agaagaaacc actggatgga gaatatttca cccttcagat ccgtgggcgt 1141 gagcgcttcg agatgttccg agagctgaat gaggccttgg aactcaagga tgcccaggct 1201 gggaaggagc caggggggag cagggctcac tccagccacc tgaagtccaa aaagggtcag 1261 tctacctccc gccataaaaa actcatgttc aagacagaag ggcctgactc agactga // 이 정보를 보면 우선 유전자의 이름이 DEFINITION Human mRNA for p53 cellular tumor antigen이라고 되어 있습니다. 즉 사람 p53 cellular tumor antigen mRNA 유전자이고 mRNA 염기서열입니다. 유전자의 일부이면 "partial sequence", coding sequence가 완전하면 "complete CDS"란 말이 붙습니다. 고유 등록번호는 ACCESSION X02469라고 되어있지요. 고유번호가 하나 더 붙어있네요. 그만큼 아직 중구난방입니다. SOURCE에서 human 즉 사람에게서 얻은 것임을 명백히 하고 있습니다. 때로는 어떤 조직에서 분리하였는가 까지도 나타납니다. 그 아래에서는 이 염기서열을 발표한 저자들과 논문이 적혀있는 경우가 많습니다. 이 정보가 정확한 유전자를 찾는데에 많은 도움이 됩니다. FEATURES란 것은 이 염기서열의 부분 부분이 어떤 특징이 있는가를 표시하는 곳입니다. 이 유전자가 genomic DNA인 경우 exon과 intron이 어디부터 어디까지인지 표시되어 있습니다. 또 이 부분에는 color=maroon>CDS라는 중요한 정보가 있습니다. 이는 coding sequence를 나타내는 것으로 단백질 합성에 template가 되는 부분을 표시합니다. 우리가 보통 부르는 ORF(open reading frame)에 해당하는 부위죠. 즉 initiation codon으로부터 termination codon까지입니다. 이로부터 나오는 아미노산 염기서열도 표시합니다. 아미노산 서열이 single letter code로 되어 있어서 읽기 힘들지만 이런 건 반드시 알아야 합니다. Glycine = Gly = G, Lysine = Lys = K 이런 식입니다. 그리고 그 밑으로 ORIGIN이라고 하여 우리가 정말 필요로하는 DNA sequence가 나오고 있습니다. 한가지 미리 설명해두고 싶은 것은 mRNA이건 DNA이건 GenBank에서는 ACGT를 사용해서 표기합니다. RNA라고 해서 U를 쓰지 않습니다. 그리고 cDNA sequence나 mRNA sequence나 모두 같습니다. 또한 mRNA에서 유래하는 cDNA라고 해서 mRNA와 상보적인, (그래서 염기서열이 180도 다른) complementary sequence를 쓰지 않습니다. 그리고 방향은 무조건 5' 으로부터 3' 쪽으로 쓰며 double strand에서의 sense strand만을 표기합니다. 이런 것들의 의미는 이 강의 노트에서 끝까지 공부하다보면 모두 알게 될 것입니다. Genomic DNA, mRNA, CDS와의 관계 위 정보를 분석하기 위해서 반드시 먼저 알아야 할 지식들이 있습니다. 사람의 유전자는 exon과 intron으로 구성되어 있음을 다들 알고 계실 것으로 믿습니다. 첫 exon 앞에는 이 유전자의 발현을 조절해주는 promoter가 존재합니다. src="http://dkbiophysi.pulun.net/genbank06_dna_rna_protein.gif" width=458 border=0> 이 그림에서 보듯이 mature mRNA가 되면 exon만이 주욱 연결된 모양이 됩니다. 그런데, 이 mRNA도 모두 단백질로 연결되는 부분이 아닙니다. 그림에서 보듯이 앞쪽과 뒤쪽에 codon과는 무관한 5'-nontranslating region 과 3'-nontranslating region 이 존재하며 (통상 untranslated라고 써서 UTR이라고도 합니다), 그 사이에 open reading frame(ORF)이 있습니다. ORF의 시작은 AUG(initiation codon), 끝은 UGA, UAG, UAA(termination codons)입니다. border=0> 아시다시피 유전자의 암호인 코돈(codon)은 염기 3 개씩으로 이루어져 있습니다. 항상 methionine을 코딩하는 AUG로 시작하고 UGA, UAG, UAA로 끝납니다. border=0> 자, 다시 봅시다. 여기서 문제입니다. 하나의 코돈이 3 개의 염기로 구성되므로 시작지점을 어디로 잡느냐에 따라서 여러개의 ORF가 존재합니다. 간단히 예를 들면 AUG CAU GCU UCU AAU UAA UUA GUA 라는 염기서열은 AUG CAU GCU UCU AAU UAA UUA GUA 로 읽을 수도 있고 A UGC AUG CUU CUA AUU AAU UAG UA 로 읽을 수도 있는 것입니다. 실제 위 p53의 mRNA에는 다음과 같은 여러 종류의 open reading frame이 존재할 수 있습니다. 모두 ATG로 시작하여 termination codon으로 끝나고 있습니다. width=547 border=0> 보통은 가장 긴 염기서열이 의미가 있기 때문에 일단은 맨 처음 나타나는 시작 코돈부터 open reading frame 을 잡으면 됩니다. 그래서 유전자를 밝힌 사람이 대개 CDS가 어디부터 어디까지인가를 표시하는 것입니다. 아래에서 보면 분명히 CDS에 해당하는 부위가 ATG로부터 TGA(붉게 표시함)로 끝나고 있습니다. face="Courier New">style="FONT-SIZE: 9pt"> 1 gtctagagcc accgtccagg gagcaggtag ctgctgggct ccggggacac tttgcgttcg 61 ggctgggagc gtgctttcca cgacggtgac acgcttccct ggattggcag ccagactgcc 121 ttccgggtca ctgccstyle="FONT-SIZE: 9pt">atgstyle="FONT-SIZE: 9pt">ga ggagccgcag tcagatccta gcgtcgagcc ccctctgagt 181 caggaaacat tttcagacct atggaaacta cttcctgaaa acaacgttct gtcccccttg 241 ccgtcccaag caatggatga tttgatgctg tccccggacg atattgaaca atggttcact 301 gaagacccag gtccagatga agctcccaga atgccagagg ctgctccccc cgtggcccct 361 gcaccagcag ctcctacacc ggcggcccct gcaccagccc cctcctggcc cctgtcatct 421 tctgtccctt cccagaaaac ctaccagggc agctacggtt tccgtctggg cttcttgcat 481 tctgggacag ccaagtctgt gacttgcacg tactcccctg ccctcaacaa gatgttttgc 541 caactggcca agacctgccc tgtgcagctg tgggttgatt ccacaccccc gcccggcacc 601 cgcgtccgcg ccatggccat ctacaagcag tcacagcaca tgacggaggt tgtgaggcgc 661 tgcccccacc atgagcgctg ctcagatagc gatggtctgg cccctcctca gcatcttatc 721 cgagtggaag gaaatttgcg tgtggagtat ttggatgaca gaaacacttt tcgacatagt 781 gtggtggtgc cctatgagcc gcctgaggtt ggctctgact gtaccaccat ccactacaac 841 tacatgtgta acagttcctg catgggcggc atgaaccgga ggcccatcct caccatcatc 901 acactggaag actccagtgg taatctactg ggacggaaca gctttgaggt gcgtgtttgt 961 gcctgtcctg ggagagaccg gcgcacagag gaagagaatc tccgcaagaa aggggagcct 1021 caccacgagc tgcccccagg gagcactaag cgagcactgc ccaacaacac cagctcctct 1081 ccccagccaa agaagaaacc actggatgga gaatatttca cccttcagat ccgtgggcgt 1141 gagcgcttcg agatgttccg agagctgaat gaggccttgg aactcaagga tgcccaggct 1201 gggaaggagc caggggggag cagggctcac tccagccacc tgaagtccaa aaagggtcag 1261 tctacctccc gccataaaaa actcatgttc aagacagaag ggcctgactc agaccolor=red>tga 사실 염기서열의 분석을 눈으로 하기는 여간 괴로운 것이 아닙니다. 여기서 모두 소개할 수는 없지만, 분자생물학을 하는 사람들이 DNA를 분석하는 프로그램으로 DNAstar 또는 VectorNTI와 같은 것을 씁니다. 여러 가지 분석 도구도 있지만, 염기서열의 번호와 길이, 제한효소 부위, 염기서열의 검색 같은 일이 기본적으로 프로그램에서 이루어집니다. 이메일 보내기

목록

다음글: 1-1. Internet에서의 유전자 검색 - GenBank

이전글: 1-3. Polymerase Chain Reaction (PCR)