PubMed na NCBI - PowerPoint PPT Presentation

About This Presentation
Title:

PubMed na NCBI

Description:

Str nky praktika http://web.natur.cuni.cz/zoologie/biodiversity/ (http://www.natur.cuni.cz/~muncling) Zamaskovan sekvence Pomoc N nebo pou it m mal ch p smen ... – PowerPoint PPT presentation

Number of Views:230
Avg rating:3.0/5.0
Slides: 57
Provided by: PavelMun
Category:

less

Transcript and Presenter's Notes

Title: PubMed na NCBI


1
Stránky praktika
http//web.natur.cuni.cz/zoologie/biodiversity/
(http//www.natur.cuni.cz/muncling)
2
Pocítacová cástGenetické metody v zoologii
  • Dopolední cást
  • (Pavel Munclinger, Václav Janoušek)
  • - Databáze sekvencí
  • - Manipulace se sekvencemi
  • - Navržení primeru pro PCR
  • - Celogenomová data
  • Odpolední cást
  • (Zuzana Starostová, Petr Synek)
  • - Fylogenetická analýza

3
Kde se dozvedet více?
  • Kurz Computational Genomics(Marc
    VanRanst)Bioinformatics bookmarks(http//www.kul
    euven.ac.be/rega/mvr/bioinformatics.htm)
  • Úvod do bioinformatiky/Základy bioinformatiky(F.
    Cvrcková)
  • Molekulární ekologie(letní semestr, populacní
    genetika, analýza paternity)

4
Databáze sekvencí
  • Primární databáze DNA sekvencí
  • RefSeq
  • Genomové databáze

5
Primární databáze DNA sekvencí
  • International Nucleotide Sequence Databases (INSD)

Your submission
Your submission
DNA Data Bank of Japan (DDBJ) (National Institute
of Genetics) Japan
GenBank (National Center for Biotechnology
Information) USA
European Nucleotide Archive (European
Bioinformatics Institute) Europe
Your submission
6
RefSeq Databáze unikátních sekvencí
  • Provozována NCBI
  • Kurátorovaná databáze založená na sekvencích
    získaných z primárních databázích
  • Unikátní sekvence genu/transkriptu/proteinu pro
    jednotlivé organismy/ekomorfy/varianty

7
Genomové databáze
  • Skladují anotované assembly celých genomu
    veškerá metadata asociovaná se sekvencemi nebo
    geny/transkripty/ proteiny
  • Sekvence, geny, transkripty, proteiny, proteinové
    rodiny, paralogy, orthology, mezidruhové
    alignmenty, genové exprese, varianty (SNPs),
    repetitivní elementy, mikrosatelity, strukturální
    zmeny, genová regulace, fenotypy apod.

http//genome.ucsc.edu/
http//www.ensembl.org/
http//www.ncbi.nlm.nih.gov/
8
Genomové databáze
  • Veškerá data jou vzájemne propojena pomocí
    identifikátoru a pozic v genomech

Transkript
Exprese
Funkce
Sekvence
Gen
http//genome.ucsc.edu/
http//www.ensembl.org/
http//www.ncbi.nlm.nih.gov/
9
(No Transcript)
10
Manipulace se sekvencemi
  • Uchovávání sekvencí
  • Alignment
  • BLAST

11
Uchovávání sekvencí
  • Sekvence uchovávány ve forme textu v klasickém
    textovém souboru (možno editovat v notepadu,
    textpadu, apod. nebo ve specifických programech
    urcených k manipulaci a editaci sekvencí napr.
    BioEdit)
  • V textových souborech uchovávány ve specifickém
    tvaru
  • FASTA (.fa, .fas, .fasta)
  • GenBank (.gb)
  • V každém souboru 1 i více sekvencí

12
FASTA
  • Pouze velmi základní informace o sekvenci
    formát urcen primárne k manipulaci se sekvencemi

gtgi148832288gbEF443167.1 Rhinopoma hardwickei
haplotype 2949 cytochrome b gene, partial cds
mitochondrial ATGACCCACATCCGAAAATCCCACCCCTTATTCAAA
ATTATCAACGACTCATTCATCGACCTACCAGCTCCATCAAACATTTCCTC
CTGATGAAATTTTGGGTCCCTACTAGGTATTTGTTTAGCTGTACAAATCT
TAACAGGACTGTTCCTAGCAATACATTATACATCAGATACCACAACCGCC
TTCTACTCTGTTACCCATATCTGCCGAGACGTAAATTACGGCTGAATCCT
ACGTTACCTCCATGCCAACGGAGCATCCATATTCTTCATCTGCCTATTTA
TACATGTAGGCCGAGGCATCTATTACGGCTCATACCTATTCACAGAAACA
TGAAACATTGGCATTATCCTTCTATTCGCCGTAATAGCAACAGCATTCAT
AGGCTATGTCCTCCCA gtgi... ATGA...
13
  • LOCUS EF443167 402 bp
    DNA linear MAM 15-OCT-2007
  • DEFINITION Rhinopoma hardwickei haplotype 2949
    cytochrome b gene, partial cds
  • mitochondrial.
  • ACCESSION EF443167
  • VERSION EF443167.1 GI148832288
  • KEYWORDS .
  • SOURCE mitochondrion Rhinopoma hardwickii
    (Lesser mouse-tailed bat)
  • ORGANISM Rhinopoma hardwickii
  • Eukaryota Metazoa Chordata
    Craniata Vertebrata Euteleostomi
  • Mammalia Eutheria Laurasiatheria
    Chiroptera Microchiroptera
  • Rhinopomatidae Rhinopoma.
  • REFERENCE 1 (bases 1 to 402)
  • AUTHORS Hulva,P., Horacek,I. and Benda,P.
  • TITLE Molecules, morphometrics and new
    fossils provide an integrated view
  • of the evolutionary history of
    Rhinopomatidae (Mammalia
  • Chiroptera)
  • JOURNAL BMC Evol. Biol. 7, 165 (2007)
  • PUBMED 17868440
  • REMARK Publication Status Online-Only

GenBank
  • Formát uchovává velmi detailní informaci o
    sekvenci urcen k uchovávání sekvencí vc.
    veškerých informací asociovaných se sekvencí

14
  • LOCUS EF443167 402 bp
    DNA linear MAM 15-OCT-2007
  • DEFINITION Rhinopoma hardwickei haplotype 2949
    cytochrome b gene, partial cds
  • mitochondrial.
  • ACCESSION EF443167
  • VERSION EF443167.1 GI148832288
  • KEYWORDS .
  • SOURCE mitochondrion Rhinopoma hardwickii
    (Lesser mouse-tailed bat)
  • ORGANISM Rhinopoma hardwickii
  • Eukaryota Metazoa Chordata
    Craniata Vertebrata Euteleostomi
  • Mammalia Eutheria Laurasiatheria
    Chiroptera Microchiroptera
  • Rhinopomatidae Rhinopoma.
  • REFERENCE 1 (bases 1 to 402)
  • AUTHORS Hulva,P., Horacek,I. and Benda,P.
  • TITLE Molecules, morphometrics and new
    fossils provide an integrated view
  • of the evolutionary history of
    Rhinopomatidae (Mammalia
  • Chiroptera)
  • JOURNAL BMC Evol. Biol. 7, 165 (2007)
  • PUBMED 17868440
  • REMARK Publication Status Online-Only

LOCUS
Základní vlastnosti sekvence (název, délka, typ)
15
  • LOCUS EF443167 402 bp
    DNA linear MAM 15-OCT-2007
  • DEFINITION Rhinopoma hardwickei haplotype 2949
    cytochrome b gene, partial cds
  • mitochondrial.
  • ACCESSION EF443167
  • VERSION EF443167.1 GI148832288
  • KEYWORDS .
  • SOURCE mitochondrion Rhinopoma hardwickii
    (Lesser mouse-tailed bat)
  • ORGANISM Rhinopoma hardwickii
  • Eukaryota Metazoa Chordata
    Craniata Vertebrata Euteleostomi
  • Mammalia Eutheria Laurasiatheria
    Chiroptera Microchiroptera
  • Rhinopomatidae Rhinopoma.
  • REFERENCE 1 (bases 1 to 402)
  • AUTHORS Hulva,P., Horacek,I. and Benda,P.
  • TITLE Molecules, morphometrics and new
    fossils provide an integrated view
  • of the evolutionary history of
    Rhinopomatidae (Mammalia
  • Chiroptera)
  • JOURNAL BMC Evol. Biol. 7, 165 (2007)
  • PUBMED 17868440
  • REMARK Publication Status Online-Only

DEFINITION
Výpis genu v sekvenci
16
  • LOCUS EF443167 402 bp
    DNA linear MAM 15-OCT-2007
  • DEFINITION Rhinopoma hardwickei haplotype 2949
    cytochrome b gene, partial cds
  • mitochondrial.
  • ACCESSION EF443167
  • VERSION EF443167.1 GI148832288
  • KEYWORDS .
  • SOURCE mitochondrion Rhinopoma hardwickii
    (Lesser mouse-tailed bat)
  • ORGANISM Rhinopoma hardwickii
  • Eukaryota Metazoa Chordata
    Craniata Vertebrata Euteleostomi
  • Mammalia Eutheria Laurasiatheria
    Chiroptera Microchiroptera
  • Rhinopomatidae Rhinopoma.
  • REFERENCE 1 (bases 1 to 402)
  • AUTHORS Hulva,P., Horacek,I. and Benda,P.
  • TITLE Molecules, morphometrics and new
    fossils provide an integrated view
  • of the evolutionary history of
    Rhinopomatidae (Mammalia
  • Chiroptera)
  • JOURNAL BMC Evol. Biol. 7, 165 (2007)
  • PUBMED 17868440
  • REMARK Publication Status Online-Only

ACCESSION
Databázové prístupové císlo
VERSION
Verze dané sekvence
17
  • LOCUS EF443167 402 bp
    DNA linear MAM 15-OCT-2007
  • DEFINITION Rhinopoma hardwickei haplotype 2949
    cytochrome b gene, partial cds
  • mitochondrial.
  • ACCESSION EF443167
  • VERSION EF443167.1 GI148832288
  • KEYWORDS .
  • SOURCE mitochondrion Rhinopoma hardwickii
    (Lesser mouse-tailed bat)
  • ORGANISM Rhinopoma hardwickii
  • Eukaryota Metazoa Chordata
    Craniata Vertebrata Euteleostomi
  • Mammalia Eutheria Laurasiatheria
    Chiroptera Microchiroptera
  • Rhinopomatidae Rhinopoma.
  • REFERENCE 1 (bases 1 to 402)
  • AUTHORS Hulva,P., Horacek,I. and Benda,P.
  • TITLE Molecules, morphometrics and new
    fossils provide an integrated view
  • of the evolutionary history of
    Rhinopomatidae (Mammalia
  • Chiroptera)
  • JOURNAL BMC Evol. Biol. 7, 165 (2007)
  • PUBMED 17868440
  • REMARK Publication Status Online-Only

KEYWORDS
Pod kterými klícovými slovy ji lze najít
18
  • LOCUS EF443167 402 bp
    DNA linear MAM 15-OCT-2007
  • DEFINITION Rhinopoma hardwickei haplotype 2949
    cytochrome b gene, partial cds
  • mitochondrial.
  • ACCESSION EF443167
  • VERSION EF443167.1 GI148832288
  • KEYWORDS .
  • SOURCE mitochondrion Rhinopoma hardwickii
    (Lesser mouse-tailed bat)
  • ORGANISM Rhinopoma hardwickii
  • Eukaryota Metazoa Chordata
    Craniata Vertebrata Euteleostomi
  • Mammalia Eutheria Laurasiatheria
    Chiroptera Microchiroptera
  • Rhinopomatidae Rhinopoma.
  • REFERENCE 1 (bases 1 to 402)
  • AUTHORS Hulva,P., Horacek,I. and Benda,P.
  • TITLE Molecules, morphometrics and new
    fossils provide an integrated view
  • of the evolutionary history of
    Rhinopomatidae (Mammalia
  • Chiroptera)
  • JOURNAL BMC Evol. Biol. 7, 165 (2007)
  • PUBMED 17868440
  • REMARK Publication Status Online-Only

SOURCE
Organismus zarazení v systému
19
  • LOCUS EF443167 402 bp
    DNA linear MAM 15-OCT-2007
  • DEFINITION Rhinopoma hardwickei haplotype 2949
    cytochrome b gene, partial cds
  • mitochondrial.
  • ACCESSION EF443167
  • VERSION EF443167.1 GI148832288
  • KEYWORDS .
  • SOURCE mitochondrion Rhinopoma hardwickii
    (Lesser mouse-tailed bat)
  • ORGANISM Rhinopoma hardwickii
  • Eukaryota Metazoa Chordata
    Craniata Vertebrata Euteleostomi
  • Mammalia Eutheria Laurasiatheria
    Chiroptera Microchiroptera
  • Rhinopomatidae Rhinopoma.
  • REFERENCE 1 (bases 1 to 402)
  • AUTHORS Hulva,P., Horacek,I. and Benda,P.
  • TITLE Molecules, morphometrics and new
    fossils provide an integrated view
  • of the evolutionary history of
    Rhinopomatidae (Mammalia
  • Chiroptera)
  • JOURNAL BMC Evol. Biol. 7, 165 (2007)
  • PUBMED 17868440
  • REMARK Publication Status Online-Only

REFERENCE
Clánek(y), kde byla daná sekvence publikována
autori
20
  • LOCUS EF443167 402 bp
    DNA linear MAM 15-OCT-2007
  • DEFINITION Rhinopoma hardwickei haplotype 2949
    cytochrome b gene, partial cds
  • mitochondrial.
  • ACCESSION EF443167
  • VERSION EF443167.1 GI148832288
  • KEYWORDS .
  • SOURCE mitochondrion Rhinopoma hardwickii
    (Lesser mouse-tailed bat)
  • ORGANISM Rhinopoma hardwickii
  • Eukaryota Metazoa Chordata
    Craniata Vertebrata Euteleostomi
  • Mammalia Eutheria Laurasiatheria
    Chiroptera Microchiroptera
  • Rhinopomatidae Rhinopoma.
  • REFERENCE 1 (bases 1 to 402)
  • AUTHORS Hulva,P., Horacek,I. and Benda,P.
  • TITLE Molecules, morphometrics and new
    fossils provide an integrated view
  • of the evolutionary history of
    Rhinopomatidae (Mammalia
  • Chiroptera)
  • JOURNAL BMC Evol. Biol. 7, 165 (2007)
  • PUBMED 17868440
  • REMARK Publication Status Online-Only

Pozice genu v rámci sekvence
FEATURES
Podrobný popis jednotlivých genu vcetne jejich
pozic napr. pocátek a konec kódující sekvence,
sekvence proteinu XREFS
21
  • LOCUS EF443167 402 bp
    DNA linear MAM 15-OCT-2007
  • DEFINITION Rhinopoma hardwickei haplotype 2949
    cytochrome b gene, partial cds
  • mitochondrial.
  • ACCESSION EF443167
  • VERSION EF443167.1 GI148832288
  • KEYWORDS .
  • SOURCE mitochondrion Rhinopoma hardwickii
    (Lesser mouse-tailed bat)
  • ORGANISM Rhinopoma hardwickii
  • Eukaryota Metazoa Chordata
    Craniata Vertebrata Euteleostomi
  • Mammalia Eutheria Laurasiatheria
    Chiroptera Microchiroptera
  • Rhinopomatidae Rhinopoma.
  • REFERENCE 1 (bases 1 to 402)
  • AUTHORS Hulva,P., Horacek,I. and Benda,P.
  • TITLE Molecules, morphometrics and new
    fossils provide an integrated view
  • of the evolutionary history of
    Rhinopomatidae (Mammalia
  • Chiroptera)
  • JOURNAL BMC Evol. Biol. 7, 165 (2007)
  • PUBMED 17868440
  • REMARK Publication Status Online-Only

ORIGIN
Sekvence
Konec sekvence
22
Príklad
  • Vyhledejte sekvence cytochromu b ze všech druhu
    mamutu, které byly osekvenovány (jaké druhy?)
  • Exportujte protein-kódující cást do FASTA formátu
    a uložte na pocítac

Postup
  • GenBank na stránkách NCBI ve vyhledávání
    možnosti Nucleotide - GenBank RefSeq
  • Vyhledávání podle rodového názvu Mammuthus
  • Velké množství záznamu omezit výber pouze na
    neredundantní databázi RefSeq
  • Celý genom použít webový formulár k výberu
    pouze sekvence cytochromu b (pozice v cásti
    SOURCE CDS)

23
Porovnání sekvencí Alignment
  • Porovnání/prirazení dvou a více sekvencí
  • Pri alignmentu predpokládána homologie sekvencí
  • Využívány ruzné typy algoritmu ruzné predpoklady

Sekvence se liší
Sekvence se shodují
Sekvence chybí
24
Typy alignmentu
  • Pairwise Alignment (2 sekvence)
  • Globální (Needleman-Wunsch)
  • Zhruba stejne dlouhé sekvence
  • Snaží se priradit od zacátku až do konce sekvence
  • Lokální (Smith-Waterman)
  • Jen nejlépe shodující se místa obou sekvencí
  • Sekvence ruzne dlouhé

Napr. BioEdit http//www.ebi.ac.uk/ http//www.bi
oinformatics.org/sms2/index.html
http//en.wikipedia.org/wiki/Sequence_alignment
25
  • Multiple Alignment
  • Více sekvencí
  • Hledá konzervativní místa
  • ClustalW, Muscle, T-coffee

Napr. BioEdit, http//www.ebi.ac.uk/, http//www.b
ioinformatics.org/ sms2/index.html
http//en.wikipedia.org/wiki/Multiple_sequence_ali
gnment
26
Uchovávání alignmentu
  • Podobne jako v prípade sekvencí v textových
    souborech ve specifickém formátu
  • Ruzné formáty
  • nejcasteji formát programu ClustalW (.aln)
  • lze také jako multiple FASTA
  • Phylip (.phy), NEXUS (.nex) odpoledne
  • Nove SAM (Sequence Alignment/Map format) velké
    celogenomové alignmenty

27
BLASTBasic Local Alignment Search Tool
  • Vyhledávání v databázích sekvencí na základe
    podobnosti
  • Algoritmus hledá lokální podobnosti
  • Na rozdíl od klasického aligmentu velmi efektivní
    nástroj jak rychle vyhledávat ve velkých
    databázích (napr. GenBank)
  • Podobné nástroje BLAT, FASTA

28
BLAST
Vyhledávání v jednotlivých referencních genomech
Základní BLAST prohlédávání celé databáze
pomocí nukleotidové sekvence
29
BLAST
Vložit sekvenci
Zvolit Others
Zvolit databázi, ve které chceme BLASTovat
30
Príklad 1
  • Vyhledejte sekvence nejpodobnejší cytochromu b
    mamuta z trí jiných druhu
  • Vytvorte multiple FASTA soubor
  • Provedte multiple alignment stažených sekvencích

Postup
  • BLAST na NCBI nucleotide blast option -
    reference genomic sequences databáze
    (nonredundantní genomické sekvence)
  • Stáhnout protein-kódující sekvence cytochromu b
  • Vytvorit v libovolném textovém editoru multiple
    FASTA soubor
  • Provést multiple alignment (na EBI na webu,
    BioEdit na pocítaci)
  • EBI (www.ebi.ac.uk) services DNA RNA
    Clustal2W
  • BioEdit Accessory Applications ClustalW
    Multiple Alignment

31
Príklad 2Úloha ze života
  • BLAST ke zjištení zdroje kontaminace napr.
    sekvenuji mamuty nezdá se mi jedna se sekvencí

Postup
  • Jedna ze dvou sekvencí na stránkách praktika
  • BLAST - nucleotide blast option

???
32
Navržení primeru pro PCR
  • Maskování repeatu
  • Design primeru
  • In Silico PCR (e-PCR)

33
Maskování repeatu RepeatMasker
http//www.repeatmasker.org/
  • Umožní vyhledat a zakrýt oblasti, které jsou v
    genomu ve vetším poctu (mikrosatelity,
    retrotranspozony a transpozony)
  • Umožní nám to pri navrhování primeru se vyvarovat
    nespecifickým amplifikacím pri PCR
  • Pouze ale organismy, které jsou bud již
    osekvenovány anebo jsou jim blízce príbuzné
    (retrotransposony a transposony) X mikrosatelity
    lze maskovat u jakýchkoliv organismu

34
Zamaskovaná sekvence
  • Pomocí N nebo použitím malých písmen (vetšina
    programu urcených pro analýzu sekvencí s nimi umí
    pracovat)

gtMusY.1 ACACTTTTTCTTTTGCATAATGCTGTGTGGAGATTTTGCAGA
CAGCATTGCTGTAAAATGCAGAGTAATTTCTGTAATGAGCTTGTGAAATA
TTGACTATTATGGCCCTCTCTAAGCATGGCTTTAATTATATTCTAGCACA
GCAGCTTCTCTGGGGATACTCAGGTCAGATCACTGACTGAATGTTGTGTT
CATTTGAAACNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNGTCATTTGTTGGTGTGCTGAATTCTGTTTTGTTTTGCTTT
TAACCTAACTAGCTAGAAATTCTGTCAATCTTTTTTCCTTCCTAGAAAGA
NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
NNNNNNNNNNNNNNNNNNNNNNGAAACACAGGCTTT

35
RepeatMasker
36
RepeatMasker
Vložit nukleotidovou sekvenci
Vybrat organismus
37
RepeatMasker
Výstup analýzy RepeatMaskeru
38
RepeatMasker
Výstup analýzy RepeatMaskeru
39
Design primeruPrimer3, Primer3Plus
http//www.bioinformatics.nl/cgi-bin/primer3plus/p
rimer3plus.cgi/
R
TCCGAAAATCCCACCAATTATCAACGACTCATTC
F
40
TGCGCGCTAAGAltCTCCTgtAACACACACACACGGAATTAGGGAACT
T
Included Region
Target
Excluded Region
41
Rozestup primeru gt délka amplifikované oblasti
Koncentrace Mg2
Koncentrace dNTPs
Maskování repeatu
42
Elektronická PCR (e-PCR)
  • Vezme dvojici primeru a zkouší, zda-li by PCR ve
    známém genomu amplifikovala pouze námi
    požadovanou oblast nebo i jiné oblasti
  • Server UCSC (http//www.genome.ucsc.edu/)
  • Lze i na NCBI

43
e-PCR
44
e-PCR
Organismus
Assembly
F a R primery
45
Príklad
  • Sekvence mikrosatelitu z myšího Y chromosomu na
    stránkách praktik (vytvorte multiple FASTA)
  • Zamaskujte mikrosatelity pomocí RepeatMaskeru
  • Navrhnete kolem nich primery v Primer3
  • Zjistete, které z techto primeru jsou dále
    použitelné pomocí e-PCR

46
Celogenomová data
  • Pozice genu v genomu koordinátový systém
  • Verze assembly
  • Práce s genomovými prohlížeci
  • 1 gen
  • gt1 genu (Biomart)

47
Pozice genu v genomu
  • Genomický koordinátový systém založený na
    fyzické pozici nukleotidu v rámci vetšího celku
    (napr. kontigu, chromozomu)
  • Tvorí pak tzv. fyzickou mapu (v base pairs bp)
  • napr. u myši je zacátek chromozomu na centromere
    (pozice 1)
  • napr. gen SRY chrY1,918,381-1,919,568 (približná
    pozice pak 1.9 Mb)
  • Jiné mapy cytogenetická mapa, genetická mapa (cM)

48
Assembly
  • Verze koordinátového systému
  • Pocátecní verze genomu postrádají hure
    sekvenovatelné oblasti jsou zaplneny Nky, ale
    postupne dochází k neustálému zpresnování
    genomické sekvence zpresnování fyzické mapy
  • Rozdíl ve fyzikální pozici genu mezi ruznými
    assembly (až nekolik Mb)

Adh5 (Alcohol dehydrogenase 5)
GRCm38
NCBIM37
chr3 138,443,093-138,455,499
chr3138,106,057-138,118,463
49
Genomové prohlížece
  • Ensembl, UCSC, NCBI
  • Nejvíce user-friendly asi Ensembl...

VERZE
50
Príklad
  • Najdete tyto informace o genu Adh5 v myším
    genomu
  • Pocet transkriptu, typ transkriptu?
  • Kolik exonu má kanonický transkript?
  • Jaká proteinová rodina (ID)?
  • Kolik druhu dostupných na Ensembl má alespon
    jeden ortholog tohoto genu?
  • Ve kterém taxonu dostupném na Ensembl je nejvetší
    pocet homologu tohoto genu?
  • Získejte protein-kódující sekvence genu (vždy
    kanonický transkript) pro všechny hlodavce na
    Ensemblu, exportujte je do FASTA formátu,
    provedte alignment

51
BioMart
  • Pri práci s více geny efektivní získávání dat
  • Pracuje na principu filtru lze nastavit
    parametry výberu tzn. filtrovat na základe
  • pozice v genomu
  • ID genu (konverze ID z ruzných databází)
  • genové rodiny
  • orthology
  • paralogy
  • ...
  • Výstup lze uložit jako .txt, .csv nebo .xls soubor

52
BioMart (Ensembl)
53
Dababáze
Verze se aktualizuje každé cca 2-3
mesíce Duležité pamatovat si verzi se kterou
pracuji!!!
Dataset organismus
54
Parametry výberu kritéria definující set genu
Požadovaná data ve výstupu
Propojení s daty z jiných organismu (pokrocilé)
55
Kritéria výberu pozice v genomu
56
Výber atributu ve výstupu
57
(No Transcript)
58
Seznámení s BioMartem
  • Na základe jakých všech kritérií je možné
    filtrovat?
  • Jaká data lze na BioMartu získat možnosti
    atributu?

59
Príklad 1
  • Oblast na chromosomu 11 (23 25 Mb) byla
    asociována s reprodukcní izolací mezi dvema druhy
    myši domácí. Cílem je získat seznam
    protein-kódujících genu v této oblasti a vybrat
    kandidáty pro další výzkum (predpoklad rychle se
    vyvíjející se geny mají vetší pravdepodobnost být
    zodpovené za vznik reprodukcní bariéry).
  • Postup
  • Získejte seznam genu vcetne jména a popisu spolu
    s pozicí v genomu, orthologu u potkana a
    informace o rychlosti molekulární evoluce mezi
    potkanem a myší z oblasti chr1123000000-25000000
  • Exportujte data do excelové tabulky seradte geny
    nejvíce kandidátních po nejméne kandidátní,
    urcete kandidáty

60
Príklad 2
  • Získejte protein-kódující sekvence všech genu z
    rodiny tzv. hlavních mocových proteinu (Major
    Urinary Proteins) v genomu myši a provedte
    multiple alignment
  • Postup
  • Získejte ID rodiny MUPs
  • Použijte BioMart k získání protein-kódujících
    sekvencí MUPu a exportujte je do FASTA souboru
Write a Comment
User Comments (0)
About PowerShow.com