Title: Funksjonelle tilordninger i kj
1Funksjonelle tilordninger i kjølvannet av
Arabidopsis genomprosjektet
Per Winge stip. Biologisk inst
2Definisjoner
Hva er et genom?
Det nukleære genom.
Størrelse 30-100,000 Mb
Alt nukleært DNA i celle kjernen.
3Proteom
Det komplette sett av proteiner kodet i fra et
genom
Proteomics
Studier av proteiner uttrykk fra et genom.
Transkriptom Det komplette sett av RNA som blir
transkribert i fra et genom. Eukromatin De
gen rike områdene i fra et genom.
Heterokromatin Kompakte, gen fattige områder
av et genom. BAC Bacterial Artificial
Chromosome. Et kunstig
bakterielt kromosom som benyttes som
kloningsvektor. EST Expressed sequence
tag. En kort DNA sekvens som
kommer i fra et mRNA.
4Prokaryot Enkeltcellet organisme uten
cellekjerne og med enkel intern
struktur. Eukaryot En organisme (enkeltcellet
/ multicellulær) som har en
kompleks intern struktur inkludert en celle
kjerne. Protist Eukaryoter som ikke kan
grupperes under planter, dyr eller
sopp/gjær. Ortholog Gen som forblir
uforandret også etter en arts
dannelse. Har vanligvis samme
lokus i beslektede organismer. Paralog Et
gen som har oppstått som følge av en
gen duplikajon.
5Hvordan er slektskapet mellom levende organismer?
Sammenligninger av ribosomal RNA og konserverte
proteiner har vist at prokaryote organismer kan
deles in i to hovedgrupper bakterier og archaea
bakterier.
Levende organismer kan derfor deles inn i tre
domener Bakterier, Archaea og Eukaryoter.
Archaea bakteriene kan videre sub-inndeles i
Crenarchaeota og Euryarchaeota.
Flere av Archaea bakteriene er såkalte
ekstremofile. Dvs. de lever under ekstreme
betingelser, høy temperatur eller i omgivelser
med høyt saltinnhold, lav Ph osv.
6De tidligste eukaryote cellene oppsto
sansynligvis som en hel celle fusjon / symbiose
mellom en archaea bakterie og en eubakterie, (1.6
2.1 milliarder år siden).
Dette ga opphavet til en amitokondriell (uten
mitokondrie) eukaryot celle.
De mest primitive eukaryote organismene,
archeaprotister som Giardia (Diplomonader) og
trichomonader (Parabasalidea), mangler
mitokondrier, nukleoli, peroxisomer, og har et
relativt primitivt cytoskjellet. De beveger seg
ved hjelp av flageller og flimmerhår.
7Slektskapet mellom ulike grupper av protister er
fremdeles uklart men molekylær fylogenetiske
studier begynner å gi noen svar.
Amitokondrielle protister er de mest avvikende og
peker seg ut som den gruppen som oppsto først.
Hypotese Opphavet til mitokondrielle
eukaryoter. Amitokondrielle protister begynte å
leve i symbiose med en alfa-proteo
bakterie, endosymbiont teorien. Gener fra
bakteriellt genom ble enten deletert eller
overført til den eukaryote cellekjernen. En
viktig konsekvens av denne symbiosen er at de
tidlige eukaryote cellene, som mest sannsynlig
var begrenset til en anaerob metabolisme, nå
kunne foreta aerobisk respirasjon. Senere har
enkelte protister som lever som animalske
parasitter mistet mitokondriene og blitt
sekundært amitokondrielle, for eksempel ulike
mikrosporidia.
8Sammenligning av komplette genom i fra
eubakterier, archea bakterier og eukaryoter viser
at eukaryote proteiner som inngår i prosesser som
replikasjon av DNA, transkripsjon av mRNA,
translasjon samt organisering av endoplasmatisk
retikulum er nærmere beslektet med proteiner fra
archaea enn fra bakterier.
Mitokondriet oppsto sansynligvis som et resultat
av en symbiose mellom en alfa-proteobakterie
og en tidlig eukaryot celle
Eukaryote proteiner som inngår i metabolisme,
detoksifisering og regulering av ionebalanse er
nærmere beslektet med bakterielle proteiner.
9Viridiplantae inkluderer ulike grønnalger samt
høyere planter (landplanter). Viridiplantae ser
ut til å ha oppstått som en endo-symbiose mellom
en cyanobakterie og en primitiv eukaryot med
mitokondrier. Rester av denne symbiosen finner
en i dag i kloroplastene og slektskapet
mellom kloroplast proteiner og cyanobakterie prote
iner er nært. En rekke av de opprinnelige
kloroplast genene (cyanobakterie genene) er
senere overført til kjernen. I Arabidopsis
thaliana er over 1000 proteiner (av 25,000
totalt) nært beslektet med proteiner en finner i
cyanobakterier.
Prasinophytes
Chlorophyceae
Trebouxiophyceae
Ulvophyceae
Chlorokybales
Klebsormidiales
Streptophyta
Zygnematales
Charales
Coleochaetales
Embryophytes (landplanter)
10De mest primitive landplantene (embryofyta) er
sannsynligvis levermosene (Marchantiofyta) og det
er antatt at de har eksistert i over 480
millioner år.
Frø planter
11Vaskulære planter oppsto for ca. 420 millioner år
siden.
Inndeling av frøplanter på grunnlag av molekylære
data.
De første frøplanter oppsto for rundt 380
millioner år siden og blomster planter har kun
eksistert i ca 200 millioner år. En frøbladet og
to frøbladet planter oppsto for ca 120-150
millioner år siden.
Eudicots kan videre sub-inndeles i to store
familier, Asterids (f. eks. tomat) og Rosids
(f. eks. Arabidopsis). Disse to gruppene oppsto
for ca 90 millioner år siden.
12Arabidopsis thaliana, vårskrinneblom
Tilhører Brassicaceae familien og ligger under
ordenen Capparales. Nært beslektede planter er f.
eks. raps og kål. Arabidopsis thaliana har i
flere år vært en av modell organismene innen
plante biologi. Dette er på grunn av flere
faktorer.
Arabidopsis thaliana har en kort livssyklus, ca.
6 uker i fra spiring til den utvikler modne
frø. Den er enkel å dyrke, er liten av vekst
(ca. 30 cm høy), og trenger lite
dyrkningsplass. Arabidopsis thaliana er en
selv-pollinator, dvs. en trenger ikke manuelt å
pollinere blomstene (ev. være avhengig av insekt
pollinatorer). Kryss-pollinering er også relativt
sjelden. Det er derfor lett å opprettholde rene
linjer. Den lar seg lett transformere med jord
bakterien Agrobacterium tumefaciens som kan
brukes til å overføre ulike gen konstruksjoner.
13Arabidopsis thaliana, vårskrinneblom
Arabidopsis er diploid og har et genom på ca.
125 mega baser. Inneholder lite repetert DNA og
i over 10 år har det eksistert relativt gode
genetiske kart. Det finnes et stort utvalg av
Arabidopsis mutanter som kan fås i fra frøbanker
/ Stock center i USA og England. T-DNA
knockout linjer. Hvor T-DNA fra
Agrobakterium vektor er satt inn i kjent og
ukjente gener og inaktivert disse. (Stort
potensiale for den som vil drive med
reverse-genetics. Over 10,000 full lengde cDNA
kloner er tilgjengelige. BAC kloner fra hele
genomet er tilgjengelige.
14Arabidopsis ble i Desember 2000 den første
planten hvor hele genomet (minus enkelte
centromer regioner) ble oppklart /
sekvensert. Arabidopsis genomet består av
5 kromosom som varierer i fra 17.5 til 29.1 mega
baser.
Sekvenseringen av Arabidopsis ble foretatt av et
internasjonalt konsortium The Arabidopsis Genome
Initiative i tidsrommet 1996-2000.
Mesteparten ble sekvensert de siste 2 årene.
15På grunn av at gode genetiske kart eksisterte for
Arabidopsis og at genomet var relativt lite ble
en mapping basert sekvenseringsstrategi
benyttet. Dvs. det ble laget et genomisk BAC
bibliotek, hvor overlappende kloner ble
identifisert ved hjelp av RFLP analyser og
hybridisering eller ved PCR av sequence-tagged
sites (STS) og Southern blotting.
BAC kloner ble shotgun sekvensert.
BAC klonene (ca. 50-100 kb.) ble enkeltvis kuttet
opp i småbiter og klonet over i plasmid
vektorer (1-3 Kb) og deretter sekvensert. Overlapp
ende sekvenser ble deretter satt sammen til
sekvens av hele BAC klon var komplett.
16Resultatet fra sekvenseringen viste at
Arabidopsis thaliana genomet var rundt 125 mega
baser og inneholdt rundt 25,000 gener. Dvs. flere
gener enn man fant i de to invertebrate
organismene nematoden Caenorhabditis
elegans (ca. 19,000 gener) og i bananflua
Drosophila melanogaster (ca. 13,500 gener).
Selv om sekvensen til genomet er kjent er det
fremdeles mye arbeid som gjenstår. Å sette sammen
alle exon i et gen korrekt, samt å finne start /
stopp og beskrivelse av protein er ikke trivielt.
Denne prosessen, som kalles for annotering, er i
mange tilfeller gjort av dataprogram og er ofte
unøyaktig.
Etter at dataprogrammet har funnet et mulig gen
og korresponderende protein blir det sjekket mot
gen / protein databasene GenBank NCBI),
EMBL. Protein domene struktur kan analyseres
gjennom Pfam databasen (Sanger Centre).
Videre annotering av gen / protein. GeneOnthology
Grupperer protein i henhold til funksjon,
Metabolisme, Celle syklus regulering, DNA
reparajon osv.
17Eksempel på analyse av et protein
Protein sekvens. gtgi2352084gbAAB68776.1 MDHNSP
KSRRSRKPEPKPDIYSTFVVHSDSDSDQGRDRDKRKAKPEEDENVDLYAT
MVYKGDSDGEGEED DDDDSMLPPLLKRLPKDFGGGASLDYDDDDGDESG
DFGTMIVKTDRSSHSKKNSPYSSKPRMGVSPRRRA RGGDEESSDEEDEE
EDDDDDDGDYGTFVVKSKDKKGKKKDKEIDMTTMGRAVASMQKSNFGGKT
RKLDPS SSSSKLHGEDNRKMQQQNSKMSTTSLPDSITREDPTTKYEFLN
ELGKGSYGSVYKARDLKTSEIVAVKVI SLTEGEEGYEEIRGEIEMLQQC
NHPNVVRYLGSYQGEDYLWIVMEYCGGGSVADLMNVTEEALEEYQIAY I
CREALKGLAYLHSIYKVHRDIKGGNILLTEQGEVKLGDFGVAAQLTRTMS
KRNTFIGTPHWMAPEVIQE NRYDGKVDVWALGVSAIEMAEGLPPRSSVH
PMRVLFMISIEPAPMLEDKEKWSLVFHDFVAKCLTKEPRL RPTAAEMLK
HKFVERCKTGASAMSPKIEKSRQIRATMALQAQSVVAPSLEDTSTLGPKS
SEELGITVPSK PPQNSTEAPLTSTLNRQHITGNTVLAGEGGDFGTMIVH
GEDETEESDSRSQLVREKESSSSQFEGVPREF PGEELPDSWIHDKKKPP
AIDLPVEASISQSMQASSSHEHRTKLHNIAGTQMEGGSDASGSTLKNETV
GRK AFALQDKLWSIYAAGNTVPIPFLRATDISPIALLSENMIGGMQQDG
NGTVAVEALQELFTSSDPQSKKGR RGQNEMPLPPSVYQRLTTSSSLMNL
AQVLAYHRACYEEMPLQELQATQEQQTIQNLCDTLRTILRL
BlastP analyse.
Score E Value Sequences producing
significant alignments gi2352084gbAAB68776.1
(U96613) serine/threonine kinase ... 1324
0.0 gi12061243gbAAG45491.1 (AY013245) 36I5.3
Oryza sativa 659 0.0 gi3114674gbAAC15972
.1 kinase Dictyostelium discoideum ... 282
1e-74 gi7302511gbAAF57595.1 CG7097
Drosophila melanogaster ... 272
2e-71 gi12643529spO00506ST25_HUMAN
SERINE/THREONINE PROTEIN K... 271 2e-71
18Kun 10-15 av genene i Arabidopsis thaliana er
annotert og karakterisert eksperimentelt (ikke
maskinelt). Over 30 av genene er uklassifiserte,
hypotetiske, ukjente.
19Sammenligning av Arabidopsis genom med ulike
andre kjente genom
20Sammenligningen mellom Arabidopsis thaliana
genomet og de kjente genomene fra
cyanobakterier, gjær, bananflue og nematode,
viser bl. a.
Antall gener som er involvert i cellulær
kommunikasjon og signaloverføringer en hel del
høyere i multicellulære organismer. Planter har
utviklet en rekke unike transkripsjonsfaktorer
som ikke finnes i animalia / fungi. En rekke av
Arabidopsis proteinene som er inkludert i
kategoriene energi og metabolisme har høy
homologi med bakterielle proteiner
(cyanobakterium). Arabidopsis inneholder rundt
11000 typer genfamiler eller singletons, noe
som er relativt likt det vi finner i Drosophila
og C. elegans. Arabidopsis og planter generelt
har utviklet unike signaltransduksjonsspor som en
ikke finner i animalia og gjær. Arabidopsis har
f. eks. ikke komponenter som inngår i de kjente
signalsporene
- Reseptor tyrosin kinaser / ras pathway -
Nukleære steroid hormon reseptorer - Wingless /
wnt
- Notch / lin12 - JAK / STAT signal sporet
21Arabidopsis genomet inneholder en rekke store
duplikasjoner og gener som er duplisert i tandem.
Dette betyr at mange gener har en eller flere
paraloger. Omfanget av disse duplikasjonene er
så store at enkelte har foreslått at
forløperen til Arabidopsis thaliana var
tetraploid og at den senere har blitt
diploidisert.
22Nærmere studier av disse duplikasjonene tyder på
at de skyldes fem (eller flere) store
duplikasjoner (ev. genom duplikasjoner) som
skjedde for ca. 50, 100, 140, 170 og 200
millioner år siden. Disse duplikasjonene
korresponderer ganske bra med tidsepokene når f.
eks monocots (en frøbladet) og dicots (to
frøbladet) oppsto (ca. 120 - 150 millioner år
siden) eller når splittelsen mellom rosids og
asterids oppsto (ca. 90 millioner år siden).
Med bakgrunn i denne informasjonen kan en nå ha
en viss oversikt over hva en kan forvente å finne
i andre planter. Informasjonen i fra Arabidopsis
genomet viser også hvor dynamisk plante genomene
er. Store rearrangeringer av genomene
(duplikasjoner og delesjoner) er vanlige og
ekspansjon av genfamilier gjenom tandem
duplikasjoner er vanlig.
23Eksempel på gen duplikasjoner i Arabidopsis
thaliana
24Andre observasjoner
Gener som inngår i DNA replikasjon og DNA
reparasjon er forholdsvis nært lokalisert på
kromosom. Tilfeldighet eller har plantegenomet
fremdeles en operon lignende struktur / gener
samlet i større regulon. Det er indikasjoner på
at gener er lokalisert i funksjonelle gen
cluster, DNA reparasjon, planteforsvar,
metabolske spor osv. Å plassere gener som inngår
i samme prosesser fysisk nær hverandre kan av
og til være fordelaktig. Ko-regulering av gen
transkripsjon for eksempel.
Gener en ikke finner i Arabidopsis men som
eksisterer i gjær og animalia
- Cdc42, regulator av cellepolaritet og
signaltransduksjon - Cdc25 fosfotyrosin
fosfatase, celledelings-regulator - Bcl2,
apoptose regulator - DH domene proteiner, Rho
guanin utbyttingsfaktorer
- Ras GTPase (signaltransduksjon) - Rel /
NF-kappaB family - Septin GTPase (celle deling)
25Hva nå? Big ideas from a small plant
I de neste 1-3 årene
Man vil prøve å generere knockout mutanter av de
fleste genene i Arabidopsis. Disse metodene er
basert på at T-DNA ev. et transposon setter seg
inn i et gen og slår ut funksjonen. Over
halvparten av genene er tilgjengelige som
T-DNA knockout allerede i dag.
riboflavin kinase T-DNA knockout
26Gener som ikke lar seg slå ut ved standard T-DNA
eller transposon knockout vil bli forsøkt
nedregulert ved hjelp av RNA interferens (RNAi).
RNA avhengig RNA polymerase
27Stor skala analyser av genekspresjon ved hjelp av
DNA mikroarrays er allerede i gang og vil være et
nyttig verktøy for å få oversikt over
hvilke gener som er uttrykt i de enkelte vev,
indusert og ikke indusert.
28Hvor går Arabidopsis forskningen de neste 3-10
årene.
Stor skala analyse av protein interaksjoner, ved
bruk av gjær to hybrid system. Analyse av protein
interaksjonsnettverk
29Hvor går Arabidopsis forskningen de neste 3-10
årene.
Lage komplette samlinger av full lengde cDNA. Pr.
dato er over 10,000 cDNA kloner
tilgjengelige. Uvurderlige for protein
interaksjonsstudier.
Bestemme biologisk funksjon for alle proteiner.
Karakterisere cis regulatoriske sekvenser i alle
gener. Dvs. stor skala promoter analyser.
Utvikle bioinformatikk verktøy, visualisering og
modelleringsmetoder som integrerer
all biologisk informasjon fra Arabidopsis. The
virtual plant.