Filogenesi molecolare. Geni ortologhi e geni paraloghi Geni ortologhi: geni simili riscontrabili in organismi correlati tra loro. Il fenomeno della speciazione.

  • Published on
    02-May-2015

  • View
    214

  • Download
    1

Embed Size (px)

Transcript

  • Slide 1
  • Filogenesi molecolare
  • Slide 2
  • Geni ortologhi e geni paraloghi Geni ortologhi: geni simili riscontrabili in organismi correlati tra loro. Il fenomeno della speciazione porta alla divergenza dei geni e quindi delle proteine che essi codificano. es. l -globina di uomo e di topo hanno iniziato a divergere circa 80 milioni di anni fa, quando avvenne la divisione che dette vita ai primati e ai roditori. I due geni sono da considerarsi ortologhi. Geni paraloghi: geni originati dalla duplicazione di un unico gene nello stesso organismo. es. -globina e -globina umana hanno iniziato a divergere in seguito alla duplicazione di un gene globinico ancestrale. I due geni sono da considerarsi paraloghi.
  • Slide 3
  • Gene A Gene ancestrale Gene B Gene B1 Gene A1 Gene A2 Gene B2 duplicazione genica speciazione ortologhi paraloghi Specie 1Specie 2
  • Slide 4
  • Distanze genetiche Per la distinzione filogenetica di due sequenze, necessario conoscere quanto esse divergono. Serve quindi un parametro ripetibile, la distanza genetica. Numero di sostituzioni osservate nellallineamento Distanza = --------------------------------------------------------------- Lunghezza complessiva dellallineamento Ottengo cos il Numero di Sostituzioni per Sito che pu essere una sottostima della distanza vera perch le mutazioni possono anche essere REVERSIONI ed avvenire sullo stesso sito (sito con multiple hits). per le proteine si usa spesso d = - ln ( 1 - p - 0,2 p 2 ) (kimura) d: distanza p: frazione di amino acidi differenti
  • Slide 5
  • Proteine o acidi nucleici? Sequenze proteiche: - necessitano di matrici si sostituzione 20x20, molto complesse da trattare. - sono espressione di sole regioni codificanti. - aminoacidi identici possono essere espressione di pi codoni Sequenze nucleotidiche: - sono descrivibili con matrici 4x4. - possono essere estratte da sequenze genomiche non codificanti - non hanno degenerazione n ridondanza. => Per la filogenesi molecolare preferibile utilizzare le sequenze nucleotidiche
  • Slide 6
  • Assunzioni a priori Per formulare un modello evolutivo necessario considerare alcuni aspetti generali che possono essere considerati assunzioni a priori del modello: 1. tutti i siti evolvono in modo indipendente 2. tutti i siti mutano con la stessa probabilit 3. tutte le sostituzioni sono ugualmente probabili 4. la velocit di sostituzione costante nel tempo 5. la composizione delle basi costante in generale si pu affermare che: maggiore il numero di assunzioni a priori - maggiore la semplicit del modello - minore lattendibilit dei risultati
  • Slide 7
  • Alcuni modelli proposti JC69 - Jukes & Cantor (1969). Assunzioni: 1,2,3,4,5. KIM - Kimura (1980). Assunzioni: 1,2,4,5. Tamura (1992). Assunzioni: 1,2,4. F81 - Felsenstein (1981). Assunzioni: 1,2,3,4. Hasegawa (1985). Assunzioni: 1,2,4. GTR Lanave (1984). Assunzioni: 1,2. Il modello GTR il pi complesso possibile, compatibilmente con una trattazione matematica adeguata. Tutti i modelli richiedono per che la composizione in basi sia stazionaria, altrimenti non possono essere applicati. Bisogna quindi verificarlo prima.
  • Slide 8
  • Lorologio molecolare Levoluzione un processo inevitabilmente divergente e il numero di mutazioni che si accumulano nel tempo direttamente proporzionale al tempo intercorso dalla divergenza delle sequenze in analisi. (1965, Zuckerkandl e Pauling). Se questo vero, data una distanza genetica calcolata osservando le divergenze, possibile ottenere il tempo trascorso dal momento in cui due sequenze hanno cominciato a divergere. Inoltre, se la velocit di accumulo delle mutazioni costante, possibile la datazione degli organismi in base a un solo dato verificato di distanza temporale. K K es. Distanza uomo topo: 80 milioni di anni V = ----- => t = ------ Distanza tra le alpha-globine: 0.093 2t 2V V = 0.56 x 10 -8 sostituzioni/sito anno => anche se lorologio molecolare vero, non universale, perch siti diversi hanno diversi tassi di mutazione.
  • Slide 9
  • Alberi filogenetici Sono grafi costituiti da NODI, che rappresentano le unit tassonomiche e da RAMI che uniscono i nodi, rappresentando le distanze tra i due. Si definisce TOPOLOGIA la struttura generale di un albero. Se ai rami non si d valenza di distanza evolutiva, ho un CLADOGRAMMA, altrimenti ho un FILOGRAMMA. Alberi CON RADICE: accetta come vera lipotesi dellorologio molecolare e i nodi stanno in un preciso ordine temporale. Alberi SENZA RADICE: non prevede significato evolutivo in termini temporali. radice A B C D E F A B C D E F nodo ramo
  • Slide 10
  • Daterminazione della topologia E il primo passo dellanalisi filogenetica. Il numero complessivo di alberi che si possono costruire con N sequenze (denominate OTU, cio operational taxonomic units) Rooted: Unrooted: (2N - 3)! Nr = ---------------- 2 N-3 (N - 3)! (2N - 5)! Nu = ---------------- 2 N-3 (N - 3)! es. 10 OTU = ((2*10)-3)! / 2 7 (7)! = circa 35 milioni
  • Slide 11
  • Metodi per la crezione degli alberi Metodologie: Algoritmi di clusterizzazione (UPMGA, Neighbour Joining): si basano sullosservazione delle distanze genetiche calcolare in precedenza. Algoritmi di ottimizzazione (Minima evoluzione): ottimizzazione degli alberi in base a criteri obiettivi di qualit. Origine dei dati: Sequenze omologhe multiallineate: tempi di calcolo molto maggiori Distanze genetiche pre-calcolate: tempi di calcolo minori,
  • Slide 12
  • UPGMA: (Unweighted Pair Group Method with Aritmetic mean) E il metodo pi semplice. Assume lorologio molecolare. Calcolata una matrice di distanze, vengono prese le OTU pi simili, raggruppare e ricalcolata la matrice di distanze. La prima coppia viene clusterizzata con quella che ha distanza minore con esse. Il punto di mezzo nellalbero il nodo tra i clusters, la lunghezza del ramo la distanza che separa i vari elementi del cluster. Chimp Human Gorilla Owl monkey Spider monkey 0.007 0.018 0.009 0.027 0.030 0.018
  • Slide 13
  • Neighbour-Joining Si parte da una topologia a stella. Tra OTU vicine introduce un ramo corrispondente alla distanza tra le due, e ripete linserimento di rami per tutte le coppie di OTU. Tra tutti gli alberi possibili viene via via scelto quello che ha il totale di lunghezza dei rami monore. B C A D E F B A C D E F B A C D E F 1 2 n
  • Slide 14
  • Massima parsimonia Non si lavora pi con le distanze ma con le sequenze: si cerca lalbero che richiede il minor numero di sostituzioni che spieghino le differenze osservate tra le sequenze in analisi. Non si lavora su tutti i siti del multiallineamneto, ma solo su alcuni SIGNIFICATIVI, cio che presentano almeno 2 residui uguali. 1 2 3 A ATGCATAGCAGCATGCATCG B ATGCATAGCAGCTTGTTTCG C ATCCATACCAGCATGTGTCG D ATCCATACCAGCTTGTTTCG G G C C A B C D G C G A D B C G C G A C B D CC GCCC T A A B C D A T T A D B C A A C B D T T TTAT T C A B C D G C G A D B C G A C B D TT GCGT AA AT AGAT 1 23
  • Slide 15
  • Massima verosimiglianza Per ciascun sito del multiallineamento si calcola la probabilit che esso sia generato da un preciso albero. Estendendo la ricerca di probabilit a tutti i possibili alberi, ottengo lalbero a maggior probabilit di rappresentare il multiallineamento. E il metodo pi corretto di valutare le significativit degli alberi, ma ha un grosso limite: L enorme mole di calcolo per ottenere il risultato => impossibile ottene risultati per multiallineamenti di pi di 20-30 sequenze Sono stati prodotti vari metodi di approssimazione, tra cui uno detto quartet puzzle (QP) in cui si fanno operazioni su gruppi di 4 sequenze, e i risultati vengono intersecati tra loro.
  • Slide 16
  • Bootstrapping E un metodo relativamente semplice per determinare la significativit di un risultato derivante da una analisi complessa: Si tratta di un RICAMPIONAMENTO casuale di sequenze a cui vengono applicate le stesse procedure applicate alle sequenze vere. In questo modo ottengo due valori: - uno effettivo, quello delle sequenze in analisi - uno che rappresenta il valore che otterrei con un campione casuale. Dal loro confronto possibile ottenere una stima della veridicit del risultato. Maggiore il numero di operazione di bootstrapping, maggiore lattendibilit dei valori. Maggiore la percentuale di risultati di bootstrapping che si accordano col risultato vero, maggiore la precisione della stima del valore vero.
  • Slide 17
  • Principali programmi per lanalisi filogenetica PHYLIPPHYLIP: un pacchetto di programmi curati da Joseph Felsenstein che non hanno interfaccia grafica. Sono programmi rapidi, efficienti e versatili, ma un po scomodi da utilizzare a causa della diversit dei formati di file utilizzati e dellapproccio di separazione delle varie fasi. PAUPPAUP: come Phylip, ma con un numero maggiore di test statistici per la validazione degli alberi. Ma si paga. MarkovMarkov: effettua il calcolo delle distanze genetiche utilizzando il modello GTR e effettua il test di stazionariet della composizione del dataset. E on-line, ma per utilizzarlo bisogna registrarsi.
  • Slide 18
  • Principali programmi per lanalisi filogenetica MrBayesMrBayes: utilizza per il calcolo delle distanze un metodo introdotto recentemente di inferenza bayesiana, che sta dando ottimi risultati in termini di qualit degli alberi generati. MEGAMEGA: attualmente il programma pi completo e facile da usare possibile. Ha uninterfaccia grafica molto intuitiva, una serie di strumenti grafici per la comprensione dei riusultati e comprende numerosi approcci per il calcolo delle distanze, per la costruzione degli alberi e per per la valutazione dellattendibilit con numerosi test statistici. Inoltre il manuale di Mega molto completo, quasi un libro sulla filogenesi molecolare. PhyloWinPhyloWin: dotato di interfaccia grafica, piuttosto semplice e consente analisi con i metodi presenti anche in Phylip e PAUP.

Recommended

View more >