L’espressione genica e il ?· Geni ad espressione costitutiva (housekeeping) Geni ad espressione condizionale…

  • Published on
    17-Feb-2019

  • View
    212

  • Download
    0

Embed Size (px)

Transcript

Lespressione genica e il trascrittoma

Trascrittoma

Insieme degli RNA messaggeri prodotti da

una determinata popolazione cellulare.

Per ogni tipo cellulare diverso sono

espressi allincirca 10000 geni diversi.

Proteoma

Insieme delle proteine prodotte da una

determinata popolazione cellulare.

Genoma

Insieme delle informazioni genetiche che caratterizzano un organismo.

Differenziamento cellulare

ESPRESSIONE DEL GENOMA UMANO NELLE

CELLULE DIFFERENZIATE

Tutte le cellule di un organismo hanno lo stesso

corredo genomico

Lespressione genica tessuto specifica determina il

fenotipo morfo-funzionale dei tipi cellulari e

tissutali

In ogni cellula differenziata ed in ogni particolare

momento dello sviluppo e attivo solo un

sottoinsieme di geni

Geni ad espressione costitutiva

(housekeeping)

Geni ad espressione condizionale

(inducibili, reprimibili)

Geni specializzati (tessuto-specifici,

stadio-specifici, che a loro volta possono

essere costitutivi o condizionali)

In tutti gli organismi viventi le informazioni contenute

nel genoma non si esprimono contemporaneamente, e

sono finemente regolate

REGOLAZIONE DELLESPRESSIONE GENICA

Puo agire su ciascuno dei livelli che caratterizzano il

passare dellinformazione genica dal DNA alle proteine

Negli Eucarioti superiori la regolazione dellespressione

genica si svolge principalmente come controllo della

trascrizione

Principali tipi di regolazione:

Controllo epigenetico

Controllo trascrizionale

Controllo post-trascrizionale

Attivazione/inattivazione dellespressione

genica negli eucarioti:

Decisioni cellulari durante lo sviluppo: ad es. differenziamento (geni accesi/spenti)

Regolazione del ciclo cellulare (attivazione e inattivazione ciclica)

Attivazione cellulare in risposta a mediatori esterni quali fattori di crescita, ormoni etc. (reversibile, rapida)

One-gene approach

Il gene di interesse e espresso in un tessuto o in un dato momento

dello sviluppo ? Quanto e attivo dal punto di vista trascrizionale ?

Profilo despressione del genoma

(TRASCRITTOMA)

Quali geni sono espressi in un tessuto ed in un dato momento dello

sviluppo ? Quanto ciascuno di essi e attivo dal punto di vista

trascrizionale ?

Large-scale approach

Real Time PCRPCR semiquantitativaIbridazione DNA genico o cDNA con RNA

totale o poly(A)+RNA (Northern blot)Ibridazione in situ

Metodi per lo studio su larga scala

dellespressione genica

Sequenziamento sistematico di ESTs da librerie di

cDNA

cDNA microarrays

SAGE (Serial Analysis of Gene Expression)

Preparazione librerie cDNA

Clonati in

batteri

Il sequenziamento del DNA codificante si basa sulla

purificazione dell'RNA messaggero da cellule o da

campioni di tessuto e sulla sua retrotrascrizione in vitro

in una sequenza di DNA complementare (cDNA).

In genere i cDNA vengono frammentati e clonati in

vettori batterici. Si ottengono in questo modo delle

collezioni di batteri, nelle quali ogni colonia contiene un

inserto corrispondente ad un frammento di sequenza di

un gene espresso, dette librerie di cDNA.

Sequenziamento librerie cDNA

AAAAA

cDNA a doppio

filamento

TTTTTRT

AAAAA

TTTTTRT

RTAAAAATTTTT

Il primer oligo

dT lega mRNA

La trascrittasi

inversa copia il

primo strand di

cDNA

La RT digerisce e

stacca mRNA e

copia il secondo

strand cDNA

Conversione dellmRNA in cDNA per trascrizione inversa

Sequenziamento librerie cDNA

Primers

universali

Scoprire lesistenza di nuovi geni

Associare lespressione di geni a linee cellulari e tessuti diversi

Determinare la sequenza completa dei trascritti

5EST 3EST

200~500 nucleotidi

cDNA

sequencing sequencing

Cosa sono le Expressed Sequence Tags

(EST)?

Mapping back to

chromosome sequence

5EST 3EST

Chromosome

sequence

Cosa sono le Expressed Sequence Tags

(EST)?

LeESTs sono piccoli frammenti di sequenze di DNA (200-500 nt) generati per sequenziamento di una o entrambe le estremit di un gene espresso. Lidea sequenziare porzioni di DNA che rappresentano i geni espressi in determinate cellule, tessuti e organi da differenti organismi e usare queste tags per individuare un gene su una porzione di DNA cromosomico per appaiamento di basi. Identificare i geni con questo metodo pu essere complicato dalla presenza di introni.

Cosa sono le Expressed Sequence Tags

(EST)?

Tipo di cDNA

N

di cop

ieNormalizzazione delle librerie di cDNA

Tipo di cDNAN

di cop

ie

Supponendo di avere il cDNA di 8 geni espressi con intensit diversa, mostriamo il

grafico dellabbondanza di copie di cDNA prima e dopo la normalizzazione della

libreria.

Si perdono le informazioni sul livello di espressione dei geni, si usa per scoprire

nuovi geni.

Al fine di trovare con la stessa probabilit sia le sequenze abbondanti che quelle

rare si attua una normalizzazione delle librerie di cDNA. Per far questo si sfrutta il

fatto che i cDNA pi abbondanti, si appaiano o ibridizzano pi rapidamente e

possono essere rimossi dallinsieme di cDNA di partenza. In questo modo

linsieme rimanente si svuota delle sequenze pi abbondanti ovvero si arricchisce

di quelle pi rare.

I microarray di cDNA

Esperimenti microarray

5 fasi:

spotting del DNA sonda

preparazione cDNA target

ibridazione

lettura (SCAN)

analisi statistica e gestione

dati

Identificazione della posizione

degli spot

Costruzione di unarea locale

intorno ad ogni spot

Calcolo dellintensit di ogni

singolo spot (mediana

dellintensit dei pixel)

Calcolo del background locale

Acquisizione immagini da microarray cDNA

Come si misura lespressione dei geni?

Metodo del campione di riferimento

Calcolare il rapporto tra le intensit della fluorescenza, dopo adatte

trasformazioni, per due campioni analizzati tramite ibridazione

competitiva sullo stesso microarray. Un campione funziona come

controllo, o campione di riferimento ed marcato con un colorante

che ha uno spettro di fluorescenza diverso dallaltro.

Per convenzione una induzione (o repressione) dellespressione genica

pari a due volte il livello di espressione nel campione di riferimento

indica un cambiamento significativo.

Gene 1

Gene 2

= malato

= sano

Metodo del campione di riferimento

Normalizzazione per intensita' totale

Normalizzazione con metodi di regressione

Normalizzazione con metodi di rapporto

Molte variabili possono influire sui risultati necessaria una

normalizzazione dei dati per eliminare distorsioni sistematiche

Normalizzazione dei dati

efficienza diversa delle due marcature;

diverse quantit di mRNA per un canale e per laltro (Cy3 e Cy5);

diversi parametri di scansione;

bilanciamento dei laser;

effetti di punte, effetti spaziali o di supporto.

Intensit totale: assume che la quantit iniziale di mRNAsia identica nei due campioni.

Le fluttuazioni sono bilanciate in modo che

la quantit totale di RNA che si lega allarray

per ogni campione sia la stessa.

Nelle situazioni di sbilanciamento pu essere

calcolato un fattore di normalizzazione in grado

di ricondurre alla situazione di uguale intensit

totale.

Metodo di regressione:Assume che usando mRNA di campioni

simili, la maggior parte dei geni sia espressa

allo stesso livello.

In uno scatterplot i geni si raggruppano

lungo una linea la cui pendenza 1.

Prevede la ricerca della migliore

interpolazione con metodi di regressione

Metodo del rapporto:assume che la quantit totale di RNA

prodotto sia circa la stessa per geni essenziali

come gli housekeeping.

E possibile sviluppare una funzione di

probabilit approssimata per il rapporto tra

i due canali, utilizzata sia per normalizzare

i dati sia per identificare geni espressi

differenzialmente.

Matrice di dati

righe = espressione del singolo gene in diverse condizioni

colonne = rappresentano le condizioni analizzate

Ad ogni cella si assegna il valore relativo di espressione:

rapporto tra lintensit di un gene a una data condizione rispetto

alla condizione standard (i dati sono trasformati come log in base2)

Metodo dellANOVAAnalisi statistiche pi rigorose

Un gene viene considerato differenzialmente espresso se la sua

espressione genica si discosta dalla situazione di uguale espressione

nei due canali in modo significativo.

Identificazione di geni differenzialmente espressi

metodo del valore soglia: valori > valore soglia positivo sovraespressivalori < valore soglia negativo sottoespressi

il valore soglia ottimale dipende dalla qualit dei dati: usare controlli di qualit

interni per determinare la soglia di confidenza.

Metodo dellANOVA (analisi della varianza)

Sviluppata per verificare la significativit delle differenze tra le medie aritmetiche

di vari gruppi.

Confronto simultaneo tra due o pi medie.

I dati vengono trasformati in log2 e i canali normalizzati, quindi viene utilizzato il

metodo dellANOVA:

sono necessarie numerose repliche per ogni esperimento

non c bisogno di un campione di riferimento

1 2 3 4

1

0

-1

Ripetizione dellesperimento

Liv

e ll o

di

e sp

r es s

ion

e st

a nd

a rd

i zz a

to

GeneChip Affymetrix

Ibridizzazione della sonda marcata Scansione del GeneChip con scanner laser

Microarray a oligonucleotidi

Elaborazione dei dati

Microarray a cDNA e a oligo:

2 tecniche a confronto

Microarray a oligo:

si possono analizzare un n > di geni

variabilit minore da chip a chip

non sono necessari macchinari, si

possono acquistare

possono essere confrontati dati di

diversi gruppi di ricerca

Microarray a cDNA:

applicabili a qualunque organismo

pi economici = pi repliche

pi flessibili per progettazione

sperimentale

libridazione su migliaia di basi

( non decine)

Estrazione di dati da microarray

Qual il senso biologico dei dati?: individuare geni con profili

di espressione simili e riunirli in gruppi.

Il raggruppamento implica la co-regolazione, quindi i geni sono

coinvolti in processi biologici simili.

Oltre a descrivere la risposta dei geni ai diversi trattamenti,

lanalisi dei microarray descrive i livelli di regolazione coordinata

dellespressione genica su scala genomica.

Pu portare a formulare ipotesi di funzione per geni sconosciuti.

Metodi di clustering: sono metodi di statistica multivariata che

raggruppano unit statistiche sulla base di misure di similarit/

dissimilarit.

Estrazione di dati da microarray

Simili rispetto a cosa ?

Definizione di distanzadistanza

I geni sono punti nello spazio:

punti vicini nello spazio sono raggruppati insieme

Correlazione di Pearson:

raggruppa geni che hanno andamenti simili

indipendentemente dal livello di espressione che

hanno.

Distanze

Distanza Euclidea:raggruppa geni che hanno andamenti similia livelli di espressione simili.

Algoritmi di clustering

Gli algoritmi di clustering si basano sulla misura di vicinanza scelta. Ogni

algoritmo caratterizzato dal metodo utilizzato per identificare i gruppi

omogenei di elementi

Gerarchici

Non Gerarchici

Divisivi

AggregativiAlgoritmi per il Clustering

Gerarchici: non necessitano di informazioni a priori (botton-up)

Non-gerarchici: cercano di raggruppare gli elementi in un numero predefinito k

di gruppi (top-down)

Divisivi: da un unico cluster con tutti gli elementi procede dividendolo in

cluster pi piccoli

Aggregativi: partono con tanti cluster quanti sono i geni e procedono raggruppandoli

in cluster sempre pi grandi

Lalgoritmo semplice

1. Calcola la matrice di distanze a coppie

2. Allinizio, ogni punto un singolo cluster

3. Unisci i cluster pi vicini

4. Aggiorna la matrice di distanze

5. Ripetere i punti precedenti fino a quando rimane un singolo

cluster

Loperazione chiave il calcolo della vicinanza tra due cluster

Questo concetto di vicinanza costituisce la differenza

principale tra algoritmi differenti

Tipico algoritmo gerarchico agglomerativo

Esempio di calcolo clustering gerarchico

Come calcolo le nuove distanze?3 metodi:

Legame semplice

Legame completo

Legame intermedio

k-means

Procedura iterativa:

1. Scegli un numero di classi

2. Assegna gli oggetti alle classi

(a caso o in base ad unaltra classificazione)

3. Sposta gli oggetti nelle classi il cui centroide

pi vicino (la varianza intra-classe diminuisce)

4. Ripeti lo step 3 finch non c pi nessun

cambiamento nella composizione delle classi

Algoritmi non-gerarchici

Cercano di raggruppare gli elementi in modo tale che siano il pi possibile

omogenei allinterno dei cluster e il pi possibile disomogenei tra i vari cluster

Risultati del clustering gerarchico

La PCA una tecnica per la riduzione del numero di variabili

casuali che descrivono un fenomeno. Lobiettivo e quello di

identificare un sottoinsieme di variabili casuali dalle quali

dipende la maggiore varianza (variabilit) del fenomeno

Analisi Componenti Principali (PCA)

OBIETTIVI

Ridurre la dimensionalit di un dataset,

composto da p variabili tra loro correlate;

Trovare relazioni non precedentemente

sospettate tra le variabili.

Determinazione abbondanza assoluta

La tecnica dei microarray non fornisce dati sui livelli assoluti di espressione:

un metodo per determinare labbondanza assoluta di ciascun trascritto espresso

in una data popolazione di cellule lanalisi seriale dellespressione genica

(SAGE, serial analysis of gene expression)

SAGE un metodo sperimentale ideato per utilizzare i vantaggi del

sequenziamento su larga scala per avere informazioni quantitative di

espressione genica (Velculescu et al. 1995, Zhang et al, 1997)

Il metodo non influenzato da fattori come i campioni di riferimento, gli artefatti

di ibridazione o la frequenza dei cloni e fornisce una misura precisa del vero

numero trascritti per ogni cellula. E un metodo molto costoso e non consente

ripetizioni di esperimenti.

Taglio con enzima di restrizione ed

isolamento della porzione 3 del cDNA per

purificazione mediante sfere a streptavidina

Clonaggio dei

concatameri e

sequenziamento

Sintesi DNA a doppia elica a

partire dai messaggeri con

primer oligo(dT) biotinilato

Separazione del cDNA in 2

aliquote, ciascuna ligata con

un linker diverso, contenente

un sito di taglio per un enzima

di re...

Recommended

View more >