Часть I. Структурная геномика: выравнивание последовательностей

  • Published on
    11-Jan-2016

  • View
    83

  • Download
    3

Embed Size (px)

DESCRIPTION

I. : . . : D.W. Mount. Bioinformatics. Sequence and Genome Analysis. NY, Cold Spring Harbor, 2001. - PowerPoint PPT Presentation

Transcript

  • I. :

  • :D.W. Mount. Bioinformatics. Sequence and Genome Analysis. NY, Cold Spring Harbor, 2001.A.D. Baxevanis, B.F.F. Ouellette (eds.). Bioinformatics. A Practical Guide to the Analysis of Genes and Proteins. NJ, Wiley, 2005.

  • :

  • (multiple alignment)

  • : , , , -

  • :

  • :

  • :

  • : : , : , , -

  • : (.):

  • : () , ( ): (HMM) ,

  • : (1/2) , - / - ( ) ./. -

  • : ? !

  • : - !

  • : vs. , ? ,

  • TFs = - ( ) ( ) ( , ) ( )

  • : 4 -

  • : - - - ( ) - ( ) (patterns)

  • : 1987 . Sankoff (1975 1987) Barton (1990) , AMPSRussel & Barton (1992) , STAMPThomson et al. (1994) ClustalWAltshul et al. (1997) PSI-BLASTNotredame et al. (2000) , T-CoffeeClamp (2004) - JalView

  • ( )

  • MSA (Lipman et al., 1989) (Gupta et al., 1995): Nm m - N MSA (sum of pairs, SP) Carrillo & Lipman (1988) ClustalW / ClustalX Gupta et al. (1995)

  • :

  • : (.)

  • (.) (SP score) = () -. = ( MSA) ( . -) - = i ( , )MSA: PAM250, (6-8)

  • R.B.Russel & G.J.Barton (1992). Proteins 14, 309-323.

  • SP SP:

    C N - BLOSUM62

  • : BLOSUM62

  • SP SP: - (BLOSUM62)9(n-1)/[6n(n-1)/2] = = 3/n

  • Z-: Z = (S - )/ Z > 6 Z < 6 Z

  • (.)

  • : ? ( ) :

  • : , ...:

  • : ... !!

  • :

  • :

  • : (1)

  • : (2)

  • : (3)

  • . , , + , / (fold) () > 25%

  • : Structural Classification Of Proteins (SCOP)http://scop.stanford.eduhttp://scop.mrc-lmb.cam.ac.uk/scop/

  • : SCOP (.)

  • : SCOP (.)

  • : SCOP (.)http://scop.stanford.eduhttp://scop.mrc-lmb.cam.ac.uk/scop/

  • ? : () : , , STRUCTAL (Levitt, Subbiah, Gerstein)DALI (Holm, Sander)LOCK (Singh, Brutlag) (Nussinov et al)

  • : STRUCTAL ( -, , , ) , (-), : 2-4, , ,

  • : STRUCTAL (.) : ,

    S(d) = M { 2 / [1 + (d/d0)2] 1}

    M , d (e.g. ), d0 d, M = 0 0 d d0 , d > d0 -

  • : STRUCTAL (.)

  • : STRUCTAL (.)

  • : LOCK :

  • : LOCK (.)

  • : LOCK (.)

  • : LOCK (.) , , , ...

  • : LOCK (1)

  • : LOCK (1a)

  • : LOCK (1b)

  • : LOCK (2)

  • : LOCK (3)

  • : - //

  • : - - / -Waterman & Perlwitz (1984)Feng & Doolittle (1987, 1996)Higgins et al. (1996) -:

  • / (-) : ClustalW/X PILEUP?} ?

  • , - x y, px py presult , xwyzpxypzwpxyzw

  • (.) : D, D(x, y) , (UPGMA / / ) xwyz?

  • : ( ) k- (a la FASTA) (Myers & Miller, 1988) = ( ) / ( )

  • : (.) - ( ) ( ) (Pascarella & Argos, 1992) , - Clustal (1988) MSA -,

  • :

  • : ClustalXDCSE

  • : - ClustalW: Pascarella & Argos (1992):

  • : (.) - - - ,

  • ClustalW:

  • : - (e.g. HMM) -

  • :

  • : ALSCRIPT (1993)

  • : AMAS (1993)

  • : -, ( ) ? / K-out cross validation (KOCV)

  • : MultAlin (Corpet, 1998) PRRP (1994) MSA (: + ) , ,

  • :- PRRP

  • : (.)DIALIGN ( ) SAGA (Notredame, Higgins, 1996)Zhang, Wang (1997)

  • : (SAGA) (SAGA) > 20 -

  • : 100 20-25% - (SP) - / , 50 % ( ) 50%: ~ -1 50%

  • : (.)

  • : (.)

  • : (.) => , , , 50% 50% // 100-100

  • :

  • : :MSA - -MSA - -MSA , , - ( Profilesearch) ( Profilegap)

  • : (hsp70) ()

  • : MSA 20 (PAM, BLOSUM)

  • : PAM , MSA H = - a falog(pa) f p MSA H 20 (PAMn) n = argmin (H) P(Ma|F) = P(Ma) x P(F|Ma) / a P(Ma) x P(F|Ma)

  • : 34

  • : MSA - : Gribskov & Veternik, 1996 - : , - MSA

  • - 21 N N

    EMBED Word.Picture.8

    _1001702465.unknown

  • - see Russ Altman, Lecture 4-27-06, pp. 8-20

  • (Expectation Maximization, EM) - - - : - :

  • : -

  • : - , , k-

  • : (.)- - =

    -

  • : , , MEME (Multiple EM for Motif Elicitation), UCSD Supercomputing Center -ParaMEME ( )MetaMEME (HMM)

  • (Gibbs sampler)Lawrence, CE et al. (1993). Detecting subtle sequence signals: a Gibbs sampling strategy for multiple alignment. Science, 262, 208-14. - ( -) , EM - -

  • : (.)

  • : wBase\Position 1 2 3 4 w A 0.7 0.05 0.2 ... T 0.1 0.05 0.2 ... G 0.1 0.1 0.59 C 0.1 0.8 0.01 0.8

    : A 0.3, T 0.3, G 0.2, C 0.2:

  • : 1 (): -, = = : W = Pmotif/Pbgrd max W 2 ( ): - 1 2 -

  • : 1

  • : 2a

  • : 2b

  • : 2b, p - j- p (s[p+j] = i) j ?

    j = { nj (s[p + j]) + i } / (n* + *)

    s[p + j] -- i p s nj(i) i j n* -- , j = i i , - p Fit (p) = i / background

  • : 2b

  • : 2c (sampling) Fit(p)

  • : 2c (sampling) Fit(p)

  • : 2d

  • :

  • : (.)

  • : 3 n - : -,

  • : ? , ,

  • (HMM)

  • (Markov Models): Krogh et. al. (1994). Hidden Markov models in computational biology: applications to protein modeling. J. Mol. Biol. 235, 1501-1531.

    : P(X0, X1, , Xt) = P(X0) P(X1|X0) P(Xt|Xt-1)

    :

  • : (.) - , S0 , S1, S1, S1, S0 , S1, -:P(Sequence) = P(S0 , S1, S1, S1, S0 , S1,)= (S0) P(S1 | S0 ) P(S1 | S1) P(S1 | S1)

  • :

    P(AGATCG) = (A) P(G|A) P(A|G) P(T|A)

  • (Hidden Markov Models) - - (), - -

  • : ? ? ( ) ? -, , ?

  • : . (2)

  • : . (1)m = -i = (N-1) , d =

  • : . (2)

  • : . (3)

  • HMM V L S A E E K A N V K A G H T P A - W QAK L C T S

    m- - 20 i- , d- m,i,d

  • HMM: HMM

  • : . Sequence Alignment and Modeling (SAM)Krogh et al. (1994), Hughey & Krogh (1996)HMMEREddy (1998)Pfam Sonhammer et al. (1997)

  • : - O1, O2, , Ot P(O1, O2, , Ot) - O1, O2, , Ot max P(Q1, Q2, , Qt|O1, O2, , Ot)O , Q - {S1, S2, , SN} max P(Si)

  • : - HMM 20-100 - - HMM - - - forward-backward Baum-Welch ( Viterbi, ) - (HMM -) - ORF

  • : - -, > 50 - PAMBLOSUM (Sjlander, 1996) -, HMM (simulated annealing)

    11111111111111111111111111111111111111111111111111111111