Articles

XtalPred: a web server for prediction of protein crystallizability

Abstract

Summary: XtalPred jest serwerem internetowym służącym do przewidywania krystalizacji białek. Przewidywanie odbywa się poprzez porównanie kilku cech białka z rozkładami tych cech w TargetDB i połączenie wyników w ogólne prawdopodobieństwo krystalizacji. XtalPred zapewnia: (1) szczegółowe porównanie cech białka z odpowiednim rozkładem z TargetDB; (2) podsumowanie cech białka i przewidywań wskazujących na problemy, które prawdopodobnie zostaną napotkane podczas krystalizacji białka; (3) przewidywanie ligandów; oraz (4) (opcjonalnie) listy bliskich homologów z kompletnych genomów mikroorganizmów, które mają większe szanse na krystalizację.

Dostępność: Serwer internetowy XtalPred jest swobodnie dostępny dla użytkowników akademickich na stronie http://ffas.burnham.org/XtalPred

Contact:[email protected]

1 WPROWADZENIE

Wysoki wskaźnik niepowodzeń w eksperymentalnym wyznaczaniu struktur białek jest wciąż jednym z największych wyzwań biologii strukturalnej. Dane z centrów genomiki strukturalnej (Structural Genomics – SG) pokazują, że ogólny wskaźnik sukcesu w konfiguracji high-throughput (HT) wynosi tylko około 5% i chociaż nie ma dostępnych statystyk dla zwykłych laboratoriów biologii strukturalnej, niepotwierdzone dowody sugerują, że wskaźnik niepowodzeń jest również bardzo wysoki. Narzędzia bioinformatyczne mogą pomóc w rozpoznaniu, które białka mają większe szanse na sukces i dostarczyć sugestii możliwych modyfikacji dla wszystkich pozostałych. Wybór celów z największą szansą powodzenia jest szczególnie przydatny dla ośrodków SG, celujących raczej w rodziny białek niż w pojedyncze białka.

Zależność między cechami białek a ich zdolnością do krystalizacji została zbadana przez kilka grup (Bertone i in., 2001; Canaves i in., 2004; Goh i in., 2004; Oldfield i in., 2005). Jednak tradycyjne laboratoria raportują jedynie sukcesy w określaniu struktury, co czyni analizy data mining prawie niemożliwymi ze względu na brak odpowiednio zbilansowanych zbiorów danych z danymi pozytywnymi i negatywnymi. Sytuacja ta uległa zmianie wraz z powstaniem Protein Structure Initiative (www.nigms.nih.gov/Initiatives/PSI), która wymaga od swoich ośrodków członkowskich raportowania zarówno sukcesów jak i porażek do centralnej bazy danych TargetDB (Chen i in., 2004). Zestawy uczące się wyekstrahowane z TargetDB pozwoliły na bardziej zaawansowane analizy (Chandonia i in., 2006; Overton i Barton, 2006; Smialowski i in., 2006), które tutaj rozszerzamy wykorzystując dane i spostrzeżenia pochodzące z pracy w Joint Center for Structural Genomics (JCSG).

Użyliśmy metody logarytmicznej puli opinii (Genest i in., 1984) do połączenia rozkładów prawdopodobieństwa obliczonych dla kilku indywidualnych cech białka w „wynik wykonalności krystalizacji” (Slabinski i in., 2007), gdzie wykazaliśmy, że nasza metoda może znacząco poprawić ogólny wskaźnik sukcesu w określaniu struktury. Analiza depozycji w PDB (Berman i in., 2000) potwierdziła, że te same cechy białek mają również znaczący wpływ na sukces w standardowym, nie-HT wyznaczaniu struktur, co sugeruje, że „wynik wykonalności krystalizacji” będzie również interesujący dla szerokiej społeczności biologii strukturalnej. Od 2006 roku nasz algorytm jest z powodzeniem stosowany w JCSG do wyboru optymalnych celów wyznaczania struktur z rodzin białek, które nie mają pokrycia strukturalnego lub jest ono niewystarczające.

Serwer XtalPred bazuje na wiedzy statystycznej o krystalizacji białek zgromadzonej przez PSI w ciągu ostatnich 7 lat i udostępnia szerokiej społeczności biologów strukturalnych spostrzeżenia z wyznaczania struktur HT.

2 PODSUMOWANIE FUNKCJI SERWERA

Analizy krystalizacji: serwer porównuje dziewięć biochemicznych i biofizycznych cech analizowanego białka z odpowiadającymi im rozkładami prawdopodobieństwa z TargetDB. Dla każdej cechy białka generowany jest wykres przedstawiający rozkłady niepowodzeń i sukcesów w zbiorach pobranych z TargetDB; interpolowane empiryczne rozkłady prawdopodobieństwa krystalizacji; oraz pozycje białka w tych rozkładach (Rys. 1).

Rys. 1.

Przykład danych wyjściowych XtalPred. Prawdopodobieństwa obliczone na podstawie histogramów uzyskanych dla poszczególnych cech białka (prawy panel) służą do przypisania białka do odpowiedniej klasy krystaliczności (lewy górny róg). Linki do list homologów znalezionych w różnych bazach danych znajdują się w lewym dolnym rogu.

Rys. 1.

Przykład wyjścia XtalPred. Prawdopodobieństwa obliczone na podstawie histogramów uzyskanych dla poszczególnych cech białka (prawy panel) służą do przypisania białka do odpowiedniej klasy krystaliczności (lewy górny róg). Linki do list homologów znalezionych w różnych bazach danych znajdują się w lewym dolnym rogu.

Przewidywanie krystalizacji: przewidywanie odbywa się poprzez połączenie indywidualnych prawdopodobieństw krystalizacji w pojedynczy wynik krystalizacji. Na podstawie tego wyniku białko jest przypisywane do jednej z pięciu klas krystalizacji: optymalnej, suboptymalnej, średniej, trudnej i bardzo trudnej (Rys. 1).

Podsumowanie informacji o białku: serwer oblicza i przewiduje cechy białka, które są związane z jego krystalizowalnością i podsumowuje je na jednej stronie internetowej. Obliczone cechy białka obejmują: długość białka; masę cząsteczkową; indeks gravy (Kyte i Doolittle, 1982); indeks niestabilności (Guruprasad i in., 1990); współczynnik ekstynkcji (Gill i von Hippel, 1989); punkt izoelektryczny (Creighton, 1984); zawartość reszt Cys, Met, Trp, Tyr i Phe; oraz średnią liczbę insercji w wyrównaniu w porównaniu z homologami w nieredundantnej (NR) bazie danych sekwencji białkowych. Do przewidywanych cech należą: struktura drugorzędowa, regiony nieuporządkowane, regiony o niskiej złożoności, regiony cewek, heliksy transmembranowe i peptydy sygnałowe. Zwrócono uwagę na cechy, które mogą wskazywać na problemy podczas procesu krystalizacji. W przypadku przewidywań wykonanych przez zewnętrzne oprogramowanie (Sekcja 3), surowe dane wyjściowe są dostępne jako pliki tekstowe.

Klasy homologiczne, które mają większe szanse na krystalizację: wstępnie obliczone klasy krystalizacji dla wszystkich kompletnych genomów mikroorganizmów (obecnie 487 genomów; 1, 549, 504 białek) są dostępne na serwerze. Dla każdego zgłoszonego białka serwer dostarcza listę jego homologów wraz z informacją o ich klasie krystaliczności. Lista ta zawiera również odnośniki do szczegółowych informacji o każdym homologu.

Przewidywanie form i ligandów: XtalPred dostarcza wyrównanie sekwencji białka wejściowego ze wszystkimi białkami homologicznymi w PDB. Zawiera również listę ligandów współkrystalizowanych z białkami homologicznymi oraz ich strukturę drugorzędową.

Skalowalność: serwer może przetworzyć do 10 sekwencji w pojedynczym zgłoszeniu. Większe zgłoszenia powinny być przedyskutowane z administratorem serwera.

Homologi: serwer dostarcza wyrównanie z homologami, które może być użyte do zaproponowania truncacji.

3 SZCZEGÓŁY SERWERA

Serwer XtalPred używa kilku publicznie dostępnych programów do obliczania i przewidywania cech białek: PSI-BLAST do wyszukiwania homologii; CD-HIT (Li i Godzik, 2006) do klasteryzacji baz danych sekwencji białkowych; COILS (Lupas i in., 1991) do predykcji regionów coiled-coil, TMHMM (Krogh i in., 2001) do przewidywania heliksów transmembranowych; RPSP (Plewczynski i in., 2007) do przewidywania peptydów sygnałowych, SEG (Wootton, 1994) do obliczania regionów o niskiej złożoności; PSIPRED (Jones, 1999) do przewidywania struktur drugorzędowych oraz DISOPRED2 (Ward i in., 2004) do przewidywania regionów strukturalnie nieuporządkowanych.

Wyjaśnienia

Praca ta była wspierana przez NIH Protein Structure Initiative grantami U54 GM074898 (JCSG) i P20 GM076221 (JCMM).

Konflikt interesów: nie zgłoszono.

Berman
HM

, et al.

The Protein Data Bank

,

Nucleic Acids Res

,

2000

, vol.

28

(pg.

235

242

)

Bertone
P

, et al.

SPINE: an integrated tracking database and data mining approach for identifying feasible targets in high-throughput structural proteomics

,

Nucleic Acids Res

,

2001

, vol.

29

(pg.

2884

2898

)

Canaves
JM

, et al.

Protein biophysical properties that correlate with crystallization success in Thermotoga maritima: maximum clustering strategy for structural genomics

,

J. Mol. Biol

,

2004

, vol.

344

(pg.

977

991

)

Chandonia
JM

, et al.

Target selection and deselection at the Berkeley Structural Genomics Center

,

Proteins

,

2006

, vol.

62

(pg.

356

370

)

Chen
L

, et al.

TargetDB: a target registration database for structural genomics projects

,

Bioinformatics (Oxford, England )

,

2004

, vol.

20

(pg.

2860

2862

)

Creighton
TE

. ,

Proteins: Structure and Molecular Properties

,

1984
New York
W. H. Freeman and Co

Genest
C

, et al.

Agregating opinions through logarithmic pooling

,

Theor. Decis

,

1984

, vol.

17

(pg.

61

70

)

Gill
SC

,

Von Hippel
PH

.

Calculation of protein extinction coefficients from amino acid sequence data

,

Anal. Biochem

,

1989

, vol.

182

(pg.

319

326

)

Goh
CS

, et al.

Mining the structural genomics pipeline: identification of protein properties that affect high-throughput experimental analysis

,

J. Mol. Biol

,

2004

, vol.

336

(pg.

115

130

)

Guruprasad
K

, et al.

Correlation between stability of a protein and its dipeptide composition: a novel approach for predicting in vivo stability of a protein from its primary sequence

,

Protein Eng

,

1990

, vol.

4

(pg.

155

161

)

Jones
DT

.

Protein secondary structure prediction based on position-specific scoring matrices

,

J. Mol. Biol

,

1999

, vol.

292

(pg.

195

202

)

Krogh
A

, et al.

Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes

,

J. Mol. Biol

,

2001

, vol.

305

(pg.

567

580

)

Kyte
J

,

Doolittle
RF

.

Prosta metoda wyświetlania hydropatycznego charakteru białka

,

J. Mol. Biol

,

1982

, vol.

157

(pg.

105

132

)

Li
W

,

Godzik
A

.

Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences

,

Bioinformatics (Oxford, England )

,

2006

, vol.

22

(pg.

1658

1659

)

Lupas
A

, et al.

Predicting coiled coils from protein sequences

,

Science

,

1991

, vol.

252

(pg.

1162

1164

)

Oldfield
CJ

, et al.

Addressing the intrinsic disorder bottleneck in structural proteomics

,

Proteins

,

2005

, vol.

59

(pg.

444

453

)

Overton
IM

,

Barton
GJ

.

A normalised scale for structural genomics target ranking: the OB-Score

,

FEBS Lett

,

2006

, vol.

580

(pg.

4005

4009

)

Plewczyński
D

, et al.

The RPSP: Web server for prediction of signal peptides

,

Polymer

,

2007

, vol.

48

(pg.

5493

5496

)

Słabiński
L

, et al.

Wyzwanie wyznaczania struktury białek – wnioski z genomiki strukturalnej

,

Protein Sci

,

2007

, vol.

16

(pg.

2472

2482

)

Smialowski
P

, et al.

Will my protein crystallize? A sequence-based predictor

,

Proteins

,

2006

, vol.

62

(pg.

343

355

)

Ward
JJ

, et al.

Prediction and functional analysis of native disorder in proteins from the three kingdoms of life

,

J. Mol. Biol

,

2004

, vol.

337

(pg.

635

645

)

Wootton
JC

.

Non-globular domains in protein sequences: automated segmentation using complexity measures

,

Comput. Chem

,

1994

, vol.

18

(str.

269

285

)

Notatki o autorze

Associate Editor: Thomas Lengauer