Articles

XtalPred: a web server for prediction of protein crystallizability

16 lipca, 2021 by admin

Abstract

Summary: XtalPred jest serwerem internetowym służącym do przewidywania krystalizacji białek. Przewidywanie odbywa się poprzez porównanie kilku cech białka z rozkładami tych cech w TargetDB i połączenie wyników w ogólne prawdopodobieństwo krystalizacji. XtalPred zapewnia: (1) szczegółowe porównanie cech białka z odpowiednim rozkładem z TargetDB; (2) podsumowanie cech białka i przewidywań wskazujących na problemy, które prawdopodobnie zostaną napotkane podczas krystalizacji białka; (3) przewidywanie ligandów; oraz (4) (opcjonalnie) listy bliskich homologów z kompletnych genomów mikroorganizmów, które mają większe szanse na krystalizację.

Dostępność: Serwer internetowy XtalPred jest swobodnie dostępny dla użytkowników akademickich na stronie http://ffas.burnham.org/XtalPred

Contact:[email protected]

1 WPROWADZENIE

Wysoki wskaźnik niepowodzeń w eksperymentalnym wyznaczaniu struktur białek jest wciąż jednym z największych wyzwań biologii strukturalnej. Dane z centrów genomiki strukturalnej (Structural Genomics – SG) pokazują, że ogólny wskaźnik sukcesu w konfiguracji high-throughput (HT) wynosi tylko około 5% i chociaż nie ma dostępnych statystyk dla zwykłych laboratoriów biologii strukturalnej, niepotwierdzone dowody sugerują, że wskaźnik niepowodzeń jest również bardzo wysoki. Narzędzia bioinformatyczne mogą pomóc w rozpoznaniu, które białka mają większe szanse na sukces i dostarczyć sugestii możliwych modyfikacji dla wszystkich pozostałych. Wybór celów z największą szansą powodzenia jest szczególnie przydatny dla ośrodków SG, celujących raczej w rodziny białek niż w pojedyncze białka.

Zależność między cechami białek a ich zdolnością do krystalizacji została zbadana przez kilka grup (Bertone i in., 2001; Canaves i in., 2004; Goh i in., 2004; Oldfield i in., 2005). Jednak tradycyjne laboratoria raportują jedynie sukcesy w określaniu struktury, co czyni analizy data mining prawie niemożliwymi ze względu na brak odpowiednio zbilansowanych zbiorów danych z danymi pozytywnymi i negatywnymi. Sytuacja ta uległa zmianie wraz z powstaniem Protein Structure Initiative (www.nigms.nih.gov/Initiatives/PSI), która wymaga od swoich ośrodków członkowskich raportowania zarówno sukcesów jak i porażek do centralnej bazy danych TargetDB (Chen i in., 2004). Zestawy uczące się wyekstrahowane z TargetDB pozwoliły na bardziej zaawansowane analizy (Chandonia i in., 2006; Overton i Barton, 2006; Smialowski i in., 2006), które tutaj rozszerzamy wykorzystując dane i spostrzeżenia pochodzące z pracy w Joint Center for Structural Genomics (JCSG).

Użyliśmy metody logarytmicznej puli opinii (Genest i in., 1984) do połączenia rozkładów prawdopodobieństwa obliczonych dla kilku indywidualnych cech białka w „wynik wykonalności krystalizacji” (Slabinski i in., 2007), gdzie wykazaliśmy, że nasza metoda może znacząco poprawić ogólny wskaźnik sukcesu w określaniu struktury. Analiza depozycji w PDB (Berman i in., 2000) potwierdziła, że te same cechy białek mają również znaczący wpływ na sukces w standardowym, nie-HT wyznaczaniu struktur, co sugeruje, że „wynik wykonalności krystalizacji” będzie również interesujący dla szerokiej społeczności biologii strukturalnej. Od 2006 roku nasz algorytm jest z powodzeniem stosowany w JCSG do wyboru optymalnych celów wyznaczania struktur z rodzin białek, które nie mają pokrycia strukturalnego lub jest ono niewystarczające.

Serwer XtalPred bazuje na wiedzy statystycznej o krystalizacji białek zgromadzonej przez PSI w ciągu ostatnich 7 lat i udostępnia szerokiej społeczności biologów strukturalnych spostrzeżenia z wyznaczania struktur HT.

2 PODSUMOWANIE FUNKCJI SERWERA

Analizy krystalizacji: serwer porównuje dziewięć biochemicznych i biofizycznych cech analizowanego białka z odpowiadającymi im rozkładami prawdopodobieństwa z TargetDB. Dla każdej cechy białka generowany jest wykres przedstawiający rozkłady niepowodzeń i sukcesów w zbiorach pobranych z TargetDB; interpolowane empiryczne rozkłady prawdopodobieństwa krystalizacji; oraz pozycje białka w tych rozkładach (Rys. 1).

Rys. 1.

Przykład danych wyjściowych XtalPred. Prawdopodobieństwa obliczone na podstawie histogramów uzyskanych dla poszczególnych cech białka (prawy panel) służą do przypisania białka do odpowiedniej klasy krystaliczności (lewy górny róg). Linki do list homologów znalezionych w różnych bazach danych znajdują się w lewym dolnym rogu.

Rys. 1.

Przykład wyjścia XtalPred. Prawdopodobieństwa obliczone na podstawie histogramów uzyskanych dla poszczególnych cech białka (prawy panel) służą do przypisania białka do odpowiedniej klasy krystaliczności (lewy górny róg). Linki do list homologów znalezionych w różnych bazach danych znajdują się w lewym dolnym rogu.

Przewidywanie krystalizacji: przewidywanie odbywa się poprzez połączenie indywidualnych prawdopodobieństw krystalizacji w pojedynczy wynik krystalizacji. Na podstawie tego wyniku białko jest przypisywane do jednej z pięciu klas krystalizacji: optymalnej, suboptymalnej, średniej, trudnej i bardzo trudnej (Rys. 1).

Podsumowanie informacji o białku: serwer oblicza i przewiduje cechy białka, które są związane z jego krystalizowalnością i podsumowuje je na jednej stronie internetowej. Obliczone cechy białka obejmują: długość białka; masę cząsteczkową; indeks gravy (Kyte i Doolittle, 1982); indeks niestabilności (Guruprasad i in., 1990); współczynnik ekstynkcji (Gill i von Hippel, 1989); punkt izoelektryczny (Creighton, 1984); zawartość reszt Cys, Met, Trp, Tyr i Phe; oraz średnią liczbę insercji w wyrównaniu w porównaniu z homologami w nieredundantnej (NR) bazie danych sekwencji białkowych. Do przewidywanych cech należą: struktura drugorzędowa, regiony nieuporządkowane, regiony o niskiej złożoności, regiony cewek, heliksy transmembranowe i peptydy sygnałowe. Zwrócono uwagę na cechy, które mogą wskazywać na problemy podczas procesu krystalizacji. W przypadku przewidywań wykonanych przez zewnętrzne oprogramowanie (Sekcja 3), surowe dane wyjściowe są dostępne jako pliki tekstowe.

Klasy homologiczne, które mają większe szanse na krystalizację: wstępnie obliczone klasy krystalizacji dla wszystkich kompletnych genomów mikroorganizmów (obecnie 487 genomów; 1, 549, 504 białek) są dostępne na serwerze. Dla każdego zgłoszonego białka serwer dostarcza listę jego homologów wraz z informacją o ich klasie krystaliczności. Lista ta zawiera również odnośniki do szczegółowych informacji o każdym homologu.

Przewidywanie form i ligandów: XtalPred dostarcza wyrównanie sekwencji białka wejściowego ze wszystkimi białkami homologicznymi w PDB. Zawiera również listę ligandów współkrystalizowanych z białkami homologicznymi oraz ich strukturę drugorzędową.

Skalowalność: serwer może przetworzyć do 10 sekwencji w pojedynczym zgłoszeniu. Większe zgłoszenia powinny być przedyskutowane z administratorem serwera.

Homologi: serwer dostarcza wyrównanie z homologami, które może być użyte do zaproponowania truncacji.

3 SZCZEGÓŁY SERWERA

Serwer XtalPred używa kilku publicznie dostępnych programów do obliczania i przewidywania cech białek: PSI-BLAST do wyszukiwania homologii; CD-HIT (Li i Godzik, 2006) do klasteryzacji baz danych sekwencji białkowych; COILS (Lupas i in., 1991) do predykcji regionów coiled-coil, TMHMM (Krogh i in., 2001) do przewidywania heliksów transmembranowych; RPSP (Plewczynski i in., 2007) do przewidywania peptydów sygnałowych, SEG (Wootton, 1994) do obliczania regionów o niskiej złożoności; PSIPRED (Jones, 1999) do przewidywania struktur drugorzędowych oraz DISOPRED2 (Ward i in., 2004) do przewidywania regionów strukturalnie nieuporządkowanych.

Wyjaśnienia

Praca ta była wspierana przez NIH Protein Structure Initiative grantami U54 GM074898 (JCSG) i P20 GM076221 (JCMM).

Konflikt interesów: nie zgłoszono.

Berman

, et al.

The Protein Data Bank

Nucleic Acids Res

2000

, vol.

(pg.

235

–

242

)

Bertone

, et al.

SPINE: an integrated tracking database and data mining approach for identifying feasible targets in high-throughput structural proteomics

Nucleic Acids Res

2001

, vol.

(pg.

2884

–

2898

)

Canaves

, et al.

Protein biophysical properties that correlate with crystallization success in Thermotoga maritima: maximum clustering strategy for structural genomics

J. Mol. Biol

2004

, vol.

344

(pg.

977

–

991

)

Chandonia

, et al.

Target selection and deselection at the Berkeley Structural Genomics Center

Proteins

2006

, vol.

(pg.

356

–

370

)

Chen

, et al.

TargetDB: a target registration database for structural genomics projects

Bioinformatics (Oxford, England )

2004

, vol.

(pg.

2860

–

2862

)

Creighton

. ,

Proteins: Structure and Molecular Properties

1984

New York

W. H. Freeman and Co

Genest

, et al.

Agregating opinions through logarithmic pooling

Theor. Decis

1984

, vol.

(pg.

–

)

Gill

Von Hippel

Calculation of protein extinction coefficients from amino acid sequence data

Anal. Biochem

1989

, vol.

182

(pg.

319

–

326

)

Goh

, et al.

Mining the structural genomics pipeline: identification of protein properties that affect high-throughput experimental analysis

J. Mol. Biol

2004

, vol.

336

(pg.

115

–

130

)

Guruprasad

, et al.

Correlation between stability of a protein and its dipeptide composition: a novel approach for predicting in vivo stability of a protein from its primary sequence

Protein Eng

1990

, vol.

(pg.

155

–

161

)

Jones

Protein secondary structure prediction based on position-specific scoring matrices

J. Mol. Biol

1999

, vol.

292

(pg.

195

–

202

)

Krogh

, et al.

Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes

J. Mol. Biol

2001

, vol.

305

(pg.

567

–

580

)

Kyte

Doolittle

Prosta metoda wyświetlania hydropatycznego charakteru białka

J. Mol. Biol

1982

, vol.

157

(pg.

105

–

132

)

Godzik

Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences

Bioinformatics (Oxford, England )

2006

, vol.

(pg.

1658

–

1659

)

Lupas

, et al.

Predicting coiled coils from protein sequences

Science

1991

, vol.

252

(pg.

1162

–

1164

)

Oldfield

, et al.

Addressing the intrinsic disorder bottleneck in structural proteomics

Proteins

2005

, vol.

(pg.

444

–

453

)

Overton

Barton

A normalised scale for structural genomics target ranking: the OB-Score

FEBS Lett

2006

, vol.

580

(pg.

4005

–

4009

)

Plewczyński

, et al.

The RPSP: Web server for prediction of signal peptides

Polymer

2007

, vol.

(pg.

5493

–

5496

)

Słabiński

, et al.

Wyzwanie wyznaczania struktury białek – wnioski z genomiki strukturalnej

Protein Sci

2007

, vol.

(pg.

2472

–

2482

)

Smialowski

, et al.

Will my protein crystallize? A sequence-based predictor

Proteins

2006

, vol.

(pg.

343

–

355

)

Ward

, et al.

Prediction and functional analysis of native disorder in proteins from the three kingdoms of life

J. Mol. Biol

2004

, vol.

337

(pg.

635

–

645

)

Wootton

Non-globular domains in protein sequences: automated segmentation using complexity measures

Comput. Chem

1994

, vol.

(str.

269

–

285

)

Notatki o autorze

Associate Editor: Thomas Lengauer

Digital Travel

XtalPred: a web server for prediction of protein crystallizability

Abstract

1 WPROWADZENIE

2 PODSUMOWANIE FUNKCJI SERWERA

3 SZCZEGÓŁY SERWERA

Wyjaśnienia

Notatki o autorze

Dodaj komentarz Anuluj pisanie odpowiedzi

Archiwa

Meta