XtalPred: a web server for prediction of protein crystallizability
Abstract
Summary: XtalPred jest serwerem internetowym służącym do przewidywania krystalizacji białek. Przewidywanie odbywa się poprzez porównanie kilku cech białka z rozkładami tych cech w TargetDB i połączenie wyników w ogólne prawdopodobieństwo krystalizacji. XtalPred zapewnia: (1) szczegółowe porównanie cech białka z odpowiednim rozkładem z TargetDB; (2) podsumowanie cech białka i przewidywań wskazujących na problemy, które prawdopodobnie zostaną napotkane podczas krystalizacji białka; (3) przewidywanie ligandów; oraz (4) (opcjonalnie) listy bliskich homologów z kompletnych genomów mikroorganizmów, które mają większe szanse na krystalizację.
Dostępność: Serwer internetowy XtalPred jest swobodnie dostępny dla użytkowników akademickich na stronie http://ffas.burnham.org/XtalPred
Contact:[email protected]
1 WPROWADZENIE
Wysoki wskaźnik niepowodzeń w eksperymentalnym wyznaczaniu struktur białek jest wciąż jednym z największych wyzwań biologii strukturalnej. Dane z centrów genomiki strukturalnej (Structural Genomics – SG) pokazują, że ogólny wskaźnik sukcesu w konfiguracji high-throughput (HT) wynosi tylko około 5% i chociaż nie ma dostępnych statystyk dla zwykłych laboratoriów biologii strukturalnej, niepotwierdzone dowody sugerują, że wskaźnik niepowodzeń jest również bardzo wysoki. Narzędzia bioinformatyczne mogą pomóc w rozpoznaniu, które białka mają większe szanse na sukces i dostarczyć sugestii możliwych modyfikacji dla wszystkich pozostałych. Wybór celów z największą szansą powodzenia jest szczególnie przydatny dla ośrodków SG, celujących raczej w rodziny białek niż w pojedyncze białka.
Zależność między cechami białek a ich zdolnością do krystalizacji została zbadana przez kilka grup (Bertone i in., 2001; Canaves i in., 2004; Goh i in., 2004; Oldfield i in., 2005). Jednak tradycyjne laboratoria raportują jedynie sukcesy w określaniu struktury, co czyni analizy data mining prawie niemożliwymi ze względu na brak odpowiednio zbilansowanych zbiorów danych z danymi pozytywnymi i negatywnymi. Sytuacja ta uległa zmianie wraz z powstaniem Protein Structure Initiative (www.nigms.nih.gov/Initiatives/PSI), która wymaga od swoich ośrodków członkowskich raportowania zarówno sukcesów jak i porażek do centralnej bazy danych TargetDB (Chen i in., 2004). Zestawy uczące się wyekstrahowane z TargetDB pozwoliły na bardziej zaawansowane analizy (Chandonia i in., 2006; Overton i Barton, 2006; Smialowski i in., 2006), które tutaj rozszerzamy wykorzystując dane i spostrzeżenia pochodzące z pracy w Joint Center for Structural Genomics (JCSG).
Użyliśmy metody logarytmicznej puli opinii (Genest i in., 1984) do połączenia rozkładów prawdopodobieństwa obliczonych dla kilku indywidualnych cech białka w „wynik wykonalności krystalizacji” (Slabinski i in., 2007), gdzie wykazaliśmy, że nasza metoda może znacząco poprawić ogólny wskaźnik sukcesu w określaniu struktury. Analiza depozycji w PDB (Berman i in., 2000) potwierdziła, że te same cechy białek mają również znaczący wpływ na sukces w standardowym, nie-HT wyznaczaniu struktur, co sugeruje, że „wynik wykonalności krystalizacji” będzie również interesujący dla szerokiej społeczności biologii strukturalnej. Od 2006 roku nasz algorytm jest z powodzeniem stosowany w JCSG do wyboru optymalnych celów wyznaczania struktur z rodzin białek, które nie mają pokrycia strukturalnego lub jest ono niewystarczające.
Serwer XtalPred bazuje na wiedzy statystycznej o krystalizacji białek zgromadzonej przez PSI w ciągu ostatnich 7 lat i udostępnia szerokiej społeczności biologów strukturalnych spostrzeżenia z wyznaczania struktur HT.
2 PODSUMOWANIE FUNKCJI SERWERA
Analizy krystalizacji: serwer porównuje dziewięć biochemicznych i biofizycznych cech analizowanego białka z odpowiadającymi im rozkładami prawdopodobieństwa z TargetDB. Dla każdej cechy białka generowany jest wykres przedstawiający rozkłady niepowodzeń i sukcesów w zbiorach pobranych z TargetDB; interpolowane empiryczne rozkłady prawdopodobieństwa krystalizacji; oraz pozycje białka w tych rozkładach (Rys. 1).
Przykład danych wyjściowych XtalPred. Prawdopodobieństwa obliczone na podstawie histogramów uzyskanych dla poszczególnych cech białka (prawy panel) służą do przypisania białka do odpowiedniej klasy krystaliczności (lewy górny róg). Linki do list homologów znalezionych w różnych bazach danych znajdują się w lewym dolnym rogu.
Przykład wyjścia XtalPred. Prawdopodobieństwa obliczone na podstawie histogramów uzyskanych dla poszczególnych cech białka (prawy panel) służą do przypisania białka do odpowiedniej klasy krystaliczności (lewy górny róg). Linki do list homologów znalezionych w różnych bazach danych znajdują się w lewym dolnym rogu.
Przewidywanie krystalizacji: przewidywanie odbywa się poprzez połączenie indywidualnych prawdopodobieństw krystalizacji w pojedynczy wynik krystalizacji. Na podstawie tego wyniku białko jest przypisywane do jednej z pięciu klas krystalizacji: optymalnej, suboptymalnej, średniej, trudnej i bardzo trudnej (Rys. 1).
Podsumowanie informacji o białku: serwer oblicza i przewiduje cechy białka, które są związane z jego krystalizowalnością i podsumowuje je na jednej stronie internetowej. Obliczone cechy białka obejmują: długość białka; masę cząsteczkową; indeks gravy (Kyte i Doolittle, 1982); indeks niestabilności (Guruprasad i in., 1990); współczynnik ekstynkcji (Gill i von Hippel, 1989); punkt izoelektryczny (Creighton, 1984); zawartość reszt Cys, Met, Trp, Tyr i Phe; oraz średnią liczbę insercji w wyrównaniu w porównaniu z homologami w nieredundantnej (NR) bazie danych sekwencji białkowych. Do przewidywanych cech należą: struktura drugorzędowa, regiony nieuporządkowane, regiony o niskiej złożoności, regiony cewek, heliksy transmembranowe i peptydy sygnałowe. Zwrócono uwagę na cechy, które mogą wskazywać na problemy podczas procesu krystalizacji. W przypadku przewidywań wykonanych przez zewnętrzne oprogramowanie (Sekcja 3), surowe dane wyjściowe są dostępne jako pliki tekstowe.
Klasy homologiczne, które mają większe szanse na krystalizację: wstępnie obliczone klasy krystalizacji dla wszystkich kompletnych genomów mikroorganizmów (obecnie 487 genomów; 1, 549, 504 białek) są dostępne na serwerze. Dla każdego zgłoszonego białka serwer dostarcza listę jego homologów wraz z informacją o ich klasie krystaliczności. Lista ta zawiera również odnośniki do szczegółowych informacji o każdym homologu.
Przewidywanie form i ligandów: XtalPred dostarcza wyrównanie sekwencji białka wejściowego ze wszystkimi białkami homologicznymi w PDB. Zawiera również listę ligandów współkrystalizowanych z białkami homologicznymi oraz ich strukturę drugorzędową.
Skalowalność: serwer może przetworzyć do 10 sekwencji w pojedynczym zgłoszeniu. Większe zgłoszenia powinny być przedyskutowane z administratorem serwera.
Homologi: serwer dostarcza wyrównanie z homologami, które może być użyte do zaproponowania truncacji.
3 SZCZEGÓŁY SERWERA
Serwer XtalPred używa kilku publicznie dostępnych programów do obliczania i przewidywania cech białek: PSI-BLAST do wyszukiwania homologii; CD-HIT (Li i Godzik, 2006) do klasteryzacji baz danych sekwencji białkowych; COILS (Lupas i in., 1991) do predykcji regionów coiled-coil, TMHMM (Krogh i in., 2001) do przewidywania heliksów transmembranowych; RPSP (Plewczynski i in., 2007) do przewidywania peptydów sygnałowych, SEG (Wootton, 1994) do obliczania regionów o niskiej złożoności; PSIPRED (Jones, 1999) do przewidywania struktur drugorzędowych oraz DISOPRED2 (Ward i in., 2004) do przewidywania regionów strukturalnie nieuporządkowanych.
Wyjaśnienia
Praca ta była wspierana przez NIH Protein Structure Initiative grantami U54 GM074898 (JCSG) i P20 GM076221 (JCMM).
Konflikt interesów: nie zgłoszono.
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
. ,
,
, et al.
,
,
, vol.
(pg.
–
)
,
.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
,
.
,
,
, vol.
(pg.
–
)
,
.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
,
.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
, et al.
,
,
, vol.
(pg.
–
)
.
,
,
, vol.
(str.
–
)
Notatki o autorze
Associate Editor: Thomas Lengauer