Articles

XtalPred: a web server for prediction of protein crystallizability

Abstract

概要:XtalPredはタンパク質結晶化度の予測用ウェブサーバである。 この予測は、タンパク質のいくつかの特徴をTargetDBのこれらの特徴の分布と比較し、結果を組み合わせて全体的な結晶化確率を算出することによって行われる。 XtalPredは以下を提供する。 (1) TargetDB からの対応する分布とタンパク質の特徴の詳細な比較、(2) タンパク質の結晶化中に遭遇する可能性が高い問題を示す、タンパク質の特徴と予測の要約、(3) リガンドの予測、および (4) (オプション)結晶化しやすい完全微生物ゲノムからの近い相同物のリスト、

Availability.Net は、結晶化しやすいタンパク質のリストを提供します。 XtalPredウェブサーバーは、http://ffas.burnham.org/XtalPred

Contact:[email protected]

1 はじめに

タンパク質構造の実験的決定における高い失敗率は、依然として構造生物学の最大の課題の1つである。 構造ゲノミクス(SG)センターのデータによると、ハイスループット(HT)セットアップでの全体的な成功率はわずか5%程度であり、通常の構造生物学研究室の統計はありませんが、失敗率も非常に高いことを示す逸話的証拠があります。 バイオインフォマティクスツールは、どのタンパク質が成功しやすいかを認識するのに役立ち、その他のタンパク質については可能な修正を提案してくれます。

タンパク質の特徴と結晶化しやすさの関係は、いくつかのグループによって研究されてきました (Bertone et al., 2001; Canaves et al., 2004; Goh et al., 2004; Oldfield et al., 2005)。 しかし、従来の研究所では、構造決定の成功例しか報告されておらず、ポジティブとネガティブのデータが適切にバランスされたデータセットがないため、データマイニング解析はほとんど不可能であった。 この状況は、Protein Structure Initiative (www.nigms.nih.gov/Initiatives/PSI)の設立により変化し、加盟センターは、成功と失敗の両方を中央データベースであるTargetDBに報告することが義務付けられました(Chen et al.、2004年)。 TargetDBから抽出された学習セットにより、より高度な分析が可能になった(Chandonia et al., 2006; Overton and Barton, 2006; Smialowski et al., 2006)が、ここではJCSG (Joint Center for Structural Genomics) における作業から生まれたデータと洞察を用いて拡張する。 1984)を用いて、いくつかの個々のタンパク質特徴について計算された確率分布を「結晶化実現可能性スコア」(Slabinski et al.、2007)に結合し、この方法が構造決定における全体的な成功率を大幅に改善できることを実証した。 PDBへの登録の分析(Berman et al., 2000)により、同じタンパク質の特徴が、HT以外の標準的な構造決定の成功率にも大きな影響を与えることが確認されており、「結晶化実現性スコア」が幅広い構造生物学のコミュニティにとって大きな関心事であることが示唆されています。 2006年以来、我々のアルゴリズムはJCSGにおいて、構造カバレッジがない、あるいは不十分なタンパク質ファミリーから最適な構造決定ターゲットを選択するために成功裏に使用されている。

XtalPredサーバーは、過去7年間にPSIが集めたタンパク質結晶化に関する統計的知識を基に、HT構造決定からの洞察を構造生物学者の幅広いコミュニティーに提供するものである。

2 SERVER FEATURE SUMMARY

結晶化解析:Webサーバーは、解析中のタンパク質の9つの生化学的・生物物理的特徴をTargetDBから対応する確率分布と比較する。 各タンパク質特徴について、TargetDBから抽出した集合における失敗と成功の分布、結晶化確率の補間された経験分布、およびそれらの分布におけるタンパク質の位置を示すプロットが生成されます(図1)。

図1.

XtalPredの出力例。 個々のタンパク質の特徴で得られたヒストグラムから計算された確率(右図)を使って、タンパク質を適切な結晶化クラス(左上隅)に割り当てています。 9545>

Fig.1.

XtalPredの出力例。 個々のタンパク質の特徴について得られたヒストグラムから計算された確率(右図)は、タンパク質を適切な結晶化クラス(左上隅)に割り当てるために使用されます。 9545>

Crystallization prediction: 予測は個々の結晶化確率を一つの結晶化スコアに結合することによって行われます。 このスコアに基づいて、タンパク質は5つの結晶化クラス:最適、最適以下、平均、困難、非常に困難のいずれかに割り当てられる(図1)。

タンパク質に関する情報の要約:サーバーは、タンパク質の結晶化性に関連するタンパク質特徴を計算、予測し、1つのウェブページに要約している。 計算されたタンパク質の特徴は、タンパク質長、分子量、gravy index (Kyte and Doolittle, 1982); instability index (Guruprasad et al., 1990); extinction coefficient (Gill and von Hippel, 1989); 等電点 (Creighton, 1984); Cys, Met, Trp, Tyr and Phe残基含有量、タンパク質配列のNRデータベースにおける同族体と比較してアライメントの平均挿入数、などです。 予測される機能には、二次構造、無秩序領域、低複雑性領域、コイルドコイル領域、膜貫通ヘリックス、シグナルペプチドが含まれる。 また、結晶化時に問題となる可能性のある特徴については、ハイライト表示されている。

Close homologs that are more likely to crystallize: すべての完全な微生物ゲノム(現在487ゲノム;1, 549, 504タンパク質)について事前に計算した結晶化クラスがサーバーから利用できます。 各タンパク質について、そのホモログのリストと結晶化しやすいクラスの情報が提供されています。

Fold and ligand prediction: XtalPred は入力されたタンパク質と PDB にある全てのホモログの配列アライメントを提供します。 また、相同タンパク質と共結晶したリガンドとその二次構造のリストも含まれています。

拡張性:サーバーは一回の投稿で10配列まで処理できます。

Homologs: サーバーは、切断を提案するために使用できるホモログとのアライメントを提供します。

3 SERVER DETAILS

XtalPredサーバーは、タンパク質の特徴の計算と予測にいくつかの一般に利用できるプログラムを使用します。 相同性検索のためのPSI-BLAST、タンパク質配列データベースのクラスタリングのためのCD-HIT (Li and Godzik, 2006) 、コイルドコイル領域の予測のためのCOILS (Lupas et al., 1991) 、TMHMM (Krogh et al…) 。 2001)、膜貫通ヘリックス予測用、シグナルペプチド予測用RPSP(Plewczynskiら、2007)、低複雑性領域計算用SEG(Wootton、1994)、二次構造予測用PSIPRED(Jones、1999)、DISOPRED2(Wardら、,

ACKNOWLEDGEMENTS

この研究は、NIH Protein Structure Initiative grants U54 GM074898 (JCSG) and P20 GM076221 (JCMM) によって支援されました。

利益相反:何も表明していません。

Berman
HM

, et al.

The Protein Data Bank

,

Nucleic Acids Res

,

2000

, volume.

28

(pg.

235

242

)

Bertone
P

、etc.

SPINE: an integrated tracking database and data mining approach for identifying feasible targets in high-throughput structural proteomics

,

Nucleic Acids Res

,

2001

, vol.

29

(pg.No.1).

2884

2898

Canaves
JM

, et al.

Protein biophysical properties that correlate with crystallization success in Thermotoga maritima: maximum clustering strategy for structural genomics

,

J. Mol. Biol

,

2004

, vol.

344

(pg.

977

991

)

Chandonia
JM

, et al.・・・・

Biol>Biol

,

2003

, vol.

344

(p.

97)

JM

, p.

979

, p.

979

979

– Target selection and deselection at the Berkeley Structural Genomics Center

,

Proteins

,

2006

, vol.

62

(pg.).

356

370

Chen
L

, et al.

TargetDB: a target registration database for structural genomics projects

,

Bioinformatics (Oxford, England )

,

2004

, volume.

20

(pg.

2860

2862

)

Creighton
TE

. ,

Proteins: Structure and Molecular Properties

,

1984

New York

W. H. Freeman and Co
Genest

C

, et al.

Aggregating opinions through logarithmic pooling

,

Theor. Decis

,

1984

, vol.

17

(pg..

61

70

Gill
SC

,

von Hippel
PH

に掲載されています。

アミノ酸配列データからのタンパク質消光係数の計算

,

Anal. Biochem

,

1989

, vol.

182

(pg.

319

326

)

Goh
CS

, et al.,(C)Kelifornia Institute of Technology, Japan, Inc.

Mining the structural genomics pipeline: identification of protein properties that affect high-throughput experimental analysis

,

J. Mol. Biol

,

2004

, vol.

336

(pg.

115

130

)

Guruprasad
K

、その他、”Guru “Guruprasad、”Guru”

Guruprasad>、その他。

タンパク質の安定性とそのジペプチド組成の相関:一次配列からタンパク質の生体内安定性を予測する新規アプローチ

,

Protein Eng

,

1990

, vol.

4

(pg.

155

161

)

Jones
DT

に掲載された。

Protein secondary structure prediction based on position-specific scoring matrices

,

J. Mol. Biol

,

1999

, vol.

292

(pg.

195

202

)

Krogh
A

, et al.・・・

Kurogh、

A

A

Krogh

Krogh、

Krogh、

A

A

, et al.

Predicting transmembrane protein topology with a hidden Markov model: application to complete genomes

,

J. Mol. Biol

,

2001

, vol.

305

(pg.

567

580

Kyte
J

,

Doolittle
RF

.

A simple method for displaying the hydropathic character of a protein

,

J. Mol. Biol

,

1982

, vol.

157

(pg.

105

132

Li
W

,

Godzik
A

.

Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequences

,

Bioinformatics (Oxford, England )

,

2006

, vol.

22

(pg….

1658

1659

Lupas
A

, et al.

Predicting coiled coils from protein sequences

,

Science

,

1991

, vol.

252

(pg.).

1162

1164

Oldfield
CJ

, et al.

Addressing the intrinsic disorder bottleneck in structural proteomics

,

Proteins

,

2005

, volume.

59

(pg.

444

453

)

Overton
IM

,

Barton
GJ

に記載されている。

A normalised scale for structural genomics target ranking: the OB-Score

,

FEBS Lett

,

2006

, vol.

580

(pg.).

4005

4009

Plewczynski
D

, et al.

The RPSP: Web server for prediction of signal peptides

,

Polymer

,

2007

, vol.

48

(pg.).

5493

5496

Slabinski
L

, et al.

タンパク質構造決定への挑戦-構造ゲノム科学からの教訓

,

Protein Sci

,

2007

, vol.

16

(pg.

2472

2482

)

Smialowski
P

, et al.

Will my protein crystallize? A sequence-based predictor

,

Proteins

,

2006

, vol.

62

(pg.

343

355

)

Ward
JJ

、etc.

生命の3つの王国に由来するタンパク質における天然無秩序の予測と機能解析

,

J. Mol. Biol

,

2004

, vol.

337

(pg.

635

645

)

Wootton
JC

に記載されています。

Non-globular domains in protein sequences: automated segmentation using complexity measures

,

Comput. Chem

,

1994

, vol.

18

(pg.

269

285

)

著者ノート

Associate Editor(アソシエイト・エディター)です。 Thomas Lengauer