シグナルペプチド予測の基本と最新ツールの活用法

シグナルペプチド予測はバイオインフォマティクス解析の基礎ですが、SignalP 6.0など最新ツールの選び方や落とし穴を正しく理解していますか?医療従事者が知るべき実践的な活用法を解説します。

シグナルペプチド予測を正しく活用するための完全ガイド

SignalPで予測できても、それだけでは局在の半分しかわからない。


この記事の3つのポイント
🔬
シグナルペプチドの構造と予測の意義

シグナルペプチドはn・h・c領域の3構造からなり、タンパク質の分泌・輸送を制御する。その予測はバイオ医薬品開発にも直結する重要技術です。

🖥️
SignalP 6.0など主要ツールの特徴と使い方

SignalP 6.0はタンパク質言語モデルを用いて5種類全タイプのシグナルペプチドを予測できる最新ツール。TargetPやDeepLocとの使い分けが解析精度に影響します。

⚠️
予測の落とし穴と複数ツール併用の重要性

シグナルペプチド予測だけでタンパク質の局在を決めつけるのは危険。膜貫通領域との混同や偽陽性リスクを避けるための実践的な対策を解説します。


シグナルペプチド予測の基本:アミノ酸配列と3つの構造領域

シグナルペプチドとは、タンパク質分子のN末端に位置する、わずか3〜60アミノ酸ほどの短いペプチド配列です。細胞質内で合成されたタンパク質が正しい場所へ届くための「アドレスラベル」として機能します。この配列がリボソームで翻訳されると、シグナル認識粒子(SRP)がただちにそれを認識し、タンパク質を小胞体膜上の受容体へと誘導します。


つまり、タンパク質の最終的な局在は、このシグナルペプチドによって決まるということです。


シグナルペプチドの構造は、大きく3つの領域に分けられます。まず「n領域(N-terminal region)」は正に帯電したアミノ酸を含む塩基性の領域です。次に「h領域(hydrophobic region)」は5〜15残基ほどの疎水性アミノ酸が連続する中心部で、膜への挿入に最も重要な役割を果たします。そして「c領域(cleavage region)」はシグナルペプチダーゼによる切断部位を含む極性領域です。この3領域の構成を理解しておくことが、予測ツールの出力結果を正しく解釈するうえで不可欠な基礎になります。


医療研究の現場において、このシグナルペプチドの予測はきわめて実践的な意義をもちます。たとえば抗体医薬品やサイトカイン製剤など、体外で産生させるバイオ医薬品では、目的タンパク質を培養液中に確実に分泌させるためにシグナルペプチドの設計と検証が欠かせません。また、東京大学大学院農学生命科学研究科では2023年4月から「シグナルペプチドーム研究」の社会連携講座が設置され、癌・神経系疾患・感染症・希少疾患などの治療薬創出を目指した研究が進んでいます。シグナルペプチド予測は、もはや基礎研究だけにとどまらない技術です。


東京大学「シグナルペプチドーム研究」社会連携講座の設置概要(東京大学大学院農学生命科学研究科)


シグナルペプチド予測の主要ツール:SignalPの選び方と使い方

シグナルペプチド予測の分野で最もよく使われているツールが、デンマーク工科大学(DTU)が開発・公開している「SignalP」です。現在の最新版はSignalP 6.0で、2022年1月にNature Biotechnology誌に掲載されました。これが重要なのは、SignalP 5.0まで検出できていなかったSec/SPIIIなど、5種類全タイプのシグナルペプチドを一度に予測できるようになったからです。


これは大きな進化です。


SignalP 6.0の大きな特徴は、タンパク質言語モデル(LM)を採用していることです。従来の機械学習ベースとは異なり、数百万の未注釈タンパク質配列から生物学的な文脈を学習したモデルを使って予測を行います。おかげで、シグナルペプチドの種類ごとに、n領域・h領域・c領域のサブ領域の位置まで出力できます。また、配列同一性が低い遠縁のタンパク質や、起源が不明なメタゲノムデータにも適用可能である点が、従来版との大きな違いです。


































ツール名 対応生物種 主な特徴 URL(DTU)
SignalP 6.0 全生物(真核・原核・古細菌) 5タイプ全SPを予測、言語モデル採用 services.healthtech.dtu.dk
TargetP 2.0 真核生物・植物 ミトコンドリア・葉緑体移行シグナルも含む局在予測 services.healthtech.dtu.dk
Phobius 全生物 SP+膜貫通領域を同時予測 phobius.sbc.su.se
DeepLoc 2.0 真核生物 細胞内11箇所の局在を多ラベル予測 services.healthtech.dtu.dk


SignalP 6.0のウェブサーバーへは、アミノ酸配列をFASTA形式で貼り付けるか、ファイルをアップロードするだけで使えます。1回に最大5000配列まで処理可能ですが、100配列を超えるとタイムアウトのリスクがあるため、大量配列を処理する場合はローカル版(Linux・macOS対応)の利用が推奨されます。出力結果には、シグナルペプチドの有無を示す確率スコア、推定される切断部位の位置、各サブ領域の範囲が含まれます。


SignalP 6.0の詳細解説と出力結果の読み方(bioinformatics解説ブログ:kazumaxneo氏)


シグナルペプチド予測の落とし穴:膜貫通領域との混同と偽陽性リスク

予測ツールを使いこなすうえで、絶対に知っておかなければならない落とし穴があります。それは「シグナルペプチドと膜貫通領域の混同」です。両者はともに疎水性アミノ酸の連続領域(h領域)を持つため、ツールによっては正しく区別できないことがあります。SignalP単体では膜タンパク質の膜貫通ドメインをシグナルペプチドとして誤判定してしまう場合があるのです。


膜タンパク質の解析では、要注意です。


この問題を回避するために有効なのが「Phobius」の活用です。PhobiusはSignalPと異なり、シグナルペプチドと膜貫通領域の両方を同時にモデル化して予測するため、膜タンパク質のシグナルペプチドについてより高精度な判定が期待できます。東京大学のバイオインフォマティクス教材でも、膜貫通タンパク質の解析においてPhobiusとSignalPの両方を確認することが推奨されています。


さらに、SignalP 5.0以前のバージョンには、Sec/SPII(原核生物のリポタンパク質シグナル)やSec/SPIII(IV型ピリン様タンパク質のシグナル)など、一部のシグナルペプチドタイプを検出できないという根本的な制限がありました。そのため、原核生物の分泌タンパク質解析では、旧バージョンを使い続けることでそもそも見逃しが生じるリスクがあります。SignalP 6.0への移行が強く推奨されます。


また、切断部位の予測精度は、SignalP 3.0から4.0への改訂時に6〜17%向上したとの報告があります。これはアミノ酸1〜2個分の誤差が解消されたことを意味し、組換えタンパク質の設計においては無視できない改善です。研究や臨床応用の精度を担保したいなら、使用しているツールのバージョン確認は必須です。


SignalP 3.0における偽陽性排除と切断部位予測精度の向上に関する論文要約


シグナルペプチド予測だけでは不十分な理由:局在解析との組み合わせ

多くの研究者が見落としがちな重要な事実があります。シグナルペプチドが「ある」と予測されても、それだけではタンパク質がどこに局在するかを確定することができません。これは原則です。


たとえば、シグナルペプチドを持ちながらGPIアンカーを介して細胞膜外側に留まるタンパク質や、分泌経路を経た後に特定のオルガネラに保持されるタンパク質など、さまざまなパターンが存在します。SignalP 6.0の公式ページでも「シグナルペプチドの有無がタンパク質の局在の全てではない」と明記されています。


この点に対応するために活用したいのが「DeepLoc 2.0」です。DeepLoc 2.0は真核生物タンパク質の細胞内局在を、核・細胞質・ミトコンドリア・小胞体・ゴルジ体・細胞膜・細胞外など11カテゴリにわたって多ラベルで予測することができます。シグナルペプチド予測の結果と組み合わせることで、「分泌経路に乗ったうえで最終的にどこに行くのか」まで推定できます。これは使えそうです。


また、植物や酵母などを扱う場合は「TargetP 2.0」も有用です。TargetP 2.0はミトコンドリア移行シグナル(mTP)、葉緑体移行シグナル(cTP)、シグナルペプチド(SP)の3種類を識別し、N末端の130残基を評価して局在を予測します。真核生物全体の研究に幅広く対応しており、SignalPと相補的に用いることで解析の信頼性を高められます。


| 解析の目的 | 推奨ツールの組み合わせ |
|---|---|
| 分泌タンパク質の同定 | SignalP 6.0 |
| 膜タンパク質の解析 | SignalP 6.0 + Phobius |
| 真核生物の局在全体像 | SignalP 6.0 + DeepLoc 2.0 |
| 植物・ミトコンドリア | SignalP 6.0 + TargetP 2.0 |


DeepLoc 2.0を用いた細胞内局在予測の実践的な使い方(Qiita:ONIGO氏)


シグナルペプチド予測の医療・創薬への応用:独自視点

シグナルペプチドの予測技術は、バイオインフォマティクスの解析ツールとしてだけでなく、医療・創薬の実践的な場面でも急速に応用が広がっています。その背景を理解することが、医療従事者にとっての「使える知識」になります。


たとえばCHO細胞(チャイニーズハムスター卵巣細胞)を用いた抗体医薬品の製造では、免疫グロブリン軽鎖(LC)のシグナルペプチドの切断工程に不具合が生じると、凝集を起こしやすい異常な軽鎖が産生され、正常な高次構造の形成が阻害されることが報告されています。これは製造バッチ全体の品質に直結する問題です。切断部位を正確に予測し、適切なシグナルペプチドを設計することが、製品の安定的な製造を支える鍵になります。


また、東京大学では2023年から「シグナルペプチドーム研究」という新しい概念のもと、ヒト体内に存在するすべてのシグナルペプチドを網羅的に解析し、がん・神経系疾患・感染症・希少疾患の治療薬創出につなげる研究が動き出しています。東亞合成株式会社との産学連携による3年間のプロジェクトです。シグナルペプチドが「タンパク質の輸送ラベル」にとどまらず、生命現象の根幹に関わる独自の機能を持つ可能性があるという視点は、今後の医療研究を大きく塗り替えるかもしれません。


さらに、SignalP 6.0をはじめとするAI・機械学習ベースの予測ツールは、未注釈のメタゲノムデータへの適用が可能になったことで、未知の感染症病原体のタンパク質機能解析にも応用できます。環境中や腸内から採取された未培養微生物のゲノム情報から、分泌タンパク質の候補を絞り込むことができるわけです。これは医療の現場から少し遠い話に感じるかもしれませんが、新興感染症対策を含む予防医学の文脈では非常に重要な技術的基盤となります。


医療従事者がこの技術の最前線を理解しておくことは、研究との橋渡しを担う立場としてますます重要になっています。シグナルペプチド予測への理解は、タンパク質医薬の有効性・品質・安全性を支える知識の一部です。


SignalP 6.0論文「タンパク質言語モデルを用いて全5タイプのシグナルペプチドを予測する」(Nature Biotechnology日本語版)