はじめに

2022/07/07に自身がこれまで取り組んできた研究成果をまとめた論文がBiomedicines誌に掲載されました。

Kosugi, T.; Ohue, M. Solubility-Aware Protein Binding Peptide Design Using AlphaFold. Biomedicines 2022, 10, 1626. https://doi.org/10.3390/biomedicines10071626

一体どんなことをやったのかということを、ざっとFigureをベース解説していきたいと思います。（ちょっと論文調の感じで分かりづらかったらTwitterで質問してください。）

ざっくりというと、AlphaFold2のペプチドドッキングにおいて、AlphaFold2の信頼性指標のpLDDTやPAEやdistogramだけでなく、さらにアミノ酸の溶解度指標による損失関数を作成し、backpropさせることで、ターゲットタンパク質に結合が期待できかつ脂溶性が高すぎないようなペプチド配列をデザインする技術を開発しました。

この論文はCC BY 4.0として、内容の翻訳解説やFigureを転載しています。

論文概要

近年、新しいタンパク質-タンパク質相互作用（PPI）が発見されているものの、PPIは従来のリガンドポケット型等の標的とは異なり、PPI界面は広く、浅いという特徴のため、そのような領域に低分子化合物をモダリティとすることは難しいことが知られています^{9, 11}。ペプチドはPPIを標的とする新しいモダリティですが、計算によって、ターゲットタンパク質に結合し得る適切なペプチド配列を設計することも困難でした。しかし、2021年AlphaFoldやRoseTTAFoldの開発により^{29, 30}、アミノ酸配列から超高精度にタンパク質構造を予測することが可能となり、その結果、ある立体構造を形成しうる配列をデザインするde novoタンパク質設計が可能になりつつあります^{33-35, 50}。

そのde novoタンパク質設計手法の中でも、私の研究室ではSergey先生が開発を進めている、AlphaFoldを用いたde novoタンパク質設計法であるAfDesign³⁶のbinder hallucinationプロトコルであれば、ターゲットタンパク質に結合し得る適切なペプチド配列を設計することが比較的容易にできるのではないか？と考え、ターゲットタンパク質としてPPIを持つ可能性の高いペプチドを設計しました。しかし，そのペプチドの溶解度はnativeのペプチドに比べると低い傾向にありました。そこで、Hydropathy Indexのようなアミノ酸の溶解度指標 (solubility index)を用いて、AfDesignの損失関数に合うように溶解度損失 (solubility loss)を設計し、溶解度を考慮したAfDesignのbinder hallucinationプロトコルを開発しました。

このプロトコルを用いて設計された配列のペプチド溶解度は、solubility lossの重みとともに増加し、さらにsolubility indexの特性を捉えていることが確認でき、さらに、ターゲットタンパク質とペプチドのドッキングによる結合親和性評価によって、この新しいプロトコルの配列は、ランダムまたはnativeの1残基置換の配列よりも高い親和性を持つ傾向がありました。

MDM2/p53を例として、溶解性を制御しながらPPIの界面に結合できるペプチド配列を設計することが可能であることが示されました。

結果詳細

詳細は、論文を読んできただけれたらと思いますが、Figureの流れに合わせて、ポイントだけ。論文はオープンアクセスなので、論文と照らしてみていただければと思います。

溶解度を考慮したペプチドデザインをするために、３つのアミノ酸のsolubility index^41-43を用いて、solubility lossを設計しAfDesignに導入しました（Figure 1）（3つのindexで検討したのは比較検討をしたかったから。約40年前に検討されたsolubility indexが適切なのか、それとも近年機械学習で溶解度予測に使われている重みをsolubility indexとしたものが適切なのか等。）

Figure 1. Schematic of the optimization method of the AfDesign binder hallucination.

"開発された当時"のAfDesignのデフォルト設定で、binder hallucinationをMDM2に適用すると、溶解度がnative binding peptide のp53よりも低い傾向でした。そしてその配列群のWeblogoは中央に疎水性・芳香族アミノ酸が集中していることがわかりました。（Figure 2）

Figure 2. Distribution of logS of MDM2 binder sequences designed by AfDesign and sequence logo of the binder sequences.

溶解度を考慮し設計されたペプチド配列の溶解度（logS）は、すべてのsolubility indexにおいて、solubility lossの重みとともに増加し、そのsolubility indexの特徴も捉えていることがわかりました。(Figure 3, Figure 4, Supplementary Table 1-2)

Figure 3. Distribution of logS for various weights of sequences designed in AfDesign using three solubility indices.

Figure 4. Sequence logos designed by AfDesign binder hallucination with solubility loss for each weight parameter.

溶解度を考慮し設計されたペプチド配列の結合親和性はベンチマークで評価されたAutoDock CrankPep^{44, 51}を用いて計算されました。その結合親和性はsolubility indexによって異なる傾向を示し、特にHydrophobicity Indexは重みの増加とともに、結合親和性が悪くなる傾向が見られました（Figure 5）（エネルギーが低いほど結合親和性が高く、良い。なので分布が左に行くほど結合親和性が高く、良いということです。）

Figure 5. Distribution of binding affinity for various weights of sequences designed in AfDesign using three solubility indices.

溶解度と結合親和性の関係性を調べたところ、Hydrophobicity Indexは溶解度が向上するものの、結合親和性も低下する傾向があり、Hydropathy IndexとSolubility-Weighted Indexに関しては、溶解度が向上しつつ、結合親和性も向上する傾向があありました。特にHydropathy Indexではその傾向が顕著でした。(Figure 6)

Figure 6. Scatter plots of binding affinity and logS for various weights of sequences designed in AfDesign using three solubility indices.

最後のFigureに行く前にsupplementary figureの説明に入ります。

デタラメな配列でも結合親和性が高くなる傾向がある可能性を否定するため、ランダム配列の結合親和性を計算、比較しました。さらに、溶解度を考慮したデザイン配列がnativeのp53配列およびその1残基置換配列の結合親和性を計算、比較しました。ランダム配列の結合親和性の分布は最も低めであり、nativeのp53の１残基置換配列の結合親和性の分布はランダム配列の結合親和性の分布よりは高いものの溶解度を考慮した配列の結合親和性の分布よりは低めでした。（Supplementary Figure 1）

Fig. S1. Comparison of MDM2 bind- ing affinities between random sequences and one residue substitution sequences of p53 peptides and se designed by AfDesign.

溶解度と結合親和性の評価に加え、PyMOLを用いた可視化、DockQを用いたドッキングの評価も行いました。（Supplementary Figure 2）AfDesignのbinder hallucinationプロトコルでSolubility-Weighted Indexをsolubility indexとして設計した配列の中から、p53ペプチド配列よりも高いlogSで結合親和性のが最も高い配列とnativeの立体構造を比較すると、その座標はp53ペプチドとほぼ同じでした。DockQ scoreは0.500で、ペプチドの主鎖原子のRMSDであるLRMSは5.303Å、リガンド間の界面にある残基の重原子のRMSDであるiRMSは2.294Åと算出されました。これはCAPRIのタンパク質-タンパク質ドッキング基準では中程度の品質とされ、AfDesign binder hallucinationプロトコルでSolubility-Weighted Indexをsolubility indexとして設計した配列がMDM2にドッキングする妥当性が示されました。（シアン：p53, マゼンダ：設計配列, 緑・白: MDM2）

Fig. S2. Comparison of crystal structures and three-dimensional (3D) structures predicted by AfDe- sign.

実際の設計時におけるsolubility lossのiterationごとの変化を中央値で比べてみると、solubility indexを用いない方が設計時のstageの変化によるlossの変化が少ない。これは，溶解度が低くなりがちな配列の溶解度を最適化することと，最適な複合体を形成しそうなペプチド配列を最適化することのトレードオフといえる可能性がわかりました。（Supplementary Figure S3）

Fig. S3. Comparison of each solubility index at the median of the AfDesign loss values.

また、MDM2/p53複合体でだけでなく、βシート同士のPPI事例としてPD-1/PD-L1複合体のPD-1をターゲットタンパク質として、同様にbinderを設計したところ、結合親和性に関してランダム配列とあまり違いがなく、Hydropathy Indexを用いた場合だけランダム配列よりも結合親和性の向上が見られました。（Supplementary Figure S4）

Fig. S4. Comparison of PD-1 binding affinity between random sequences and sequences designed in AfDesign with each solubility index.

p53 like peptideとして実験的に結合親和性も確認されている超高結合親和性であるPDIQ⁵⁵を今回の検討と合わせるためにC末端に"N"を付加した配列の溶解度と結合親和性を計算し、フィルタリングし、その中から結合親和性が最も高い配列（我々がデザインした高親和性配列）を用いて、以下の検討を行いました。
フィルタリングの結果、solubility indexを用いなかった場合は配列が残りませんでした。Solubility-Weighted Indexを用いた場合の配列は600個中9個、Hydropathy Indexを用いた場合の配列は600個中90個、Hydrophobicity Indexを用いた場合の配列は600個中2個が残りました。Hydropathy Indexを用いた場の90配列についてWeblogoで可視化すると、PDIQと同様に、6番目と7番目の残基は主に'W'であり、5番目の残基は'Y'である傾向があり、結合親和性を高めると考えられ、C末端とN末端の残基は'E'と'D'の傾向があり、全体的に溶解性を高めている可能性があると考えられました。

Fig. S5. Weblogo of sequences designed with AfDesign binder hallucination using the Hydropathy Index as a solubility index. Using 90 sequences filtered by logS and binding affinity thresholds for PDIQ + ‘N’ peptide.

native peptideであるp53 peptide 配列とcompetitorとして我々がデザインした高親和性配列を用いて、近年報告があったAlphaFoldを用いたcompetitive peptide binding prediction⁴⁹をColabFoldを用いて行いました（20runs x 5models = 100 predictions）。20runsのtop-rank1の全てにおいて、competitorである我々がデザインした高親和性配列の構造がMDM2のPPI結合界面に位置していました。（Supplementary Figure S6）(シアン：競合結合で飛ばされたp53, マゼンダ：我々がデザインした高親和性配列, 緑: MDM2)

Fig. S6. All top rank models from competitive peptide binding prediction of MDM2 with p53 and our highest affinity peptide consistently indicate the highest affinity peptide as the strong binder.

さらに、100predictions中1例を除き、competitorである我々がデザインした高親和性配列のほうがp53 peptide 配列よりもplDDTがやや高い傾向くRMSDが低いという結果になった。（Supplementary Figure S7, Supplementary Table S9）これは、competitorである我々がデザインした高親和性配列のほうがp53 peptide 配列より結合親和性が高いことを示唆しており、これまでの結果と整合性が合うと考えられました。（左側13残基がcompetitorである我々がデザインした高親和性配列、中央はMDM2、右側13残基がp53 peptide配列を示していて、competitorである我々がデザインした高親和性配列のほうがplDDTが高い傾向があることがわかります。更にRMSDとの整合性もありました。）

Fig. S7. Heatmap of all pLDDT values in predictions of competitive peptide binding of the competitor peptide and p53 peptide with MDM2 using ColabFold.

そして、最後に、PLIP⁴⁹を用いて、MDM2/p53の原子間相互作用とMDM2/我々がデザインした高親和性配列の原子間相互作用を比較しました。その結果、MDM2の共通する残基において、いくつかの塩橋・疎水性結合が見られました。MDM2/p53のおける共通の相互作用がColabFoldを用いた設計ペプチドのモデルでも再現されていることが示されました。（Figure 7）

Figure 7. Interatomic interaction analysis for MDM2 with the designed peptide DEVYYWYYHLEND and p53 peptide using PLIP.

まとめ

本研究では、AfDesignのbinder hallucination protocolをPPI標的ペプチド設計に適用し、ペプチドの配列設計と溶解度の制御の同時最適化を試みました。

AfDesignの柔軟な損失関数の概念により、その損失関数ににsolubility indexを用いたsolubility lossを加えることで溶解度をコントロールしながら、PPI界面に結合しそうなペプチドを設計することができました。
ドッキングと競合ペプチド結合予測による結合親和性の評価により、PPIをターゲットタンパク質としたネイティブペプチドの結合親和性よりも高いペプチド配列を設計することができました。
さらに、ネイティブのMDM2/p53複合体の原子間相互作用と比較した結果、設計したペプチドはMDM2の共通アミノ酸残基とも原子間相互作用を持つことがわかりました。

これらの結果から、本手法はPPIを標的としたペプチドデザインを用いた創薬に役立つ可能性があると考えられます。

コード

論文で用いられている、3つのSolubility index及びその重みを設定しつつ、AfDesignのbinder hallucinationを実行できるコード・Colab用のnotebookはGitHubで公開しています。 github.com

参考文献

上付きの数字は論文に合わせています。とりあえずブログで引用した分は書いておきます。

Shin, W.-H.; Kumazawa, K.; Imai, K.; Hirokawa, T.; Kihara, D. Current challenges and opportunities in designing protein–protein interaction targeted drugs. Adv. Appl. Bioinform. Chem. 2020, 13, 11–25.
Kosugi, T.; Ohue, M. Quantitative Estimate Index for Early-Stage Screening of Compounds Targeting Protein-Protein Interactions. Int. J. Mol. Sci. 2021, 22, 10925.
Jumper, J.; Evans, R.; Pritzel, A.; Green, T.; Figurnov, M.; Ronneberger, O.; Tunyasuvunakool, K.; Bates, R.; Žídek, A.; Potapenko, A.; et al. Highly Accurate Protein Structure Prediction with AlphaFold. Nature 2021, 596, 583–589.
Baek, M.; DiMaio, F.; Anishchenko, I.; Dauparas, J.; Ovchinnikov, S.; Lee, G.R.; Wang, J.; Cong, Q.; Kinch, L.N.; Schaeffer, R.D.; et al. Accurate Prediction of Protein Structures and Interactions Using a Three-Track Neural Network. Science 2021, 373, 871–876.
Anishchenko, I.; Pellock, S.J.; Chidyausiku, T.M.; Ramelot, T.A.; Ovchinnikov, S.; Hao, J.; Bafna, K.; Norn, C.; Kang, A.; Bera, A.K.; et al. De Novo Protein Design by Deep Network Hallucination. Nature 2021, 600, 547–552. [Google Scholar] [CrossRef]
Cao, L.; Coventry, B.; Goreshnik, I.; Huang, B.; Park, J.S.; Jude, K.M.; Marković, I.; Kadam, R.U.; Verschueren, K.H.G.; Verstraete, K.; et al. Design of Protein Binding Proteins from Target Structure Alone. Nature 2022, 605, 551–560. [Google Scholar] [CrossRef] [PubMed]
Jendrusch, M.; Korbel, J.O.; Sadiq, S.K. AlphaDesign: A de Novo Protein Design Framework Based on AlphaFold. bioRxiv 2021.
GitHub, AfDesign (v1.0.2); GitHub: San Francisco, CA, USA, 2022. Available online: https://github.com/sokrypton/ColabDesign/tree/main/af(accessed on 14 March 2022).
Bhandari, B.K.; Gardner, P.P.; Lim, C.S. Solubility-Weighted Index: Fast and Accurate Prediction of Protein Solubility. Bioinformatics 2020, 36, 4691–4698.
Argos, P.; Rao, J.K.M.; Hargrave, P.A. Structural Prediction of Membrane-Bound Proteins. Eur. J. Biochem. 1982, 128, 565–575.
Kyte, J.; Doolittle, R.F. A Simple Method for Displaying the Hydropathic Character of a Protein. J. Mol. Biol. 1982, 157, 105–132.
Zhang, Y.; Sanner, M.F. AutoDock CrankPep: Combining Folding and Docking to Predict Protein–Peptide Complexes. Bioinformatics 2019, 35, 5121–5127.
Adasme, M.F.; Linnemann, K.L.; Bolz, S.N.; Kaiser, F.; Salentin, S.; Haupt, V.J.; Schroeder, M. PLIP 2021: Expanding the Scope of the Protein-Ligand Interaction Profiler to DNA and RNA. Nucleic Acids Res. 2021, 49, W530–W534.
Norn, C.; Wicky, B.I.M.; Juergens, D.; Liu, S.; Kim, D.; Tischer, D.; Koepnick, B.; Anishchenko, I.; Foldit Players; Baker, D.; et al. Protein Sequence Design by Conformational Landscape Optimization. Proc. Natl. Acad. Sci. USA 2021, 118, e2017228118.
Weng, G.; Gao, J.; Wang, Z.; Wang, E.; Hu, X.; Yao, X.; Cao, D.; Hou, T. Comprehensive Evaluation of Fourteen Docking Programs on Protein–Peptide Complexes. J. Chem. Theory Comput. 2020, 16, 3959–3969.

最後に

今回の論文はTwitterでいろんな方に助けていだきました。

ColabFoldをローカルのマシーンで使えるlocalcolabfoldの開発者である森脇先生には、別件で、MSAを再取得する必要がない場合には、a3mを入力するといいよと教えていただきました。ペプチドにはMSAは必要がなく、MDM2のMSAはすでに持っている状態だったので、この入力方法でCompetitive Peptide Binding Predictionsを行いました。

@ddd_ppp_storyさんには原子間相互作用をいい感じに可視化したい時にPLIPというツールを教えてくださいました。最終的にはデザイン配列とp53配列の比較としてmain figureにすることができました。

PLIPとかどうでしょう？https://t.co/4DT9w5LFrK
— Terrari et al. (@ddd_ppp_story) 2022年6月29日

@jvarga92さんにはPyMOLを使ってMDM2でalignしたあとにp53やデザインしたペプチドのRMSDを計算の仕方がいまいちわからなかった時に教えていただきました。こちらも計算結果をSupplementary Table S9に載せることができました。

Do align (or super) just on the receptor chains: 'align obj1 and chain A, obj2 and chain A'. Then, you can calculate rmsd with 'rms_cur obj1 and chain B, obj2 and chain B' https://t.co/HNiByLZr0W
— Varga Julia (@jvarga92) 2022年6月29日

そして、もちろん論文にも記載していますがSergey先生が開発したAfDesignを用いて今回の論文を構成しました。当時はまだTwitter上でもほとんどコミュニケーションをしてはいなかったのですが、今では、更に進化したbinder hallucinationの実装について議論させていただいてます。

ここには挙げきれていない先生方もいらっしゃいますが、本当にありがとうございました。これからもよろしくおねがいします。

くろたんく雑記帳

日常とか、わんちゃんとか、機械学習とか、競プロとか、

Solubility-Aware Protein Binding Peptide Design Using AlphaFoldがPublishされました

はじめに

論文概要

結果詳細

まとめ

コード

参考文献

最後に