Virtual Experiments 〜標的遺伝子をノックアウトした世界を生成する〜
2023.12.05仮説生成に特化した発見型概念検索AIシステム「KIBIT Amanogawa」
2023.12.19FRONTEOの論文検索AIシステム「KIBIT Amanogawa」は、独創的な「発見型概念検索」を取り入れることで、創薬研究者の仮説生成を加速させます。具体的にはどのように仮説生成を行っていくのか? KIBIT Amanogawaを開発したFRONTEO執行役員の豊柴博義が、実例を交えながら解説していきます。
株式会社FRONTEO
取締役/CTO
博士(理学)
豊柴 博義
早稲田大学大学院 理工学研究科数学専攻修了後、米国国立環境健康科学研究所等で、さまざまなデータの統計解析を用いた研究に従事。2017年よりFRONTEOでライフサイエンスAIの開発に従事。ライフサイエンスの領域に特化したAIアルゴリズムを開発。テキストのベクトル化という特徴を生かし、現在までに論文探索、創薬支援、認知症診断支援、転倒予測などのさまざまなビジネスをこのアルゴリズムをベースに開発している。2019年よりライフサイエンスAI CTO。2021年には執行役員に就任。AIの社会実装を更に推進する。
一例としてパーキンソン病と繋がりのある分子を検索
我々の仮説生成は、実際には多くの情報を含んでいますが、今回はその一部をお伝えします。一例として、パーキンソン病(Parkinson's Disease)を意味するPDと、ターゲットを見るベースとしてgenetics(遺伝学)、興味深いと思うlate-onset(遅発性)をクエリーに入力しました。また、なるべく新しい論文を見るために下のスライドバーを2000年以降に設定して検索します。
「トップ100」の論文リストを表示
検索結果はこちらです。KIBIT Amanogawaの特徴として、全体の論文がどのように分布しているかを示すスペースマップ(スライド左側二段目)があります。ひとつの点が、ある論文のabstractであり、点と点の距離は類似度・関連度を表し、近いほど類似性・関連性があることを示します。少々見えづらいですが、その中の白い丸が実際に入力したクエリーで、このクエリーの周りには、クエリーの類似性・関連性の高い論文があります。周りにどんな論文があるか、エリアを選んで検索することもできます。興味深い論文があった場合、その周りを選ぶと、類似した論文を見つけることもできるわけです。
メッシュターム(文献の主題、内容を表すキーワード)を抽出した部分もあるので、これをベースにクラスターにどんな内容の論文が多く含まれているか、自分が興味あるタームに対してどのクラスターが関連しているかといったことも見ることができます。
この色付けになっているのがクラスター(スライド左側三段目)ですが、 クラスターごとにどのぐらい論文が何年ぐらいに出ているかというのも見られます。
自分が興味ある内容がどのぐらいから研究が盛んになっているか、あるいは現状全く研究が進んでいない分野がどこか、というのも見ることができます。
論文のリストがトップ100まで表示されるので(スライド左側四段目)、その中から自分が興味深い文献を選んで、チェックを入れると上のスペースマップで見たい論文がどの位置にあるかが分かるので、それをベースに近くにある、類似性・関連性の高い論文を見つけていく形になります。
この例ではいくつかgeneticsに関連する論文が出てきましたが、その中の2018年のabstractを大きく拡大したものがスライドの右下部分になります。
今回、late-onset(遅発性)を設定しましたが、この5行目のbeyond familial and early-onset casesという一文のあと、SNCA、LRRK2、VPS35の3つの分子が出てきます。
その後でearly-onset(早発性)についての話もありますが、まずはこの3つの分子にフォーカスしていきたいと思います。
この中で私が一番知らなかった分子であるVPS35が出てきました。この、私が予測できなかった分子の出会いを大切にしています。ここから新たな発見につながることがあるからです。そして、この分子について調べるために、次のステップに進みます。
興味ある分子をさらに掘り下げていく
まず、Hypothesis(仮説)の欄にVPS35と入力して、Abstractの中でもVPS35に特化した内容になるようにフィルターをかけ、スライドバーは2010年以降に設定します。
こうするとPubMedで検索するのと同じ結果が出るのでは、と思うかもしれませんが、KIBIT Amanogawaならではの結果がしっかりと出てきます。VPS35に類似性・関連性の深いものから論文を拾ってきます。
「クラスター2」に注目して実際にVPS35の分子について見てみると、new cause of late-onsetとあります。VPS35で検索する前、late-onsetに興味があると話しましたが、early-onsetではなく、割と遅くから疾患が始まるものの一つとして上げられていることが分かります。
またabstractを見ると、よくあるmutation(突然変異)だとloss-of-function(機能喪失)が多いので、なかなか阻害剤で対応するのは難しいというケースがありますが、こちらはloss-of-functionではないという記載があるので、阻害剤でも狙えるようなターゲットということで、さらに注目を増した形になります。
その他にも、この下流の方に2番目に近い、いわゆる2番目に関連性の高い論文としてKIBIT Amanogawaが見つけたものを見ていきます。
VPS35の特徴として、late-onsetに関連していることが論文上で知られていて、メカニズムの方もloss-of-functionではなく、gain-of-functionと表示されます。私の勝手な予測ですが、mutationsの入っているVPS35のタンパクが、late-onsetのパーキンソン病と関連していると考えています。
また、省きましたがニューロンの細胞がなくなる記述もあるので、それの表現形として関連しているということで記述します。
さらにクラスターの2番目の下の方の論文、7番目に出ているものですが、非常にKIBIT Amanogawaらしい例だと思います。
APP遺伝子のloss-of-functionがrescueすると書かれています。特に前述のVPS35のD620Nというmutationが起こっている、動物モデルのneurogenesisが起こっているケースで、このAPPのloss-of-functionがあるとrescueするという形になって、非常に興味深いなと思って挙げています。
今回は深掘りしませんが、APPはアルツハイマー病などでもよく知られている関連分子なので、VPS35がどのように関連しているかは非常に興味深いと思います。
先ほどの図で書くと、このAPPがVPS35のD620Nのmutationsから起こるNeural cell death(神経細胞死)を防ぐことで、何かしら関係があるんだろうと考えられます。
この図は、私が独自に書いています。仮説生成ですので、皆さんはご自身の書き方で思ったところにAPPを置いて、次に進んでいただければと思います。
細かいことを気にせず、見つけたことを図にしていく
次に私が見つけたのは、別のクラスターではなくもう1個上、3番目の論文です。
VPS35のmutant(突然変異体)がLAMP2Aのdegradation(劣化)をaccelerate(加速)するという論文です。ここで初めて直接VPSが関連していて、さらにfunctionalで非常にcloseな影響があるだろうというところでLAMP2Aが出てきます。
赤線を引いた箇所に注目して、先ほどの図に書き加えます。
LAMP2Aがdegradationしますが、それをaccelerateするというので、VPS35のD620Nのmutationsがあるとそうなるという風に考えられます。
これはどの細胞で起こっているのかと質問を受けることがたまにありますが、仮説生成する際はあまり細かいと仮説が作りにくいので、いったん見つけたことを図にしていくという形にしています。
α-synucleinについてもdegradationするという記述があるので、場合によってはその分子情報を書き込んでもいいですが、今回は簡単にLAMP2Aがdegradationされることだけを記述しています。
ここまで来るともう1つ面白いタームが出てきます。chaperone-mediated autophagyというもので、functionalになんとなく関連していそうだと考えました。
そこで、LAMP2Aとchaperone mediated autophagy で検索をかけました。クラスターの5番にHistone deacetylation 10のノックアウトのスタディ、その下にLAMP2Aのリン酸化がp38によって起こされるという題目の論文が出てきます。
まず非常に興味深いのが、p38によるリン酸化の論文です。ER stressからPERKが最初にactivationされて、その後にlysosomeにおけるp38がactivationされる、それがLAMP2Aをダイレクトにリン酸化すると記述があります。それを図に加えるとこのようになります。
ER stressからchaperoneへの繋がりという記述もありますが、それは図にするのが難しいので省いています。VPS35から始まった図が徐々にできあがってきました。
もう1つ、HDAC10の論文がありました。次はそちらを詳しく見てみます。abstractの赤字にしてある部分に面白い記述がありました。HDAC10をノックアウトすると、LAMP2Aのプロテインのレベルが増加する、lysosomeでaccumulate(蓄積)するというものです。これを図に書き加えるとこうなります。
First in classの可能性がある繋がりが見えてくる
ここで新たな仮説です。VPS35にmutationが入ると、LAMP2Aがdegradationされますが、LAMP2Aはchaperoneを経由したautophagyにとって非常に重要な分子で、これが入るとどんどんdegradationされて、autophagyが機能しなくなることになります。そこでHDAC10の阻害でHDAC10抑制し、結果的にLAMP2Aを増やせないかという発想が出てきます。
LAMP2Aが出てくるとパスウェイがactivationされてautophagyがしっかり機能して変なタンパクが溜まってくるのを徐々に排除するのではと考えられます。
HDAC10とパーキンソン病の関連は、実際にPubMedで検索してもヒットしないので、関連付けている人は少ないと思います。こうして1つずつ分子のメカニズムを紐解いていくと新たな繋がりが見えてくるという例です。First in classの可能性がある繋がりだと思います。
続いてp38とパーキンソン病の繋がりについて調べるために検索タームへ入れて、さらに今回注目してきたLAMP2Aでフィルターをかけてみると、非常に多くの情報があるabstractが出てきました。
赤字で示していますが、p38はα-synucleinのA53Tというmutationが入った分子によってoverexpression(過剰発現)されてactivateされるとあります。その後で、autophagyに関連するTFEBを阻害するとも書かれています。NLRP3はinflammasomeに関連するよく知られた分子ですが、それに関する記述もあります。
実際に動物モデルでp38のinhibitorを使った実験も途中に出てきていますが、SB203580を使ってneurodegenerationがvivoで抑えられると記述されています。
またNLRP3についても、実験で使えるレベルのinhibitorが存在していて、vivoで試すとneurodegenerationが抑えられるとあります。この辺りにchaperone-mediated autophagyに関連する記述もありますが、さらに下の方に興味深いことが書かれています。
TFEBのシグナルがnegativeにregulateしています。LAMP2Aのexpressionを増加させることによって、chaperone-mediated autophagyに関連するfunctionを通じて、NLRP3のdegradationがもたらされるだろうとあります。これを図に書き込んでみます。
α-synucleinのA53Tのmutationが入った分子の増加によってp38がactivateされてTFEBのリン酸化をもたらす。これはnegativeにregulateすると記述がありましたが、inhibitすることでLAMP2Aの活動を阻害する要素になるので、chaperoneに行くパスウェイが機能しなくなります。
一方で阻害剤を使うとLAMP2Aがactiveになるので、HDAC10と同様、chaperoneを介したautophagyが非常に活発になってNLRP3のdegradationがもたらされます。
このNLRP3が非常に増殖するとmicrogliaがactiveになって様々な炎症を起こすことが知られていますので、これがdegradationすることで惹起されたinflammation(炎症)の活動が抑えられると考えられます。
このように、少し調べただけでこのような形でメカニズムを少しずつ記述しながら、どこを阻害したらいいか、どんな分子が関連していそうだとアイデアを広げていくことができます。
今回は時間の都合上、さっと論文をさらった感じになりましたが、実際はメッシュタームやマップなど色々なfunctionがあり、周りにどんな文献があるかなどを見ながら進める形になります。
PubMedサイトで検索しても出てこない「新しい発見」がある
まとめますと、最初にlate-onsetで興味深いと思ったVPS35とAPPの関連はメカニズムを理解する上で非常に重要な関連性だと思います。
またHDAC10の阻害剤の可能性ですね。PubMedでパーキンソン病と合わせて検索しても出てこない、非常に新しい関連ですが、一方でHDAC6に関連する文献は割とたくさん見つかるかと思います。
HDAC10とHDAC6は、Histoneのdeacetylationの中では同じクラスに分類されるので、同じような機能が考えられるかと思います。
そしてp38については、臨床試験の情報がありました。スライドに記載しているのはclinical trial.govのIDです。こちらを見ていただくとより詳細が分かります。
cognitive-testの組み合わせをprimaryのendpointにした臨床試験では、残念ながらクリアできなかったと記述されていますが、一方で副次項目だったdementiaのrating-scaleに対しては改善が見られたこと、そしてBFCN、すなわちbasal forebrainのcholinergicニューロンに関連するfunction が回復したとあります。
p38の最初のendpointは満たせなかったがセカンドは満たしているので、このような観点から深く調べていくことができるかと思います。
「詳細は後で確認」が成功のポイント
最後に、KIBIT Amanogawaの活用ポイントです。途中でも触れましたが、仮説生成の段階であまり詳細を気にしてしまうとなかなか前に進まないので、一旦得られた情報をざっと並べて、後に詳細を見ていくのがいいと思います。
また、よく言われる質問ですが、少し関連性が離れた論文も当然ながら出てくるケースがあります。アルゴリズム上関連のない論文は出てこない構造になっているので、逆にチャンスだと思ってほしいです。なかなか他のキーワードでは見つからないものが出ていると考えてください。
そして、見つかった結果を今回のように図にしていくとメカニズムも非常に共有しやすくなりますし、探索した中で見つけてきた結果を自分自身で後から振り返って見ることができるのも有用なので、試してもらえたらと思います。