田辺三菱製薬におけるデータ駆動型創薬の取り組み
2023.09.20Virtual Experiments 〜標的遺伝子をノックアウトした世界を生成する〜
2023.12.05遺伝子の機能喪失型変異に起因する疾患は数多く存在します。この場合、タンパク質は機能を喪失しており、タンパク質そのものに対する治療介入は通常困難を伴います。機能喪失型変異を有する遺伝子に加えて、別の遺伝子に対して、同時に変異を起こすことで疾患あるいは症状が抑制される現象が知られています。この別の遺伝子 (サプレッサー遺伝子)は治療標的として期待されますが、そのような遺伝子を実験的に見出すにはコスト的、時間的負担が大きく、現実的ではありませんでした。FRONTEOが「Drug Discovery AI Factory」によって実現した、サプレッサー遺伝子を効率的に抽出するためのアプローチを事例と共に紹介していきます。
Speaker
株式会社FRONTEO
ライフサイエンスAI事業本部
ライフサイエンスAI研究チーム 部長
博士(農学)
宮本 実
京都大学大学院卒業後、武田薬品工業株式会社に入社。新薬開発の初期から後期までの前臨床安全性評価、特殊毒性(光毒性)評価、毒性機序解明、安全性バイオマーカー探索など幅広く従事
機能喪失型変異に起因した疾患に対する新しい標的探索法の紹介、サプレッサー遺伝子の効率的な抽出方法について説明していきます。
最初に自然言語処理AIに関して簡単に触れた後、新規性の高い仮説が生まれる仕組み、それを支えるDrug Discovery Best Known Methodsを紹介します。その後、機能喪失型変異に起因する疾患に対するサプレッサー遺伝子の効率的な抽出方法について、事例も交えながらお話しします。
自然言語処理AIとは
自然言語処理の基本概念
「分布仮説」という非常に有名な基本概念があります。簡単に言うと、ある単語というものは周りの単語によって意味が規定されていくというものです。
例えば「alcohol」という単語が入った3つの文章、それぞれ周りの単語によって意味が違っていますよね。この周りの単語の種類と頻度を集計することによって、その単語をベクトル(数値)で表現することができます。
単語・文章の類似性を客観的に表現できる
ある単語・文章が類似しているということを表現するのは非常に難しいですが、このベクトルを使うことで、客観的に似ている・似ていないということが表現できます。
ベクトル化によって足し算・引き算が可能になる
例えば「王」は、権威ある男性と定義できます。そこから男性という概念を引くと、権威という概念が残ります。そこに女性という概念を足すと、権威のある女性、つまり「女王」を表現できます。
これを創薬分野で例えると、ADHDの標的を探索したい場合に、統合失調症の標的である「DRD2」から疾患統合失調症という概念を引くと、標的という概念が残ります。そこにADHDを足すことによって、ADHDの標的に関するアイデアが得られる、という考え方ですね。
FRONTEO独自の自然言語AIエンジン「KIBIT」
これらの自然言語処理を、FRONTEOは独自の自然言語AIエンジン「KIBIT(キビット)」で行っています。日本だけではなく、米国でも特許を取得。AI創薬支援の他にも既にAI診療や診断支援にも使われている、非常に重要なエンジンです。
新規性の高い仮説が生まれる仕組み
自然言語処理による意味づけ
続いて、このKIBITを使って新規性の高い仮説が生まれる仕組みについてお話します。まずは自然言語処理による意味づけを説明します。
例えば「alcohol」に関して自然言語処理による意味付けを考えた場合、まずalcoholが含まれる大量の文章情報を集めてきます。すると、このような単語の種類と頻度によって意味付けられるとします。これは通常の辞書的な意味付けと明らかに異なる意味づけのされ方である点がおわかりいただけると思います。
思いもよらない繋がりが生まれる仕組み
別の単語Xが含まれる大量の文章情報をとってきて同じように解析した場合、周りに出てくる単語の種類と頻度がalcoholと非常に似ていたとしたら、2つは概念的に非常に類似しているということになります。これは非常に大量の文章を解析したことで初めて気づけることなので、人が少しの文章で気づくのはなかなか難しいでしょう。
通常のアプローチの限界
これに対して、辞書的な意味づけで考えていくとどうなるか。
例えばalcoholだと、無色透明の可燃性の液体という部分から、似たようなものとしてacetoneやbenzeneなど、共通性、類似性に基づいて論理的に連想していきますが、これではなかなか想像を超える繋がりにたどり着かないと思われます。
想像を超えるためのアプローチ
通常のアプローチは、ある論文で遺伝子AとBの繋がり、別の論文で遺伝子BがCとDに繋がる、別のデータベースでは遺伝子DとEが繋がるというように、既知の情報を論理的につなげていきます。これは想像の範囲内と言えるでしょう。
それに対してFORNTEOのアプローチは、大量の文書情報を自然言語AIに学習させて、概念的類似性でコネクトしていきます。一部の遺伝子に関しては想像の範囲内ですが、それを超えたところの遺伝子も見えてきます。この想像の範囲外にあるものに気づける、ヒントを与えてくれるのが非常に重要で、これが新規性の高い仮説を生み出すことに繋がると考えています。
新規性の高い仮説生成による創薬支援
ということで、我々はこの集団知である大量の文書情報を自然言語AI「KIBIT」に学習させ、人が思いもよらない疾患標的・適応症のヒントを見出します。それを創薬における実践的な経験と知識を持つ創薬研究者と融合させることで、新規性の高い仮説を短期間で生成して、創薬の加速化・効率化につなげることを考えております。
これらを支えるものが、これから紹介するDrug Discovery Best Known Methodsというものになります。
Drug Discovery Best Known Methods
基礎となる自然言語処理の価値
自然言語AIで非構造化情報を構造化することによって、網羅性・客観性を上げることができます。
現在、我々はこの自然言語AIと研究者の融合によって、「重複差分解析」「Virtual experiments」「多面的解析」「2次元マッピング解析」「ベクトル加算解析」という5つの方法を開発しています。我々も使ってみて、仮説生成において非常に有用だというものが5つ残っているとお考え下さい。
予測を含んだユニークなネットワーク
この技術を支えているものが、予測を含んだユニークなネットワークです。独自のアルゴリズムによって、疾患に関連する遺伝子の繋がりをAIの予測も交えながら網羅的に表現します。
自然言語を使っているので疾患だけではなく、症状や細胞機能、化合物などに対してもネットワークを描けるというのも特徴です。
重複差分解析
「重複差分解析」は、2つのネットワークを重ねることによって、重なった部分、重ならない部分、それぞれに隠れている創薬ターゲットを見つける方法です。
Virtual experiments
「Virtual experiments」は、注目した遺伝子をネットワーク上で仮想的にノックアウトします。
例えば、あるネットワークの中にある遺伝子Aをノックアウトするとシンプルに遺伝子Cに置き換わった場合、この疾患に対する遺伝子Aの影響はあまり大きくないと考えられます。
一方、遺伝子Bをノックアウトすると、その下流だけでなくそれ以外のパスウェイも消えたり、あるいは新たに出現したりということも見られた場合、この疾患に対して遺伝子Bの影響は非常に大きいと考えられます。
オンコロジーの領域で考えれば、消えたパスウェイが腫瘍化に関連するものであれば非常に喜ばしいことですし、消えたパスウェイが抗腫瘍化に関連するものだと、この遺伝子をノックアウトするのは好ましくないことになります。
出現したパスウェイが腫瘍化に関連するものであればこれも非常に良くないことですし、抗腫瘍化作用であれば非常に好ましいことです。バーチャルなので、スクリーニングに適しているということになります。
多面的解析
「多面的解析」で候補遺伝子に対して適応症候補をリストとして提示してくれるliGALILEOを使います。今は10評価項目でランキングしていて、希少疾患を含めて約12,000の疾患に対応しています。
2次元マッピング解析
注目する遺伝子に対してどのような疾患が周りにあるかを解析できる「2次元マッピング解析」も、自然言語をうまく使っている方法だと思います。
ベクトル加算解析
「ベクトル加算解析」も非常に面白い方法です。簡単な例をお示しします。このグラフを見てください。横軸が年齢、縦軸が認知機能です。
通常だと人は加齢と共に認識機能が下がっていきますが、アルツハイマー病などではこのように急激に認識機能が下がります。しかし、全ての高齢者がこの病的な認知機能の低下を示すわけではありませんので、加齢に何かファクターXが加わることで、アルツハイマー病のリスクが高まると仮定します。
では、何がファクターXになり得るのか?遺伝子が簡単に想定できますけど、他にもいろいろ考えられます。我々は食事や生活習慣など想像できるものを全部ベクトル化して、それを加齢のベクトルと足して、加算ベクトルを作ります。
それをアルツハイマー病の原因性モデルに当てて、スコアがどうなるかを見ていきます。例えばこの赤のファクターは非常に原因性スコアが高くなっているので、アルツハイマー病の治療標的になる可能性があるという仮説が考えられるわけです
機能喪失型変異に起因する疾患
ここからは、機能喪失型変異に起因する疾患に対する我々のソリューションに関してお話しします。
機能喪失型変異がどういうものかというと、変化した遺伝子産物が野生型遺伝子の分子機能を欠く変異で、遺伝子産物が作られない場合も含みます。現在、ヒトでは1,500疾患以上が機能喪失型変異に起因すると推定されていて、全身でいろいろな疾患が起こるということも分かっています。良い治療薬が見出されていませんので、非常に高いアンメットメディカルニーズが存在します。
機能喪失型変異に起因する疾患の創薬は難しい
この機能喪失型変異に対して創薬をしたいと考えた場合、活性化薬やアゴニストの創薬は非常にハードルが高いと言われています。1700以上の低分子阻害薬やアンタゴニストが存在するのに対して、低分子活性化薬やアゴニストは423しかないと言われていて、なかなか難しいということがわかります。
変異に対してどういう治療介入が可能かということが示されているのがスライドの下の図です。機能喪失型変異の場合、変異遺伝子産物の機能低下があるので活性化したい、でも活性化薬やアゴニストは非常に難しい。産物自体がもうない場合も、低分子薬あるいは抗体医薬で介入するのは困難ということになります。
解決策のひとつとしてサプレッサー遺伝子に注目
ではどうすればいいか?ひとつの解決法としてサプレッサー遺伝子に注目します。
例えば遺伝子A、B、Cがあって、それぞれタンパク質が作られるとします。この場合は正常ですが、遺伝子Aに機能喪失型変異が入ってタンパク質ができなくなり、疾患になるという状況があったとします。
遺伝子Bにも変異が入ったとして、多くの場合、疾患が治るということはないですが、場合によって遺伝子Cに変異が入ると回復するというケースがあります。
この場合、遺伝子Cはサプレッサー遺伝子と考えられますので、遺伝子Cの産物を抑えることによって回復するということが期待されます。
ではこのサプレッサー遺伝子を探せばいいということになりますが、現在のアプローチだとなかなか難しいです。
サプレッサー遺伝子を体系的に探索しようと思うと、非常に大規模な実験的スクリーニングを行わなくてはならないので、莫大な時間とコストと労力が必要になります。
サプレッサー変異遺伝子の効率的な抽出方法
独自の疾患ネットワークの活用
これに対して我々のソリューションとして、独自の疾患ネットワークの活用という方法を考えています。
KIBIT Cascade Eyeという独自のアルゴリズムで、特許も取得しています。疾患名や症状などを入れると10分でネットワークが描けます。この中には先ほどの原因性遺伝子、応答性遺伝子、その間をつなぐ中間遺伝子がつながれていて、エッジの太さによって関連性が表現されます。
独自のアルゴリズムに基づくユニークな遺伝子ネットワーク
これは既知の情報を単純につなげ合わせたものではなくて、AIが予測した繋がりを含む独自の疾患ネットワークです。これを先ほどもお話したアルゴリズムでつないでいったものが我々のネットワークになります。
・事例1 NGLY1欠損症
事例として、NGLY1の欠損症を挙げてみたいと思います。
NGLY1は細胞内の糖タンパク質からN型の糖鎖を除去する酵素です。これが欠損しますと神経機能の障害というものが出てきます。非常にウルトラレアではありますけど、現時点でこの疾患に対する治療薬はありません。動物モデルとしてマウスとラットがありますが、マウスの場合は胚性致死になってしまいます。
これに関して、2021年にPNASでNGLY1欠損におけるこの細胞障害のメカニズムが報告されています。これはNGLY1欠損細胞において、FBS2が発現しているとユビキチン鎖が過剰についた異常な糖タンパク質が細胞内に蓄積して、細胞が死んでしまうというものです。
これに対してFBS2も同時にノックアウトすると、NGLY1単独だと胚性致死になってしまうのが正常に生まれることから、FBS2はサプレッサー遺伝子と考えられます。
NGLY1と相互作用するタンパク質は多いので、詳細なメカニズムが分かっていないとサプレッサー遺伝子を見つけるのはなかなか難しいと考えられます。
我々はPNASの報告がある前に、Cascade Eyeを使ってNGLY1からネットワークを描くことでFBS2がちゃんとNGLY1の下流に存在するということを見出していました。
・事例2 レット症候群
乳児における急激な発達退行が見られる重篤な症候群ですが、原因はメチル化DNAに結合する染色体タンパク質であるMECP2という分子です。レッド症候群の患者さんの95%以上でMECP2に変異が見られていて、動物モデルも存在しています。
これに関して非常に大規模な実験が報告されています。変異原物質を用いて大規模にサプレッサー遺伝子を探索するというものです。メスのMECP2欠損マウスと、変異原物質でランダムに遺伝子変異を起こしたオスを交配して、出てきた子どもたちのPhenotypeを見ていくというものです。
例えば表現型が回復したマウスの遺伝子を調べていき、このように遺伝子Cがノックアウトされていたとすると、遺伝子Cがサプレッサー遺伝子だと判明する形です。この論文の中だと、これだけのサプレッサー遺伝子が見出されています。
我々もレッド症候群に対してMECP2を原因性遺伝子としてネットワークを描いてみました。すると、実験的に示されたサプレッサー遺伝子の一部がしっかりと含まれていることを確認しています。
これが10分で描けるわけですね。さらにこのMECP2との繋がりについても、FlowRatioの大きい順で並べ替えると上位にサプレッサー遺伝子が入ってくるということを見出していて、優先順位付けも可能だと考えています。
AIを使った効率的なサプレッサー候補遺伝子の抽出
最後にまとめです。機能喪失型変異に起因する疾患に対する創薬を目指す場合、この疾患の原因遺伝子に直接作用する低分子を目指すというのはなかなか難しいです。
ではサプレッサー遺伝子を狙えばいいということになりますが、今度はサプレッサー遺伝子をどう見出すかというところが難しくなります。既存のアプローチだと、サプレッサー遺伝子を体系的に探索する大規模なスクリーニングをしなければならないため、膨大な時間とコストが必要になりからです。
それに対して、我々はKIBIT Cascade Eyeを使って、ユニークな疾患ネットワークによるサプレッサー遺伝子候補の効率的な抽出が可能なので、最低限のウェット実験で生産性の高い遺伝子探索ができます。
創薬の始まりは仮説生成
創薬の始まりは仮説生成だと我々は考えています。
それには、仮説の新規性が重要です。AIが人の想像を超えたヒントを提示してそれを研究者が経験と知識を活かしてfeasibleな仮説に昇華すること。それに加えて、仮説のクオリティです。単に候補遺伝子や適応症候補のリストを提案するのではなくて、今すぐにプロジェクト提案ができるレベルの仮説を作ること。これによって、創薬研究の加速化・効率化、成功確率の向上に貢献していこうと考えています。