KIBITを創薬における仮説生成AIに応用した新規AI創薬Drug Discovery AI Factory
2023.08.31「Virtual Experiments」~標的遺伝子をノックアウトした世界を生成する~
2023.09.04FRONTEOは、新規性の高い標的分子の選定とその仮説生成にAIを活用する「Drug Discovery AI Factory」構想を掲げ、創薬研究にイノベーションを起こします。 この「Drug Discovery AI Factory」構想とそこから可能になる仮説生成について、FRONTEOの研究チーム部長・宮本実氏が語ります。
株式会社FRONTEO
ライフサイエンスAI事業本部
ライフサイエンスAI研究チーム 部長
博士(農学)
宮本 実
京都大学大学院卒業後、武田薬品工業株式会社に入社。新薬開発の初期から後期までの前臨床安全性評価、特殊毒性(光毒性)評価、毒性機序解明、安全性バイオマーカー探索など幅広く従事
言葉をベクトル(数値)化することで、類似性を客観的に表現する
まずは、我々の自然言語処理AIに関して説明した後、自然言語処理AIを駆使したDrug Discovery Best Known Methodsを紹介します。続いてその方法の1つである ベクトル加算解析の毒性分野での応用例を説明します 。
自然言語処理の基本概念として重要なものが分布仮説です。これはある単語が、周りの単語によって意味付けられるという考え方です。例えば「アルコール」という単語。お酒だったり医療用だったりと、前後の単語によって、アルコールの意味するところが若干変わってきます。
つまりある単語に関して、この場合アルコールになりますが、その周りの単語の出現頻度を集計することによって、例えば「content120」「drug145」とカウントすることによって、単語をベクトル、つまり数値で表すことができます。
ではベクトル化すると何がいいのか? 単語、文章の類似性を客観的に表現できるようになります。例えば同じような意味の単語や文章があった場合、この類似性を示すことはなかなか難しいですが、これを自然言語処理AIでベクトル化すると、類似性を数値で客観的に示すことができるのです。
ベクトル化すれば「足し算引き算」で標的分子が見出せる
また別の利点として、足し算引き算ができるようになることが挙げられます。よくある例ですが、「権威のある男性」を「王」と定義して、そこから「男性」という概念を引くと 「権威」という 概念が残ってきます。そこに「女性」の概念を足すと、「権威のある女性」すなわち「女王」になるという考え方(アナロジー)です。
これを創薬に当てはめると、例えばADHDの創薬標的を見つけたい場合、統合失調症の標的である「DRD2」から 「統合失調症」を引くと、標的という概念が残ります。それに「ADHD」を足すことで「ADHDの標的」という概念が抽出されるということになります。
自然言語処理で新しい類似性を発見
さらに重要な点が、新しいつながりを発見できるという点です。例えば上のスライドの「元情報」を見てください。ここには2名のフランチェスコさんとそれぞれの属性が示されています。
この関係性を、AIが見るとどうなるか、というのが下の「自然言語処理AI」の図になります。フランチェスコさんは同じ名前なので、自然言語処理AIは類似性が高いと判断します。すると、緑色のフランチェスコさんは男性でイタリア国籍なので、AIとしてはもうひとりのフランチェスコさん(オレンジ色)も男性でイタリア国籍ではないかと予想します。このようにAIは新しいつながりを予測することができます。
AIエンジン×創薬研究者=Drug Discovery Best Known Methods
弊社は自然言語処理に強みを持つ、AIエンジンKIBIT(キビット)を独自に開発し、日本だけではなくて米国でも特許を取得しております。このKIBITはAI創薬だけではなく、ライフサイエンスの広い分野ですでに活用されています。
FRONTEOでは創薬研究者が、このAIエンジンKIBITを活用しながらDrug Discovery Best Known Methodsという新しい解析プラットフォームを開発しています。このBest Known Methodsにおいて非常に重要になってくるのが標的分子のネットワークです。このネットワークは既存のものとは全く違った概念で作られています。まずこの膨大な言語情報をKIBITに読み込ませます。続いて、遺伝子と疾患の関係性に関して、その関連性予測モデルをAIで作って予測させます。
もし遺伝子と疾患に関連性があるとされた場合、さらにAIでこの原因性予測モデルを構築します。ここでは、もし遺伝子の変化が原因で疾患が起きている場合は「原因性遺伝子」。一方、遺伝子疾患によって遺伝子発現が変動している場合は「応答性遺伝子」と考えます。そして、原因性遺伝子を上流、応答性遺伝子を下流に配置し、その間をinteractomeで結びます。
わずか10分で網羅的な標的分子のネットワークを作成
このような網羅的なネットワークがわずか10分で作成されます。先ほど説明した通り、このネットワークには新しい分子のつながりも含まれているため、これは従来の方法では作成することは非常に困難です。さらに面白い点は「疾患名」だけではなく、「細胞機能」「薬剤」「毒性」などに対してもネットワークを作成することができることです。
ネットワークの「重複差分」で遺伝子のプロファイリングを実現
それでは、このネットワークを使って何ができるか? 我々が最初に考えたのが重複差分解析になります。例えば 2つの疾患、疾患A・疾患Bに対してそれぞれネットワークを作成し、それを重ね合わせます。この重なった(上の図の)青い点線の部分は 2つの疾患に共通した治療標的バイオマーカーが含まれる可能性があります。一方このオレンジの点線の部分は疾患Bに特有のパスウェイなので、ここには疾患B特有の標的が含まれていると期待されます。
遺伝子を仮想的にノックアウトして分析
この重複差分解析で、ある遺伝子が注目されたとします。そうするとそのネットワーク内の注目遺伝子を仮想的にノックアウトするVirtual Experimentsというメソッドが適用できます。例えばこの黄色で囲った部分にこのようなパスウェイが存在したとします。
まず遺伝子Aを仮想的にノックアウトします。そうすると例えば 遺伝子Cにスッと置き換わっただけだとします。この場合、遺伝子Aというのは、 疾患に対する影響はあまり大きくないと推測されます。
一方、遺伝子Bに関してはこのようにノックアウトすると、ネットワークが非常に大きく変化します。この場合、遺伝子Bは 疾患に対してキーとなる遺伝子、というように解釈できます。この方法は、標的分子探索だけでなく、注目遺伝子の安全性プロファイリング、つまりオンターゲットの毒性予測等にも使えると考えています。
ある遺伝子の有効性をランキングで提示
さらに注目する遺伝子が決まってくると、今度は多面的解析というメソッドが適用可能になります。これは創薬標的候補の遺伝子に対して現在10項目、例えば「関連性」「原因性」、「安全性」および「画期性」…という様々なパラメータのスコア、あるいは情報を付加することで、ある遺伝子の様々な適応症への有効性をランキング形式で提示してくれます。
現在希少疾患を含む約1万2000疾患に対してランキングすることが可能です。我々はこの多面的解析がドラッグリポジショニングにも非常に有効だと考えております。
このスライドは二次元マッピング解析を表しています。このメソッドは少し今までの方法と異なります。まず、様々な遺伝子や疾患、細胞機能を独自のAIエンジンKIBITでベクトル化します。それを二次元平面、ベクトル平面にこのようにプロットします。
こうすることで、注目遺伝子と関連しそうな疾患や症状などが、視覚的に捉えられることになります。このメソッドは概念的に類似なものは近傍に分布するという自然言語処理の特徴を生かしています。
例えばAPOEはアルツハイマー病の原因遺伝子と言われています。このAPOEの周りにどのような疾患ベクトルが分布するか見てみますと、「家族性認知症」等が周辺にみられることは想定内だと思います。一方、この疼痛や頭痛というものも 実はこのAPOEの近くに分布しています。こういうところから、今まで気づかなかったような分子と疾患の関連性というものを視覚的に捉えることができる画期的なツールだと考えています。
自然言語AIと研究者の知識が融合すると、可能性は無限大に広がる
今、我々が求められているものは「イノベーション」です。
研究者の頭の中で、通常では結びつかないもの同士が結びつくほど、イノベーティブな発想に近づきます。しかし、どうやって結びつければいいのかというのが悩みどころ。この部分で我々のこのDrug Discovery Best Known Methodsは非常に有効であると考えます。網羅的で客観的な自然言語AIと研究者の知識・経験が融合した時に、drug discovery best known methodsは創薬に対して最大限の貢献ができると考えています。