当ページの内容は、国際的な総合科学雑誌Natureに掲載された記事広告「AI can hunt for hidden clues to new drugs in published papers」を日本語に翻訳したものです(日本語版文責:株式会社FRONTEO)。
当社のAI創薬支援サービスDrug Discovery AI Factoryは、Springer Nature社の発行する専門誌の掲載論文の解析について同社と協業しております。本記事ではDrug Discovery AI Factoryに活用されている既知情報から未知の情報を発見する独自のAI技術を紹介しています。ぜひご覧ください。

 

AIが新薬につながる未知の関連性を既知の論文情報から探し出す

自然言語処理プログラムに文脈を加えることで、医学薬学論文から人では思いつかない関連性を発見する

人工知能(AI)は、「人では捉え切れない学術論文内の単語や文章のパターンを解き明かし、新薬に導く関連性を明らかにする」という魅力的な可能性を秘めている。しかし、AIモデルの学習に使われる教師データとなる論文にはバイアスが内在し、こうした分野におけるAIの潜在能力の十分な発揮の妨げとなっている。

株式会社FRONTEO(以下 FRONTEO)は、子どもが知らない言葉に出会ったときにその言葉の意味や使い方を理解するアプローチに基づいて、制約となるバイアスを回避しようとしている¹。FRONTEOは、AIによる論文の解析に、「文脈」という重要なパラメーターを反映させる自然言語処理(NLP)のアルゴリズムを開発した。

FRONTEO のCTO である豊柴博義は、「子どもは知らない言葉に出会うと、周りの単語や文脈からその言葉の意味を推察します」と述べる。「同様に私たちのAIは、辞書的な定義に依存せず、文脈に基づいてその意味を捉えます」。
FRONTEOがこのアプローチを活用して得た結果は、ヘルスケア領域における画期的な発見につながる可能性を示している。

文脈がすべて

FRONTEOが開発したAI「KIBIT(キビット)」は、分布仮説に基づいて単語や文章を解析する。1950年代に提唱された分布仮説は、単語の意味は文脈によって形成されるというものだ。例えば、「king(王)」と「monarch(君主)」という単語はどちらも統治に関連する文章に現れるが、「bank(銀行・土手)」という単語は、金融機関や河川に関連する文章に現れる。このように、一部の単語は、複数の異なる意味を持つ。

「KIBITは、単語の集合体、つまり周りの単語とその分布に重点を置きます」と豊柴は言う。「そうすることで、真の関連性を特定できるのです」。KIBITは、周りの単語の種類や頻度に基づいて各単語のベクトルを生成し、さらにマップ化することによって単語や文章の関連性を可視化する。これが革新的な仮説生成や洞察に役立つ。

数学者である豊柴は、大手製薬企業の研究所で働いているときに、膨大な量の論文の分析を効率化する上でNLPが持つ可能性に気付いた。

「2017年にFRONTEOに入社後、私たちはKIBITをさらに改良して、単語と文章を同時に解析するアルゴリズムを開発し、文章の類似性・関連性をより効率的に比較できるようにしました」と豊柴は振り返る。

関連遺伝子の発見が増えれば、新たな知見も増える

NLPを使った論文解析手法の多くは、データ間の直接的な関連性を連続的にたどっていく。例えば、「タンパク質Xはタンパク質Yと相互作用する」「タンパク質Yは細胞過程Zに関与する」という知見を結び付けて、「タンパク質Xは細胞過程Zに影響を与える可能性がある」という仮説を立てるといった具合だ。この手法は、研究者が論文を読むときと似ており、他の研究者も同じ方法で結果を導き出すことができるため、まったく新しい関連性を発見することは難しい。

一方、KIBITは「非連続的な発見」により、論文からより深い意味合いを引き出す。豊柴は例として、PubMedの論文情報について、PubMed検索とKIBITを活用した検索のそれぞれを用いて、進行性の神経変性疾患である筋萎縮性側索硬化症(ALS)に関連する遺伝子を検索した結果を挙げる。

PubMed検索における「ベストマッチ」では、13個の遺伝子が特定されたものの、そのほとんどはよく知られ、多くの論文で発表されている遺伝子だった。これに対し、KIBITでは44個の遺伝子が特定され、その中にはこれまであまり研究されていない遺伝子も多く含まれていた。KIBITは、直接・間接両方の関連性を解析することで、よく知られた遺伝子へのバイアスを最小限に抑える。

例えばKIBITは、家族性ALS症例の47%で、RGS14遺伝子にリピート変異と呼ばれる特定の遺伝子変異が生じていることを突き止めた。こうした変異を見出せれば、家族性ALSの原因の解明に寄与する可能性があり、この知見は重要だ。

製薬企業が標的遺伝子を発見し検証するには、通常、数百万ドルの費用と数年の時間を要する。このため、AIを利用したアプローチによって潜在的なコストを削減することは意義がある。

創造性を刺激

FRONTEOの創薬支援AI「KIBIT CascadeEye(キビットカスケードアイ)」は、拡散活性化(spreading activation)理論に基づいている。認知心理学で用いられるこの理論は、脳が相互に接続されたネットワークの中で、関連する概念を結び付けることによって言語情報を整理する方法を説明するものだ。ある概念が活性化すると、それが引き金となり、関連する概念が連鎖的に活性化していく。

KIBIT Cascade Eyeは、概念を多次元空間のベクトルで表現し、それらが互いにどれだけ密接に関連しているかに基づいて接続する。こうした技術なしには容易にはわからない関連性が明らかになり、複雑な分子間相互作用を視覚的に特定できるようになる。

このアプローチを利用することで、新たな研究の標的を見つけることが可能になるはずだ。「KIBIT Cascade Eyeは、あらゆる分子の関連性を組み合わせて標的の発見を促進します」と豊柴は説明する。「連続・非連続的な分子の関連性をKIBITが予測しマッピングすることで、包括的なネットワークを構築できます」。

PubMed検索のような従来のアプローチでは、疾患と遺伝子の関連性を論文に記載された頻度に基づいて特定するため、よく知られた遺伝子が優先的に表示されることが多いと、豊柴は指摘する。

見落とされていた遺伝子

例えば、CYP2E1、CYP3A4、ABCB11などの遺伝子は、薬物性肝障害(以下 DILI)に関連する論文で頻繁に登場する。これは、肝毒性研究や薬物安全性研究でよく知られている既知の関連性を反映している。

一方、KIBIT Cascade Eyeは未知の関連性を発見することに優れている。KIBIT Cascade Eyeは、MAT2A、ADH4、ZFYVE19など、PubMed検索ではほとんど、あるいはまったくDILIとの関連性がヒットしない遺伝子を特定した。しかし、KIBITが算出した類似度は有意であり、これらの遺伝子はDILIと関連している可能性が示唆される。

「例えば、ZFYVE19は肝臓関連の論文にはまったく登場しませんが、KIBIT CascadeEyeは、ZFYVE19をHNF4Aと結び付けました。HNF4Aは、ヘプシジンを阻害してフェロトーシスを引き起こし、肝細胞に影響を与えます」と豊柴は言う。「ZFYVE19とDILIを直接関連付ける論文はありませんが、KIBIT Cascade Eyeは、ZFYVE19とDILIを引き起こすことが知られているHNF4Aとの関連性により、DILIに関わっている可能性を示したのです」と豊柴。

従来の創薬アプローチのコストは増大の一途をたどっており、新しいアプローチが求められている。既存の論文から未知の発見をすることはほぼ不可能というのが一般的な見方だが、FRONTEOのKIBITは、異なる見解を示す。新薬の研究開発には通常10億ドル以上の多額の費用がかかるため²、KIBITという新しいアプローチは時宜を得たものだ。

「私たちの技術を使えば、論文に記載のない未知の関連性を特定できます」と豊柴は言う。「この技術力こそが、FRONTEOと他のNLP企業との圧倒的な違いです」。

参考文献
1. Harris, Z. Word 10, 146-162 (1954).
2. Wouters, O. J. et al. JAMA 323, 844-853 (2020).

 
Download
関連資料ダウンロード

創薬支援サービス
「Drug Discovery AI Factory」

事業概要
標的分子探索/適応症探索のメカニズム
Drug Disvcovery Best Known Method各レシピ詳細
論文探索AIシステム「KIBIT Amanogawa」

Springer Nature・FRONTEO
コラボレーションモデル

コラボレーション概要
Springer Natureの論文データの追加による効果
Springer Nature コメント

ライフサイエンスAI事業本部へのお問い合わせ