~Axcelead Drug Discovery Partners×FRONTEO共催セミナー~創薬研究における 仮説生成AIの活用とターゲットバリデーション
2024.05.14Springer Nature社の600ジャーナルデータの活用でAI創薬支援サービスを加速させる
2024.05.20薬剤性肝障害(DILI)は臨床試験中止および市販後の撤退の主な原因の一つです。DILI発症に影響を及ぼす因子の解明はその発症メカニズムの理解に有用ですが、通常はそのような因子を発見する手がかりを見出すことすら容易ではありません。
近年、創薬において標的あるいは適応症探索において自然言語処理AIが活用されています。FRONTEOの創薬研究者は現在、自社開発AI「KIBIT」を活用し、最も重要な創薬プロセスの一つである標的探索等の仮説を生成します。ここでは、まず自然言語処理AIの概要と手法について簡単にご紹介し、次にDILIと遺伝子の関係に注目して仮説生成の観点からAIのDILI影響因子探索への適用可能性を検討した、ベクトル加算解析を用いた毒性分野での応用例を紹介します。
※本内容は、第50回日本毒性学会学術年会 (2023年6月)での発表内容を含みます
株式会社FRONTEO
ライフサイエンスAI事業本部 AI研究チーム
高木 優奈
日本医科歯科大修士課程修了。2021年4月に新卒でFRONTEOに入社。創薬ユニットで最も若い研究者、DD-BKMプラットフォームの基盤となるKIBITのテクノロジーに精通。現在、データサイエンティストとしてAI解析業務を担当。
自然言語処理AIの活用
自然言語処理の基本概念
自然言語処理 AI の活用に関して、自然言語処理の基本概念として分布仮説という考えがあります。これは「ある単語はその周りに出現する単語によって特徴づけられる」という考え方です。
例えば「アルコール」という単語が出現する文が3つある場合、文章ごとに周りの単語によってアルコールの意味合いがそれぞれ異なることがわかります。あくまでもイメージですが、このように周りに出てくる単語の頻度を集計することで、対象の単語が持つ意味を概念的に特徴づけることができます。この考え方によって非構造化情報を構造化情報として捉え、単語を数値化、つまりベクトルとして把握することで、様々な解析に活用できるようになります。
ベクトル化の利点1:単語・文章の類似性を客観的に表現できる
ベクトル化の利点は、ベクトル化を行うことで単語や文章の類似性を客観的に表現できるようになる点です。
似た意味の単語や文章同士は、同じような位置に似た単語が周りに出てくることが多く、これを自然言語処理 AI で解析すると似通ったベクトルとして表現されます。つまり、言語をベクトル化することで「類似性」を数値として客観的に示せるようになります。
また逆も同様で、類似したベクトルとなる単語や文章は、人から見ると似ているとは判断できないものでも、自然言語処理AIからすれば同じような意味をもつということを客観的に表現できるようになります。
ベクトル化の利点2:足し算・引き算が可能になる
ベクトル化のもう一つの利点として、足し算・引き算が可能になることが挙げられます。
ベクトルは言い換えれば数値情報で、そのため当然ベクトル間の計算ができます。またベクトルは言語の概念を含んでいるので、つまりは単語どうしの概念も足し算・引き算することができるのです。
例えば、「王=権威のある男性」というベクトルから「男性」というベクトルを引き算すると、「権威」という概念が残ります。この「権威」という概念に「女性」というベクトルを足し合わせると、「女王=権威のある女性」という概念が算出されます。
これは創薬の場面でも同様に活用することができ、例えばADHDの標的を探し出したいケースでは、まずDRD2 のような統合失調症の標的をベクトル化し、そこから統合失調症のベクトルを引き算します。すると、何かしらの標的という概念が算出されますので、そこに注目したい疾患、ここでは「ADHD」を足し合わせることで、ADHDの標的の算出が可能となります。
ベクトル化の利点3:新しいつながりを発見できる
さらに、言語のベクトル化で新しいつながりも発見できるようになります。
例えば図のように、ある人物の情報として「国籍」「性別」などの情報があるとします。「元情報」では「フランチェスコ」という2人の人物(オレンジ色と緑色それぞれ)の2人の間に共通の情報はありません。
これらを自然言語処理AIで解析すると、「フランチェスコ」の2件は類似のベクトルだとAIが判断します。すると、緑色の「フランチェスコ」の人物の情報である「イタリア国籍・男性」という情報が、オレンジ色の「フランチェスコ」の人物にも同様に当てはめることができる、とAIが予測します。
このように元の情報にはなかった要素もAIが推測し、新しいつながりとして発見することができるのです。
独自の自然言語処理AIエンジン
FRONTEOでは、独自のアルゴリズムを持つ自社開発AIエンジン「KIBIT」という自然言語処理AIを持っています。
このKIBITは、日本だけでなく米国でも特許を取得しており、AI創薬支援、医療機器の開発などすでに幅広い分野で活用されております。
Drug Discovery Best Known Methods
Drug Discovery Best Known Methodsの全体像
次に「Drug Discovery Best Known Methods」について簡単にご紹介いたします。「Drug Discovery Best Known Methods(DD-BKM)」は、自然言語処理AI「KIBIT」と創薬研究者の融合で新しい仮説を生み出す手法で、すでに5つの手法の開発が進んでいます。
ここではその中で「ベクトル加算解析」について紹介します。
ベクトル加算解析
ベクトル加算解析は少し難しい概念になりますが、例を通してご紹介します。
人は加齢とともに認知機能が低下し、アルツハイマー病(AD)を発症すると急激に認知機能が落ちていきます。しかし、全ての高齢者において病的な認知機能の低下を示すわけではありません。
ここで、「加齢」という一つのファクターに何らかの「ファクターX」 が加わることでADの発症リスクが高まるのではないか、と仮定します。そうした「ファクターX」を探索するのはなかなか困難ですが、こうした場面でベクトル加算解析を用いて解析を行うことができます。
まず解析の前にモデルを作成します。今回のケースでは「アルツハイマーとファクターX、そして加齢の関係性を知りたい」、つまり加齢とともにADリスクを高める原因となる因子を抽出したいということになるので、何らかの因子がADの原因になるという「ADの原因性モデル」を作成します。そこに加齢やファクターXのベクトルを当て、数値化・スコア化していきます。
今回のケースでは例えば、まず加齢だけのベクトルをADの原因性モデルに当て、原因性スコアを算出します(図で右上の黒いバー)。次に「加齢」単体のベクトルに、ファクターXになり得る別の因子を足し合わせていきます。
ここでファクターXは、ベクトル化できればどんな単語でも構いません。例えば性別、年齢、または遺伝子などの情報を足し合わせることができます。
足し合わせた後の加算ベクトルもADの原因性モデルに当て、ADとの原因性スコアを算出します。加算する前の「加齢」単体のスコアと加算後のスコアを比較し、ADとの原因性スコアが最大になるファクターX(図では赤色のベクトル)が、ADの治療標的になりうる、と考えられます。ここから仮説生成につなげていくことができるという技術です。
ベクトル加算解析の毒性分野での応用例
新たなDILI影響因子探索の仮説生成に自然言語処理AIを用いる
このベクトル加算解析を用いた毒性分野での応用例を紹介します。今回は薬剤性の肝障害、DILIに注目しました。薬剤性の肝障害は、薬剤の開発において非常に大きな問題の一つです。
薬剤性の肝障害DILIは、2つの要因から成ります。その薬の要因(ドラッグファクター)、そしてその薬を飲むヒトの要因(ホストファクター)、この2つが加わることで引き起こされると考えられています。
現状、ドラッグファクターではある程度特定が進んでいる状況ですが、一方でホストファクターに関する新規の影響因子の特定は、なかなか困難な状況です。通常の手法ではリアルワールドデータ(RWD)等を用い、仮説を作成して検証するサイクルを経ることで、新たなDILIの影響因子の探索を行います。
そこで今回我々は、この仮説生成に注目し、ベクトル加算解析を仮説生成の効率化に活用できるのではないかという点を検証しました。
ステップ1:薬剤名のベクトルでDILI判別モデル構築
検証にあたり、まずDILIの判別モデルを構築しました。FDAのDILIランクデータベースを用い、DILIポジティブとして433化合物、 DILIネガティブとして533化合物を用いてモデルの構築を行いました。
現在様々なDILI判別モデルが作成されてきていますが、一般的に使われるモデルでは化合物の構造を用いているようです。しかし今回の解析では、アセトアミノフェンのような薬剤の一般名を用い、それをベクトル化してモデルを構築しました。
具体的な流れとしては、薬剤の一般名をベクトル化し、そのベクトルをDILIの判別モデルに当て、DILI スコアを算出する流れになります。DILIスコアは0~1のスコアとして算出され、0.5以上をDILIポジティブ、0.5未満をネガティブとしました。
ステップ2:薬剤のDILIスコアを下げる因子を網羅的に探索
DILIポジティブ、つまりDILIを引き起こす薬剤のDILIスコアを0.5以上とし、こうしたDILIスコアを0.5未満にする因子(ファクターX)はその薬剤のDILI発症リスクを低減させるという前提のもと、足し合わせた後にDILIスコアを閾値以下に下げるようなファクターXを探索していきました。
ファクターXの対象として、今回は約22,000のヒト遺伝子を対象としました。まず薬剤AのDILIスコアを算出し、ベクトル化した全遺伝子それぞれを足し合わせていきます。その加算ベクトルをDILI判別モデルに当てて、そのスコアを抽出します。このスコアが閾値(ここでは0.5)以下になる遺伝子に注目し、その遺伝子に関して仮説を作成していきます。
ステップ3:DILIスコアを下げる遺伝子の抽出
DILIスコアを下げた遺伝子として、24の機能に分類された30の遺伝子を抽出できました。関係性が既知であるCYP2C19など、薬剤代謝に関わる既知な遺伝子も当然抽出できています。
従来の手法では化合物の構造などで判別・抽出されてきましたが、今回、ベクトル加算解析という他で見られない手法でも同様に、既知の遺伝子を抽出できました。さらに、関連が公知でない、あまり知られていないメカニズムをもつ遺伝子も同時に抽出できました。
その中でも今回我々は、ANK2(アンキリン2)に注目し、仮説を作成していきました。
ステップ4:AIによって抽出された遺伝子に基づく仮説生成
ヘパトサイトにおいてERストレスが加わると、カルシウム濃度の恒常性が崩れてミトコンドリアでのカルシウム濃度が上昇し、肝障害(Liver injury)につながることが知られています。また、カルシウム濃度の恒常性に関与するリアノジンレセプター(RyR)のアンタゴニストであるダントロレン(Dantrolene)を投与すると肝障害が抑制されることが知られています。
一方、先ほどのANK2は、心筋細胞におけるカルシウム濃度調整タンパク質に対する極めて重要な調節因子であることが知られています。
これらのことから「ANK2がカルシウム恒常性の調節を通じてDILIのリスクを抑制する方向にはたらくのではないか」という仮説が立てられます。
結論
以上のように、DILIのリスクに影響を及ぼす新規因子の探索のきっかけとして、ベクトル加算解析が有用であると考えられました。
ベクトル加算解析を用いて、仮説のタネを多く見出して仮説生成を加速するその先が、影響因子の同定へもつながっていくと考えています。もちろん仮説の検証が必要になりますが、今回の遺伝子のみ対象の検証の他にも、非遺伝子的な因子にも活用ができますし、肝臓以外の臓器や組織の有害事象にも活用できると考えています。
まとめ
ベクトル加算解析は「新規性の高い仮説」を生成するための強力なツール
ベクトル加算解析は、新規性の高い仮説を生成するための非常に強力なツールと言えます。
今回は毒性を抑制する方向で解析しましたが、毒性を引き起こす方向のファクターX、腫瘍の悪性度を上昇させるファクターXなど、同定が難しいファクターを見出す目的に対してもベクトル加算解析を活用できます。その際の解析の流れも、まずモデルを作成し、次にスコアを算出してそこからファクターを抽出し、研究者などが仮説の生成を行う、という流れで実施していくことができます。