Springer Nature社の600ジャーナルデータの活用でAI創薬支援サービスを加速させる
2024.05.20現在、ヒトでは2万超の遺伝子が報告されています。しかし論文中で疾患との関連が論じられている遺伝子は実はごく少数で、その原因の一つは研究者の確証バイアスがあるとも言われます。つまり、多くの研究者は極めて限定的な情報の中で、独自性を発揮することに腐心している可能性があります。
FRONTEOは自社開発した自然言語処理AIエンジン「KIBIT」で、3000万報以上の論文情報からアンバイアスに創薬標的のヒントを提供するソリューションを開発しました。今回は「いかにAIと語らいながら新規標的のヒントを引き出すか」という視点で、孤発性ALSの新規標的を探索した事例を紹介します。
株式会社FRONTEO
ライフサイエンスAI事業本部 ライフサイエンスAI研究チーム 担当部長
博士(薬学)
林 一己
薬学博士号を取得後、山之内製薬(現アステラス製薬)に入社。炎症・循環器・腎臓領域を担当しリサーチマネージャーとして活躍。ドラッグリパーパシング室立ち上げDR研究に従事。KIBITを用いた解析方法の考案、解析方針立案、解析、仮説生成を担当。
AI創薬の最適解「Drug Discovery Best Known Methods(DD-BKM)」
FRONTEOは、AI「KIBIT」を創薬で活用するために最適な手法「Best Known Methods」を、5つ展開しています。本日はその中の1つである「重複差分解析」の活用方法を紹介します。
「重複差分解析」とKIBIT Cascade EyeによるALSの疾患ネットワーク作成
FRONTEO独自の自然言語処理AIによるネットワーク作成
解析を行う上で根幹となるのが、KIBIT Cascade EyeというFRONTEOのソフトウェアであり、疾患や症状などのネットワークの構築が可能です。遺伝子と疾患の関連性、または原因性の予測モデルを用いて、遺伝子の異常によって疾患が起こる遺伝子を原因性遺伝子とし、罹患する事によって遺伝子の発現などが変動する遺伝子を応答性遺伝子とします。
原因性の遺伝子を最上流に、応答性の遺伝子を最下層に配置し、その間をInteractome等のデータを用いて自然言語的なつながりを組み合わせた形で紡ぎあわせ、疾患などのネットワークを構築します。
疾患ネットワークの作成
この手法で、家族性ALSと孤発性ALSのネットワークを作成すると、家族性ALSと孤発性ALSで大きな差異が認められます。
我々の技術の特徴は2つあります。1つ目は、孤発性ALSの情報はなかなか集めづらい中、言語的・概念的な類似性の情報を活用することで孤発性ALSの疾患ネットワークを構築できる点です。そして2つ目は、論文・総説や公共のデータベースから疾患の標的分子などを探した場合は特定の遺伝子や部分的なパスウェイしか抽出できませんが、このKIBIT Cascade Eyeでは600〜700個の遺伝子からなる大きなネットワークとして情報を提供できる点です。
そして創薬標的を策定する(仮説生成する)上で、この600〜700個も存在する遺伝子から注目する遺伝子またはパスウェイのヒントを、AI「KIBIT」を用いて得ていきます。今回は孤発性ALSの標的探索の実施にあたって、家族性・孤発性のALSの疾患ネットワークの重複差分解析を実施していきます。
複数の疾患ネットワークによる重複差分解法
ネットワークどうしを単に重ね合わせても気づきは得にくいので、今回は「遺伝的素因にセカンドヒットがあると発症するALSが孤発例ではないか?」という作業仮説を立て、AIのKIBITに問い返しています。
家族性または孤発性のALSには共通の原因遺伝子の寄与があることが、2012年の『Lancet』に報告されています。その内容は、C9orf72の変異患者は家族性ALSの20〜60%に認められ、孤発性ALSでも3〜20%を占めているというものです。さらに、同一家系でも発症時期が異なることが報告されています。
そこで、この2つのネットワークを重ね合わせます。完全に重複したパスウェイ(図の右中央)は、ALS病態において普遍的で非常に重要なパスウェイだと考えられます。
孤発性のALSにおいてのみ存在し、重複部分とつながりを持つ(アソシエイトする)パスウェイに、孤発性ALSの治療標的となる遺伝子が存在する可能性があるのではないか、との考えに基づいて候補遺伝子を抽出します。
Familial ALS / Sporadic ALSのネットワーク差分解析結果
この解析結果では、左側は孤発性、右側は家族性のALSにおけるC9orf72を原因性の遺伝子としたパスウェイを表示しています。
孤発性のALSにおいてのみ、 C9orf72のパスウェイに関連する MMADHCを原因性遺伝子とした5個の遺伝子からなるパスウェイが存在していました。この5つの遺伝子が創薬標的候補の遺伝子となります。
仮説生成(Portfolio entry)まで伴走する共創プロジェクト
FRONTEOは仮説生成(Portfolio entry)まで寄り添う
一般的なAI創薬の会社ではこの出てきた5つの遺伝子をリスト化して提供し、顧客である製薬企業の研究者様が調査を進めて仮説を考えていくことになります。
一方、FRONTEOでは創薬の実務経験を持つ研究者がいます。当社の研究者がご依頼主である製薬企業の研究者の方々とディスカッションしながら、AI「KIBIT」を活用して標的候補のリストを作成し、さらに仮説生成までサポートします。製薬企業様がお持ちの様々なデータを組み込むことも、得られたリスト中の標的遺伝子の実験結果を組み込んで再度解析することも可能です。こうした取り組みを通して納得性の高い仮説を作成していくことができます。
このように、FRONTEOから提供する疾患と遺伝子の関連性において新規性の高い標的遺伝子を対象とした仮説生成をしていただきますので、First in classを目指せる創薬研究を進めていただけると考えています。
共創プロジェクト(新規標的探索)
FRONTEOは「共創プロジェクト」という関わり方で、仮説生成(Portfolio entry)までサポートします。さらにその先のアセットまで必要とする場合は、パートナーシップ関係にあるAxcelead様(Axcelead Drug Discovery Partners株式会社)においてアセット探索まで実施できます。
バイアスとその対策
研究者のバイアスが仮説生成の方向性を狂わせる
さて、孤発性ALSにおいて創薬標的となる可能性のある5遺伝子のリストを得た次の段階について、通常は創薬企業の研究者が、その一つひとつの遺伝子を詳細に調査されるのではないでしょうか。
この調査には多大な工数がかかり、その後に仮説を立てていく際、研究者それぞれの親しみのある遺伝子や生理反応を選びがちになるなどのバイアスがかかる傾向にあります。
アンバイアスな仮説生成:Ontology情報
そこでFRONTEOでは別の方法で、注目する遺伝子を策定します。
まず5遺伝子のバイオロジカルプロセスのオントロジーをすべからく抽出します。これらの情報を俯瞰すると、赤文字の部分から「RNA代謝と遺伝子発現の制御」という共通性が見えてきます。
次に、この共通性が調査の方向性として正しいかを、当社FRONTEOの概念検索ツール「KIBIT Amanogawa」で概念的類似性のある論文を抽出して確認していきます。方向性が確認できた上で、「RNA代謝の異常はALSに寄与する」という文章でさらに検索を行うと、SFPQとALYREFがALSの発症に関与するという情報が見つかりました。さらに、SFPQはRNA凝集体の形成によってALSの発症進展に関与するといった情報も見つかってきました。
ここで「RNA凝集体」に気を取られて深掘り調査に入ることは研究者のバイアスとなりますので、まずは応答性遺伝子であるRNH1(内因性のRNase阻害物質)について精査しました。すると、その阻害対象物であるAngiogeninに関する情報が多く見られたため、調査の方向性を Angiogenin に変更しました。このように、できるだけバイアスがかからないよう調査を進めていきます。
Angiogenin変異とALS
Angiogenin変異とALS:調査対象の変化RNH1→Angiogenin
調査の結果、同じ様な内容の論文が2本ヒットしました。今回は欧州のグループからの報告をご紹介します。ALS患者におけるAngiogeninの15のバリアント(Variant:多型)とALSの発症時期ないしは生命予後との関連性を解析した内容です。1) Angiogeninが熱に不安定なバリアントほど早期発症であった、2) 低活性のバリアントでも早期発症であった、3) しかし熱に不安定なバリアントの患者は生命予後が良かった、というデータです。
その他の多くの調査も踏まえて考察した仮説として、①ALS発症前、かつAngiogenin活性が低ければ、Angiogeninを補充することにより発症遅延効果が望めるのではないか ②ALS発症後、Angiogenin活性が高ければAngiogeninを阻害すれば延命効果が期待できるのではないか、と考えられました。
このように、我々はできるだけヒトのエビデンスを重視し、成功確度の高い仮説の生成をサポートします。
仮説と疑問:AIと語らう:Paraspeckle(RNA凝集体)
単発の受託サービスの案件であれば、ここで仮説を納品して終了です。しかし、委託された製薬企業側の研究者の方からすれば、調査対象となった5つの遺伝子のつながりの考察がない、さらには原因性遺伝子であったシアノコバラミンの代謝酵素については何も考察されてない、といった疑問/不満を持たれるのではないでしょうか。
そうした点もディスカッションし、次の仮説生成に向けて解析の再始動もできるのが「共創プロジェクト」です。ここでは先述の疑問を受けたと仮定し、疑問に答える目的でRNA凝集体に戻って再度調査を開始しました。
RNA凝集体は最近「Paraspeckle」と呼ばれています(図の右)。長鎖ノンコーディングRNA鎖の中央部分にある疎水性ブロックにSFPQが結合してV字に折り畳まれ、この疎水性ブロックを中心にミセルが形成されます。これが非膜性の核内構造体であるParaspeckleです。Paraspeckleには、今回リスト化した5遺伝子のうち3つが結合することが報告されています。さらに、神経変性疾患で注目されるFUSやTDP43も結合します。
今回はALYREFを実例に、その報告内容を紹介します。
小脳顆粒細胞の核において、健常時はALYREFが核内に局在することは確認されています。ここで、ALYREFが緑色、RNA凝集体のParaspeckleが赤色に染色されています。C9orf72に変異があるALS患者ではParaspeckleとALYREFが共局在している画像が捉えられています。このことから、ParaspeckleにALYREFが局在することがわかります。
次に、AI「KIBIT」から得られる遺伝子名とそのネットワークの情報(図の左上)も考慮して解釈を試みます。このネットワーク図中でALYREFの左の方(範囲外)にはFUSがあり、一方でRNH1もParaspeckleに結合するという報告があります。以上より、この図中のネットワークの遺伝子のつながりは、「KIBIT」がParaspeckleを表現したものだろうと解釈できます。
そうすると、研究者の方々は「このParaspeckleの形成を制御することで孤発性ALS(Sporadic ALS)の治療ができるのではないか」という考えを思いつかれるのではないでしょうか。
しかし、それをどう制御するかをこの時点で考えつくのはなかなか困難です。しかし、今回の解析の経過をたどると、ネットワーク図上部にヒントとなるMMADHCが存在しています。
MMADHCとParaspeckle - 仮説までも生成
仮説と疑問:MMADHCとParaspeckle
次に、MMADHCについて簡単に紹介します。ここでは、当社の概念検索ツールであり論文検索AIである「KIBIT Amanogawa」のChronological Chart(クロノロジカルチャート)で解説します。
Paraspeckleが初めて報告されたのは2002年の『Nature Cell Biology』でした。2015年ごろから、「Paraspeckle」のキーワード検索でヒットする論文数は増えていますが、PubMedにおけるKeyword検索で「Paraspeckle」でヒットした論文数は2020-2022年4月の期間で204報のみでした。
仮にこの時点でALS研究においてParaspeckleに気づいたとしても、MMADHCとALSの病態の因果関係について仮説を立てるのは非常に難しい状態であったと推定されます。なぜなら、MMADHC、ALS、Paraspeckleの3つのキーワードでPubMedにて論文を検索しても、この時点では論文がヒットしなかったからです。
しかし、当社の論文検索AI「KIBIT Amanogawa」の概念検索では、2019年の時点でParaspeckleと概念的に近しい内容を述べている論文を1800報ヒットさせることができています。
FRONTEOのAI「KIBIT」は、3000万報以上に及ぶPubMed掲載論文のアブストラクトを学習しており、この情報を概念的類似性にて統合しています。この情報を使うことで、初期段階の仮説に加えてParaspeckleとの関連という気づきがAIのアウトプットの解釈を通して見つかり、「Paraspeckleの形成制御の標的遺伝子仮説」が生成できました。
当社では、製薬企業様と共に共創プロジェクトに取り組むことで、製薬企業の研究者の方々と協議を重ねながら、さらに一歩踏み込んだ仮説生成までサポートさせていただけると考えています。