創薬、すなわち医薬品の開発分野では、疾患との関連性が未報告な標的分子を創薬研究者が発見するのは極めて難しくなっています。
FRONTEO Drug Discovery AI Factoryでは、大手製薬企業や国際的研究機関で培った豊富な創薬経験と人工知能(AI)に対する深い理解を併せ持つバイオロジストが自社開発の自然言語処理AIを活用し、独自の解析手法を用いることで新規性の高い標的遺伝子や新たな適応症とその仮説生成を短期間に複数提案することが可能となりました。ここではAIとバイオロジストの融合による、創薬研究の大幅な効率化・加速化・成功確率向上への支援を紹介します。
Speaker
株式会社FRONTEO
取締役/CTO
博士(理学)
豊柴 博義
まず、AI創薬の課題についてです。今、最もAIが使われているのは図で2番目の「化合物の探索・最適化」の段階です。おそらく創薬ベンチャー企業のうち半数ほどがこのフェーズで活用するAIを開発していると言えるでしょう。
一方、FRONTEOがフォーカスしているのは最初の「ターゲット選定=標的探索」の段階で、ターゲットの同定やターゲットの対象疾患を決める領域です。この「ターゲット選定」でのAI活用をとくに進めていきたいと考えています。
FRONTEOは自然言語処理AI「KIBIT」を自社開発しています。「KIBIT」を用いた創薬支援サービスは、AI技術だけでなく、製薬会社で研究してきた経歴をもつ薬理の研究者も一緒に創薬への仮説生成を進めているのが特長です。
チェスでは「アドバンストチェス」といって、人間とコンピューター(AI)が味方として一緒にプレイすると最も強いと言われているそうですが、FRONTEOの取り組み方もとてもよく似ています。AIの「網羅性」と、創薬の経験をもつ研究者のカン・経験を合わせて、標的分子の探索、ドラッグ・リポジショニング、バイオマーカー探索や毒性の解析などの仮説の生成を進めているのです。
システマティックレビューでも「人のみ」と「人+AI」の差を比較したものがあります。
・「人+AI」の方が、「AIのみ」よりも52%と少しだけ向上
・「人+AI」の方が、「人のみ」と比べると約82.5%と向上
網羅性という意味では私たち人はAIに及ばないこと、また人の認識にはどうしてもバイアスがかかってしまうこと、の2点があるため、「人+AI」の組み合わせが最適だと考えられます。
過去の事例を振り返ると、これまでも創薬の分野でAIは使われてきました。しかし最も問題となったのが「ブレイクスルー(Breakthrough)」です。研究者、とくに創薬研究のような高い競争力を求められる分野の研究者にとって、ブレイクスルーは非常に大切です。
創薬で使われてきたAI技術の一つは「自然言語処理(NLP)」、もう一つは「ナレッジグラフ(Knowledge Graph)」という分子間のつながりなどを分析する方法でしたが、これらを使っても新薬の候補を出すのはなかなか難しいのが現実でした。なぜなら人には確証バイアス(コンファメーションバイアス)というものがあるからです。
このグラフでは縦軸に報告数(パブリケーション)、横軸に遺伝子名が並んでいます。グラフの右に行くほど論文で報告がない、つまり研究があまり行われない遺伝子が並び、グラフの左はよく研究されている遺伝子となります。
私たち人が持つ確証バイアスとは、自分がよく知っている分子や自分の研究に関連する疾患に目の前の結果を結びつけてしまうという性質です。人はよく知る分子に自然にフォーカスしてしまう傾向があるため、研究者が新しい分子を見つけることは非常に難しいのです。
確証バイアスを打破するために、FRONTEOはAIを活用していきたいと考えています。FRONTEOのAIの特長の一つは「非連続的発見」です。
文献の中から新しいものを見つける方法としては二つあり、一つは連続的発見と言っていくつかの論文の文脈を統合するような形です。図の左半分のケースのように、通常は「AがBに関係して、BがCに関係して、そしてCがDに関係している」場合に私たちは、「AがDに関係している」のではないかと推測することができます。
一方で、FRONTEOが掲げているのは「非連続的発見」です。例えばある論文で、タンパクAは疾患Bに関係することが報告されたとします。また別のタンパクCについて、発現する組織がタンパクAと非常に似ている、あるいはタンパクCの細胞内での局在もタンパクAに非常に似ている、またはタンパクCと一緒に働く多数の分子を調べてみるとその多くがタンパクAとも働いている、という事実があるとします。この時、タンパクCと疾患Bに関する論文報告がなくても、先述の関係性をもとに生物学的にはタンパクCの機能はタンパクAに似ており、タンパクCも疾患Bに関連しているのではないかと考えるわけです。
FRONTEOのAIのアルゴリズムは後者の考え方で設計しているため、AIが大量の論文を解析することで論文中に直接記載されていない「タンパクCにあたる候補」を発見して提示します。言い換えれば、AIで「意図的にセレンディピティを起こさせてブレイクスルーを誘起させる」というアプローチをとっていると言えます。
現在はさまざまな自然言語処理AIが発表されています。LLM(大規模言語モデル)、そして生成AIも自然言語処理AIに含まれますが、多くが連続的な手法を使っています。LLMや生成AIのベースである、5つの単語が与えられた場合の6つ目の単語は何か、6単語になったら次の7つ目は何か……という発想は、いかにも文章の中に出てくる単語を「連続的に」追っていくという形になります。
一方で、FRONTEOが目指すのは「非連続的発見」で、当社のみがこの非連続的発見を見つけることができるアルゴリズムに唯一取り組んでいると考えています。特許についても日・米・欧で取得しており、非常に先進的で独創的なアプローチとなっています。
FRONTEOのAI「KIBIT」のもう一つの特長は、連続的・非連続的な分子のつながりをネットワークの形に表せることです。この機能を活用して、ネットワークを包括的かつ網羅的に作成したり、特定条件下でのネットワークを作成したりできるようになっています。さらにこのネットワークを分析する独自手法もいくつか開発済みで、これらを組み合わせることによって創薬の「仮説生成」につなげています。
独自の解析手法の一つが、AIで作成したネットワークを使った「Virtual Experiments」という手法です。ネットワーク中で特定の分子をノックアウト/ノックインしてパスウェイがどのように消えるか、または逆に現れるかを確認することで、投薬の初期にはよく効いた薬が効かなくなるメカニズムなどを解析できる技術です。
「KIBIT」の学習ソースについては、FRONTEOは2024年からシュプリンガー・ネイチャー社と協業しており、同社の600雑誌25年分のフルテキストを解析対象として用いています。これが可能なのはFRONTEOだけであり、この点でも非常にユニークな学習ソースを持っていると言えます。
もう一つの大きな特長は、FRONTEOでは実験データと自然言語処理ベースのネットワークを合わせた解析も簡便に行えることです。これはFRONTEOが独自のAIエンジンを持っているため可能になっています。
追加の情報もフレキシブルに盛り込んだ上で新たなネットワークを作ることができるので、製薬企業が独自に持つデータを情報として追加し、ネットワークをさらに拡張して分析を進められる点も強みです。
ここまで挙げたようにFRONTEOの特長は
の5つです。これらをもとに、非常に独自性があり確度が高い「仮説生成」を行って創薬のブレイクスルーにつなげていこうと考えています。
実際にある会社様とFRONTEOで取り組んだ事例です。この件ではまずある疾患Aに関して、標的となる可能性がある遺伝子を95個選出しました。
次に、疾患Aは非常によく知られた疾患で複数の臨床試験もすでに実施されていたため、既知のパスウェイの検討は避けて、疾患Aとのつながりについて報告がない候補を95個の中から20個に絞りました。
この20個のうちin vitroの検証で表現型をもつものが5個見つかり、最後にin vivoで1個が活性を示したという結果が得られました。
これは、FRONTEOがAIを用いて発見した標的候補が、in silicoだけでなくウェット検証でも妥当性が十分に確認できるものだったということを示しています。
FRONTEOが創薬の「仮説」と呼ぶものは標的候補だけでなく、分子的な疾患メカニズムと、さらにそのメカニズムからどのような患者さんに最も有効かという点やバイオマーカーまで合わせて提示できる、というところです。さらに候補を検討する初期段階から、標的候補の安全性の懸念に関する情報も提供します。
さらに当社では薬理の研究者も研究に加わっており、提供した仮説の検証の進め方も含めて検討を推進できるため、非常に効率よく研究を進めることができます。
独自性があり確度の高い仮説を提供できるFRONTEOの手法により、創薬において問題になっている創薬力の低下と効率の低下、研究開発コストの増大、さらに事業性としての難度といった課題の解決を図っていきたいと考えています。
創薬研究において研究があまり進んでいない疾患や遺伝子を扱うことは実際には難しく、通常は有名な遺伝子(スライド左図の赤い部分)を中心に研究が進みがちです。
しかしFRONTEO独自のAIエンジンは、出現頻度が非常に低い遺伝子(同 青い部分)の情報も探索できるアルゴリズムとなっています。またFRONTEOでは、対象とする疾患や遺伝子が他のどの疾患と関連しているかをマトリックスの形で見ていくため(スライドの右図)、仮に一つの候補が不適でも次の遺伝子、または次の疾患……と次々に仮説を作っていけることも特長です。
PubMedの検索結果がゼロだった候補遺伝子のうち「LVRN」を取り上げます。
LVRNと高血圧症をPubMedでAND検索した結果の論文数はゼロでした(左上の表より)。
一方で私たちはシュプリンガー・ネイチャー社の600雑誌、25年分のフルテキストを活用できるため、この解析では2022年までの論文データを学習させて用いることで、「LVRN」を含む候補遺伝子を発見するという結果を得ました。
そして2024年に雑誌『Nature Genetics』でLVRNと拡張期の血圧の関連性が初めてGWASで見つかっています。この報告は100万人ものコホートの研究によるものでした。
どういうことかと言うと、高血圧症という疾患に対して研究対象の人数を100万人まで増やし検出力を上げることでようやく2024年に関連が見つかった「LVRN」という遺伝子を、FRONTEOのAIでは2022年までの論文をベースに見つけることができたという事例になっています。
さらに同じく「HHIPL1」も、PubMedのAND検索では血圧との関連は全く報告されていない遺伝子でした。
HHIPL1のHHはヘッジホッグ(HedgeHog)経路のHHを示し、これはアゴニストとして働くことが知られています。一方で、図の左下のVEGFR受容体(レセプター)へ作用する薬剤(阻害剤[インヒビター]としても抗がん剤として使われる)は、副作用として高血圧を起こすことが多いことも知られています。
つまり、このHHIPL1に機能喪失変異が入るとヘッジホッグ経路が十分に活性化されないので、VEGFR受容体が十分に活性化されないという状況が生じます。こうしたメカニズムで高血圧症になる場合もあるという仮説が成り立ちます。
一方で、私たちのアプローチは新規の標的だけではなく、既に知られている医薬品の標的がネットワークの中に存在するかどうかも探索することができます。つまり、新しい標的の探索に加えて既存のアセットの検討も進めることで、予算を抑えながら製薬企業内のアセットも最大化することができます。
実際にここ数年で、さまざまな企業様と標的探索・ドラッグ・リポジショニング、バイオマーカー、毒性解析と取り組みを行ってきました。協業先との業務提携や米国への進出も進めています。
ドラッグ・リポジショニング(DR)は、製薬企業にとって取り組みが難しいと言われています。
DRへの障害を感じたという製薬企業の理由の多くが「財政的・資源的な障害」とのことで、86%にのぼります。このうち25%が専門家の不足と言われています。
ドラッグ・リポジショニングを検討する場合にはぜひ、専門家も擁するFRONTEOへご依頼いただきたいと考えています。
製薬企業様からご依頼いただくためのFRONTEOのワークフローも整備しています。製薬企業様のパイプラインを保ったかたちでFRONTEOがセカンドラボという関わり方で働かせていただくことで、新たなパイプラインを増強していくことが可能です。
FRONTEOの支援サービスは、新規性が高く非常に高確度な標的候補を仮説生成と合わせて提供するという特長をもつ、革新的なAI創薬支援サービスとなっています。協業先とも力を合わせて、製薬企業様へ確度の高い標的分子を継続的にご提供していきたいと考えています。