中外製薬におけるAI創薬と自然言語AIを活用した標的探索の可能性
2023.09.15機能喪失型変異に起因した疾患に対する新しい標的探索法の紹介~サプレッサー変異遺伝子の効率的な抽出方法~
2023.10.18田辺三菱製薬の齊藤 隆太氏は、2023年7月19日「FRONTEO AI Innovation Forum 2023」において、同社が手がけたドラッグリポジショニング、FRONTEOと共同で行った創薬標的探索についてセッションを展開しました。創薬現場の課題をAIがどう解決するのか、今後の問題点はどこにあるのか──長年創薬の現場に携わってきた齊藤氏が、田辺三菱製薬とFRONTEOが共同で行った創薬標的探索をベースに解説します。
田辺三菱製薬株式会社
齊藤 隆太 氏
創薬本部 創薬基盤研究所
(兼務)創薬本部 創薬企画部 創薬企画グループ
主任研究員
博士(農学)
同業者及びフリーメールアドレスの方はご登録をご遠慮いただいております
田辺三菱製薬の齊藤 隆太氏は、2023年7月19日「FRONTEO AI Innovation Forum 2023」において、同社が手がけたドラッグリポジショニング、FRONTEOと共同で行った創薬標的探索についてセッションを展開しました。創薬現場の課題をAIがどう解決するのか、今後の問題点はどこにあるのか──長年創薬の現場に携わってきた齊藤氏が、田辺三菱製薬とFRONTEOが共同で行った創薬標的探索をベースに解説します。
田辺三菱製薬株式会社
齊藤 隆太 氏
創薬本部 創薬基盤研究所
(兼務)創薬本部 創薬企画部 創薬企画グループ
主任研究員
博士(農学)
ハイリスク・ハイリターンの創薬から脱却するために
齊藤 隆太氏:私は田辺三菱でバイオインフォマティクスを中心に、この20年間、創薬を推進してきました。バイオインフォマティクス、オミックス解析だけではなく、R&Dのデジタルトランスフォーメーションも含めて担当しています。
今日の講演では最初に、弊社におけるDXの取り組みについてお話しさせていただきます。その後、弊社で行っているデータ駆動型のドラックリポジショニングの取り組みについて紹介し、最後に、FRONTEOと一緒にターゲット探索を実施した事例をお話しさせていただきます。
まずインフォマティクスの変遷について。20年前にヒトゲノムが読まれて、それ以降テクノロジーが進歩し、コンピューターパワーもどんどん増大しているということもあって、非常に大量のデータを取り扱うようになってきました。大量なだけではなく、いろいろな種類のデータを取り扱うようになってきています。
それに伴いインフォマティクスについてもいろいろな役目を求められるようになってきていて、我々もこの20年の間にその場その場で「これは必要だろう」と考える解析技術を取り込みながら検討してきました。
創薬は、R&Dの期間が非常に長くて、しかもそのほとんどが失敗するという ハイリスク・ハイリターン構造になっているのが特長です。生産性が非常に悪いわけです。製薬のパイプラインを充実させて企業価値を高めるには、この生産性を改善する必要があります。
そのためにはこれまでに収集・取得した大量のデータから、新しい価値を引き出すこと、創薬R&Dを効率的に進めていくことで、生産性を上げるということが求められます。
創薬は非常に多くの テクノロジーの集合体として成否が決まる「総合科学」です。AIの活用シーンは非常にたくさんあるので、会社の戦略にあった技術をきちんと確立していくことが大切です。我々としてはこの中で4つほど自分たちの全体戦略にあった技術を選定し、重点技術として推進しています。
弊社は三菱ケミカルグループのファーマセクションとして「一人一人に最適な医療を届けるヘルスケア カンパニー」というビジョンを設定しています。そのビジョンを実現するため、2つの大きな目標を R&Dとして掲げています。
一つ目の目標は「治療選択肢のない患者さんに対して新しい価値を作り出す」です。さらに、この新しい価値を必要としている 患者さんに速く届けるというのも重要だと考えていて「R&Dの生産性を上げることで 患者さんに価値ある製品を速く届ける」を二つ目の目標としています。
この二つの目標を両立するのが我々のDX戦略の大きな方向性です。先ほど述べた四つの重点技術ですが、一つは「バイオインフォマティクスと自然言語処理を活用した創薬標的・適応症探索」で、これは主に新しい価値の創造を目的として研究を進めています。二つ目が「AIドラッグデザイン分子シミュレーション」。三つ目が「画像解析AIを活用した薬効評価・スクリーニング」で四つ目が「仮想患者モデルを活用した臨床試験シミュレーション」になります。この三つの重点技術は主に創薬研究の効率化 、成功確率を上げることにつながります。こういった四つの重点技術を使って 創薬の研究を効率化していくだけではなく、効率化した部分をさらに次のアイデアに活かしていくことで「新しい価値」の創出を促進していきたいと考えます。
データ駆動型創薬の1つ目の実例として、「ドラッグリポジショニング」について話させていただきます。先ほど創薬はハイリスク・ハイリターン構造ですよという話をさせていただきましたが、上市されているもしくはその開発が途中で止まっている化合物の新しい適応症を見つけて、違う価値を提供しましょうというのがドラッグリポジショニングです。
従来の創薬のやり方と比べると、安全性などの見極めができているためにリスクを下げた形で創薬が可能で、コストも10分の1 ぐらいで済むという試算もあり、 注目されているアプローチになっています。ただ、今までのドラッグリポジショニングは医師とか研究者の知識や発想に基づいたアイデアがベースになっていたので、こういったところを大規模なデータとAIの技術を使って加速化できないかと検討しています。
ドラッグリポジショニングの研究の全体的な流れは、薬効や臨床試験データ、化合物情報、疾患や化合物に関連するパスウェイの情報、遺伝子発現、文献といった医薬品に関係するビッグデータに基づいて、 AIの技術などを使いながら新しい関係性を予測します。これを実験的に検証することで科学的発見、すなわち新しい価値を生み出していこうとしています。
我々は、主に文献データを扱う際に自然言語処理を使うことが多く、社内にすでに取り込まれているデータベースやバイオ インフォマティクス的な解析結果に基づいて、疾患と薬剤と遺伝子を関係づけたような ナレッジグラフデータベースを作っています。
このナレッジグラフデータベースを使って、ある薬剤に対して新しい適応症を探したいとなった時、最初に検索をかけるとだいたい 1000ぐらいの適応症候補が出てきます。それをさらに分析系のAIの技術を使って絞り込み、研究者のアイデアや全体的なデータ解析の結果と掛け合わせながら、実験できるような数まで厳選します。
ナレッジグラフを使ったドラッグリポジショニングのアプローチについて、他社事例ですが、Covid-19に関連した象徴的な事例を一つ紹介させていただきます。この事例はBenevolent AI社という会社の事例です。機械学習を使って、遺伝子と病態に関連する症状との関係性を ナレッジグラフで記述してやり、Covid-19の感染・病態進行の機序に基づいて、重症化に関わる遺伝子とそこに作用する薬剤を解析した結果です。
この解析からBaricitinibという薬剤が上がってきています。この論文が出たのが2020年2月。その後、このBaricitinibを持っている Eli Lilly社が 臨床試験で成功して、入院患者の死亡率を大幅に下げたという結果が出てFDAに2020年11月に承認されました。
先ほど薬の研究開発期間は10年以上かかるとお話しさせてていただきましたが、今回のケースは論文が発表されてから実際FDAに承認されるまで1年かかっていないということで、すごく大きな出来事だったと思っています。
もちろん世界的なパンデミックというのもあって、社会的な要求の後押しがあったからこその出来事ですが、データ駆動で生まれた価値を、いち早く開発試験を乗り切っていくこともできると示した事例であり、私としては勇気づけられました。
自然言語処理AIでドラッグリポジショニングを加速
実際、弊社の中ではどのようにリポジショニング研究を行っているかを説明します。ベースになっている技術の一つとして、FRONTEOのAIエンジン「KIBIT」の技術と似たコンセプトで、 Word2vecを 6年ぐらい前から検討していました。これはニューラルネットワークに基づいて、その周辺の単語との関係性を学習してベクトル化し、単語に関する演算処理ができるようになる技術です。
これはよく説明で使われる事例を図にしたスライドです。それぞれの単語と単語を結ぶ潜在的なベクトルにその本来的な意味が隠れているところが面白いと思っています。
創薬分野でこのWord2vecの解析をすると、Drugsというのが、DiseaseとGenesのそれぞれの足し算の位置にマッピングされます。このような特性を用いて、まだ我々が気づいてないところも含めて、演算処理で数学的に導くことができる可能性があります。
Word2vecの活用事例を一つ紹介します。カルパイン阻害薬という創薬コンセプト、昔からよく知られていて20年ぐらい前は多分どこの製薬企業でもやっていた創薬ターゲットについての事例です。
カルパイン阻害薬を題材としてWord2vecからまったく新しい適応症を見出せるかを検討しました。まず、カルパスタチンというカルパインの内在性の阻害タンパク質と単語空間上で相関するような 疾患のリストを作って 、そこに対して遺伝子発現データおよび疾患関連パスウェイにおけるコントリビューションをデータベースの解析と重ね合わせていくことによって、これまで注目してなかった尋常性乾癬という皮膚疾患が適応症の候補として浮かび上がってきました。
我々は実際に、マウスを使ったイミキモド誘発乾癬様皮膚炎モデルを用いて、Word2vecで予測された薬理作用を検証しました。その結果、先行上市されている抗IL-17抗体と同等程度ぐらいの薬効をカルパイン阻害薬が示すことを発見しました。 新しい適応症を予測だけではなく、きちんと検証まで進んだという結果が得られています。
もう一つドラッグリポジショニングの事例を紹介します。こちらは 探索段階では自然言語処理技術を使っていません。PPARアゴニストというこれもすごく有名な薬物クラスの化合物についてで、これは機械学習の技術を使ってその遺伝子と化合物とその適応症の関係性を新しく見出そうとしています。化合物に対して新しいターゲット分子が見つかれば、 新しい発見に基づいたコンセプトを構築できるので、適応症を考えるときにかなり有利になります。その新しい ターゲット分子っていう のは何だろうっていうのを機械学習で予測した結果です。
こちらは名古屋大学(当時:九州大学)の山西先生との共同研究です。機械学習で23個の新しいターゲット分子の候補が得られました。その中で実際に実験ができる18化合物を選んで、その化合物が予測されたターゲット分子に実際に結合するかという実験を行いました。
その結果、18個中9個の分子について実際に結合することが分かりました。その中の1 個は最初からわかっているPPARGなのですが、それよりも強いところでMAOBという新しい分子が見つかっています。
新しいターゲット分子、つまり薬理作用が見えてくると、次に適応症をどう考えるかという話になります。ここで自然言語処理を使いました。ここではWord2vecとかではなく、遺伝子や疾患の症状を表すフェノタイプの単語に着目して、疾患ごとに文章中に共起している単語を解析し、疾患を表すプロファイルを作成しました。
PPARで元々知られているようなインスリン抵抗性、MAOBでよく知られているパーキンソン病にプロファイルが似ている 疾患をマッピングした結果を示します。こうすると神経変性疾患の一部や脳梗塞など、いままで注目していなかった疾患が似ている疾患としてマッピングされてくるということが分かってきました。
今日紹介した2つの事例で、ドラッグリポジショニング研究において探索段階で役に立つ自然言語処理技術と、検証的な段階、優先順位をつける際に役に立つ自然言語処理技術をそれぞれ紹介しました。これらの事例で示したように、適応候補疾患の絞り込みにおいて、自然言語処理の技術はすごくパワフルにワークすると考えています。
FRONTEOとの協業で新規の標的探索を実現
最後にFRONTEOとの協業事例として、ターゲット探索の事例を紹介します。FRONTEOの自然言語処理系のAI技術を使って、医学論文の膨大なテキスト情報をベクトル化し、そのベクトル化した結果に基づいてその疾患の分子ネットワーク、疾患マップを一緒に作っています。こうやって生成した疾患マップをうまく使って、注目した疾患のターゲット探索に使えないかとトライしています。
がんみたいに疾患そのものの多様性が高い場合、治療方法が提供されている初期段階に対して、治療介入しても症状が良くならない難治性の段階では全然様相が異なることが想定でき、特に難治性の段階はすごく複雑なネットワークからできています。
このような複雑なネットワークから創薬ターゲットを見つけるためにどうしたらいいか、ということをFRONTEOさんと議論させていただき、「サブタイプ間で共通するパスウェイを持つ難治性サブタイプのみで特異的な上流遺伝子は難治性サブタイプの重要な原因の一つである」という作業仮説で解析しました。疾患のサブタイプごとに疾患マップを作成していき、その重複差分を見た時、共通してくるパスウェイは病態に対してかなり重要だと言えます。特に下流に位置するパスウェイはその病態に重要なフェノタイプに影響しているだろうと考えて固定し、その上流で難治性サブタイプBだけで特徴的な原因遺伝子を探索しました。難治性サブタイプだけで新しいパスウェイが出現し、そこからシグナルが入っているとなるとここは 創薬ターゲットの候補の一つになり得るのではないかと考えました。
実際の事例がこちらです。 疾患マップをそのサブタイプごとに作成して、重複差分解析を行ったところ遺伝子で 275個重複、 遺伝子ペアとしては155個重複していました。この重複した遺伝子ペアから共通パスウェイを同定し、その上流因子からサブタイブBで特徴的な遺伝子を取ってくると43遺伝子が同定されました。
この43遺伝子についてネットワーク解析をすると、それぞれ関係性の強いものがきちんと取れていて、何かしら病態の核になるような情報を取れてきているのではないかと考えています。
この43個の遺伝子を優先順位付けするため、Virtual Experimentsを行いました。Virtual Experimentsはネットワーク上での仮想的な遺伝子ノックアウト実験のことで、遺伝子を除外した時に元の ネットワークがどう変わるかを調べ、その影響度をスコアリングし、その変化したパターンから考察を深めて新しい仮説を作っていきました。弊社の方で前出の43遺伝子から12遺伝子に絞り、Virtual Experimentsの解析を実施したところ、影響のあったパスウェイに共通性が出てきました。その影響のあったパスウェイに注目して、ターゲット分子の選定に向けた仮説を構築できています。
FRONTEOの自然言語処理技術を使うことによって、新規の標的候補の遺伝子を抽出できたとは思っています。こちらの検討についてはまだ検証が十分できている状態ではないので、今後に期待しています。
FRONTEOと一緒にやった内容をまとめます。新しい関係性を取ってくるというところで非常に有用な技術です。特に考察に書いた通り、出てきた関係性のうち約5割は新規の関係性でした。しかも Virtual Experimentsは、トランスクリプトームを代表とするバイオインフォマティクス解析とは異なる候補分子が抽出できる事が分かってきていて、単語空間を用いることのメリットを示すことができました。抽出された新しい標的候補分子のバリディティを上げる方法はまだまだ工夫がひつようですが、新規の標的候補分子を探索するという意味では一つ有用なツールだと考えています。
最後にまとめです。今、文書系の情報っていうのは爆発的に増えており、今までみたいに研究員が文献ベースで考えていくのには限界があります。 非常に膨大な情報を体系的に解析して、独自性の高いアイデアにつなげていくためには、本発表で紹介したように自然言語処理AIの 技術は必須ですし、新たな価値の創造には重要なツールの一つだと考えています。
自然言語処理AIと言ってもいろいろな技術がありますので、それぞれ課題に応じて使い分けしていくことが重要です。また、AIを用いた解析結果から研究者がその潜在表現の中に隠れている情報をきちんとイメージして、新しい発見につなげていけるかっていうところが今の技術としては課題だと感じています。技術進歩の早い分野ですので、今後の技術発展によってこれらの課題を乗り越え、データ駆動型創薬の取り組みがより加速化していくことを期待しています。