「Virtual Experiments」~標的遺伝子をノックアウトした世界を生成する~
2023.09.04田辺三菱製薬におけるデータ駆動型創薬の取り組み
2023.09.202023年7月19日に行われた「FRONTEO AI Innovation Forum 2023」で中外製薬・和田学氏のセッションはひときわ注目を集めました。がん・バイオに強みを持つ研究開発型製薬企業は、AIを創薬にどう活かしたのか? FRONTEOと取り組んだ事例を交えつつ、自然言語AIと標的探索の関係性をたっぷりと語っていただきました。
中外製薬株式会社
和田 学 氏
研究本部 バイオロジー基盤研究部
主席研究員 グループマネジャー
博士(医学)
同業者及びフリーメールアドレスの方はご登録をご遠慮いただいております
2023年7月19日に行われた「FRONTEO AI Innovation Forum 2023」で中外製薬・和田学氏のセッションはひときわ注目を集めました。がん・バイオに強みを持つ研究開発型製薬企業は、AIを創薬にどう活かしたのか? FRONTEOと取り組んだ事例を交えつつ、自然言語AIと標的探索の関係性をたっぷりと語っていただきました。
中外製薬株式会社
和田 学 氏
研究本部 バイオロジー基盤研究部
主席研究員 グループマネジャー
博士(医学)
全社的なDXとともに、AI創薬を積極的に推進
和田学氏:今日は中外製薬におけるAI創薬と、自然言語AIを活用した標的探索の可能性というタイトルで中外の創薬の一部分をご紹介したいと思います。
中外製薬は、がん及びバイオに強みを持つ研究開発型の製薬企業です。ロシュとの戦略的なアライアンスパートナーシップのもとに、研究開発を含めて独自の経営を行っております。強みといたしましては創薬の技術力。とくにモダリティ開発の技術力には強みがあると感じています。
DX推進にも力を入れています。2020年に「CHUGAI DIGITAL VISION 2030」を立ち上げ、DXを進めています。「CHUGAI DIGITAL VISION 2030」は、3つの柱で構成されています。一つ目は全社的なデジタル基盤の強化。二つ目はすべてのバリューチェーンの効率化。そして三つ目はデジタルを活用した革新的な新薬創出「DxD3」と名付けてデジタルAI創薬を進めています。
デジタルを活用した革新的な新薬創出[DxD3]は、 研究アイデアの着想から臨床フェーズのアーリーデベロップ部分まで幅広く展開しています。
創薬ターゲット探索や医薬品分子のデザインにAIを使ったり、リアルワールドデータやデジタルマーカーの解析、あるいは QSP (Quantitative systems pharmacology)といわれる高精度モデルの構築、様々なバイオマーカーを使った対象患者群のセグメンテーションの精緻化等を行っています。加えて研究所レベルでは、創薬プロセスあるいはデータの統合、解析システムの自動化、加えてロボットの導入による省力化を行っています。
一例として、抗体の配列をAIによって自動的に生成するMALEXAⓇ-LIシステムや配列の最適化を行うMALEXAⓇ-LOシステムを構築し、開発検体にもAIが生成した配列を採用しています。同じように中分子の構造生成にもAIを使っております。また画像解析の分野はDigital Pathologyを推進して、様々な病理画像解析をデジタルに処理しています。 研究所はモバイルロボットを導入して、次世代ラボオートメーションを構築中です。
世界中の研究が、ごく一部の有名な遺伝子に偏っている
ここから、AI創薬における自然言語AIと標的探索の可能性に話を進めます。自然言語AIのコンセプトです。「遺伝子何個ぐらい知ってますか?」と聞かれた時、おそらく100とか200ぐらいになるのではないかなと思います。ヒトゲノム上のコーディング遺伝子が2万少しと報告されていますが、いち研究者が理解できる範囲はごく一部です。
こちらのグラフは、ヒトゲノムの2万遺伝子それぞれが、どれだけ研究されているかを調べたものです。縦軸が論文の数、横軸がそれぞれの遺伝子を示しています。一見してわかるように著しいロングテールの構造になっています。すなわち今までの研究が、ごく一部の有名な遺伝子に集中しているということです 。
TP53やTNFと言った有名な遺伝子と比較して、 圧倒的大多数の一般的な遺伝子では400倍から8000倍くらいの情報量差が存在しています。
先ほど100から200の遺伝子については知っていると申しましたが、すなわち我々が普段の研究で認識している範囲はごくごく有名なものに絞られているということです。自分たちはこの長大なロングテールの情報を効率よく収集して、普段であればリストに上がっても見逃してしまうようなロングテール情報を取り込んで創薬に活かしたいと考えています。
同時に人類の知識自体がごく少数の遺伝子に集中しているために、広大な範囲のダークスペースが残されています。これらについてもAIの力を借りて、未知の関係性を予測することで、標的探索の可能性を拡大したいと考えています。
先ほどのグラフを四象限で表してみました。左側は皆がよく知っている情報。右側はまだ誰も知らない情報です。縦軸の下側は自分が知らない情報。上に行くと自分も知っている情報になります。
青い破線で囲んだ三角形の領域のように、ごく一部の人だけが 知っているような情報をAIの力を借りて、自分も知っている情報に変えていきたいと考えています。
加えて、右下の赤い破線の三角形の領域のように、まだ誰も知らない情報について、いち早くその可能性に気づいて標的探索に役立てたいとも考えています。
こちらは自然言語処理技術を使うシチュエーションを示したものです。今までは、知っている情報を確かめたい、あるいは知りたい情報を調べるためにKeyword、Ontology、Semantic技術を駆使して、情報収集の効率化を進めていました。それに加えて、新たに知らない情報を学んだり、知識と知識を連結して新たな着想を得たいというところにも自然言語の活用場面は広がってきています。
それに適した技術としてベクトル化(分散表現)であったり、最近よく話題にのぼっている生成AIやナレッジグラフといった技術があると思います。今回は特に知らない情報を学んだり、新しい着想を得るために自然言語AIを用いた実例についてご紹介したいと思います。
見過ごされた研究対象を、AIが再発見する
一つ目は疾患と疾患のリレーションシップを解析した事例です。これは2019年に自分が初めてFRONTEOと一緒に仕事をした時のデータです。先行論文としてGWASやSNPsといった遺伝子レベルでの疾患と疾患の関係性を解析したという論文がありました。例えばクローン病と潰瘍性大腸炎というのはどちらも炎症性腸疾患に分類される疾患であり、遺伝的にも双方が強い相関関係にあります。一方で潰瘍性大腸炎は 幼い頃の肥満と遺伝子レベルで相反関係があるということが浮かび上がっています。ところがクローン病は幼い頃の肥満とは関係がないことが、ジェネティックス解析で示されています。同様の解析を論文テキストの情報で、疾患と疾患の関係性を分析したいということを思い、FRONTEOのAIを用いました。
一例としてアルツハイマー病と各種疾患群の関係性をプロットしたものです。横軸はテキストの情報を分析して、疾患名のベクトルから疾患と疾患の類似度を測ったものです。右に行くほどアルツハイマー病との類似度が高く、真ん中より左は関係がない状態です。
縦軸は先ほどの先行論文にありましたジェネティックな疾患リレーションシップを示しています。例えば 一番下にある空腹時のプロインスリン量は、テキストレベルでは全くアルツハイマー病と関係ありませんが、ジェネティックには相反の関係が認められます。同じように 一番上の腸骨の骨密度は テキストレベルでは全くあると関係がないにも関わらず、遺伝子レベルでは相関関係があることが示されています。
これらのターゲットは見過ごされた研究対象であると言えます。実際、アルツハイマー病と空腹時のプロインスリン量に関しては PubMed上で、昨日までに論文一報しかありません 。同じように腸骨の骨密度に関しても、これを試した2019年までに二報論文があるだけで 、昨日までもPubMed上では六報の論文にとどまっています。
逆に遺伝子レベルでは全く関係がないにも関わらず、論文テキスト上では相関、類似性が認められるものにアルツハイマー病とクローン病の関係もしくは アルツハイマー病と冠動脈疾患というのが浮かび上がってきました。これらは論文の文章レベルで何かしらの類似性があることが示されています。可能性としては環境要因などが考えられます。
アルツハイマー病とクローン病でPubMedを検索すると、2019年までに37報の論文が出てきますが、PubMedのベストマッチで最上位に上がってきたものはアルミニウムの毒性に関する論文で、双方に関係する環境要因が予測されてきているのかと思います。こういった疾患と疾患の関係を調べることで、新たな創薬のヒントが得られるのではないかと考えます。
二つ目はよりダイレクトに遺伝子と疾患の関係をAIに予測させようというものです。これも同じく2019年にFRONTEOと共同で行いました。パブリックに公開されている遺伝子と疾患の関係性を約12万3000のレポートから抽出してきました。分散表現と機械学習を用いて、遺伝子と疾患の関係性の有無を分類するモデルを構築しました。ここで、Gene Xを標的としたある薬剤の適応拡大を想定して、AIを使って候補となる疾患リストを作成することを行いました 。
これがその時AIによって提案されたGene Xの標的疾患のリストです。トータルで510疾患がリストアップされていて、我々、中外の研究者が想定していた標的疾患が20位にランキングされています。比較的上位に自分たちが想定したものが上がってきましたが、それ以外の疾患はほとんど想定外のものでした。そこで、それぞれの疾患について論文調査を行ったところ、Gene Xがこれら疾患の創薬ターゲットになり得るという記述が複数認められました。
事例としては家族性ポリポーシスとか高脂血症、腎癌、不安障害、ALSといった一見何の関係もなさそうな疾患群がそれぞれターゲット適応疾患になりそうだと、AIが予測して実際に論文レベルでそれが示されたということです。
興味深いのはこのALSです。Gene XとALSの関係というのは先ほどの学習データには含まれていない情報でした。AIが類似性を計算して、学習セットにない疾患を提案してきたということになります。これはAIによって未知の関係性を予測することができる可能性を示したと考えています。
次のスライドは diesease-Aをクエリとして、AIに標的遺伝子を予測させた事例になります。左側がAIが予測したdisease-Aに対する候補遺伝子です。378の遺伝子が予測されて、そのうちのトップ50をここに載せています。それぞれの遺伝子に対してdisease-Aとの関係性を論文上で精査し、創薬ターゲットになりそうだと認められるものをHigh relevant targetとして、論文が見つからないもしくは疾患との関係が見つけられなかった遺伝子をLow relevant targetとしてスコアリングしています。
結果としてAIが予測したトップ50疾患には、High relevant targetが高度に濃縮されていたということが分かります。右側のパネルはコントロールとしてAIが予測してこなかった、すなわち380番以降にランクした遺伝子を並べています。左と比較してコントロールの遺伝子群は無関係の報告が多数を占めています。確かに先ほど作ったAIが特定疾患に対する候補遺伝子群を高度に濃縮する能力があることが示されました。
ただここでいくつか課題が残されています。一つは2万遺伝子の中から約400遺伝子が濃縮されてきましたが、まだ400というのは数が多すぎて、実験的にバリデーションするにはさらに絞りこみが必要です。
もう一つはHigh relevantな論文報告がある標的は、すなわち新規性に欠けているということでもあります。本来であれば、まだ誰も知らない標的を狙いたいところですが、すでにエビデンス証明されているものを無視して、全く知らないものを評価するというのは、相当の根拠や確信が必要になってきます。加えてコントロールとして選んだ遺伝子は、左側(AIが選択した)遺伝子と同程度に研究がされているという論文数でノーマライズしたものをピックアップして並べていますが、AIが予測しなかった遺伝子群の中にもHigh relevantなターゲットが3割強存在しているということが認められました。この原因の一つとして、疾患(あるいは遺伝子)が有名になると関係のある分子が見つかるという現状があります。より研究されている遺伝子はターゲットになりやすい、つまり研究のバイアスがかかっているということです。
ここで次に、タンパク質分子間相互作用の情報をもとに、AIが予測した遺伝子群のネットワークを書かせる、ということを行いました。ピンク色およびオレンジの四角がdisease-Cに対してAIが予測した候補遺伝子、白色の丸がそれらと相互作用する分子です。
最上位にAIが予測したGene Qですけれども、 PudMedではdisease-Cとの関係は全く見つかりません。一方で、タンパク質分子間相互作用の情報でマッピングした各分子についてdisease-Cとの関係を調べますと、ここに示されているようにdisease-Cとの関係を強く示唆されるような分子が集中していることがわかります。すなわち機能ブロックとして疾患との関連性が強固に濃縮されているカスケードが見つかったということです。これらは例えば先ほどのコントロールで疾患との関係性が示された単発遺伝子より、強い疾患関連性があると考えることが出来ると思います。
次は少し話が変わりまして、仮説生成のための「センテンスジェネレーター」というのを作りました。2020年にこれもFRONTEOと共同で行ったものです。今話題になっているChat-GPTのような生成AIのミニチュア版と考えていただければと思います。PubMedに収載されている1400万のセンテンスを機械学習で学習させました。単語をクエリとしてそれに続く単語群を予測することで、新しい文書を作成するAIができないかということを試しました。
一例ですけれども クエリとして「Fibrosis(線維症)」という単語をAIにかけると1秒足らずでこのような文章が生成されてきます。「Stroke(脳卒中)の結果としてFibrosis(線維症)が起こる。Stroke(脳卒中)とMajor depression(大うつ病)はしばしば併発する」、という文章が生成されました。
そして実際に、この関係を記述してる論文が見つかりました。同じようにもう一度Fibrosis(線維症)で 文章を生成すると次のような文章が生成されました。こちらは「ILK(Integrin-linked kinase インテグリン結合キナーゼ)という遺伝子をノックアウトすると、renal failure(腎不全)と Interstitial fibrosis(間質性線維症)を起こす」というような文章です。これも実際にそのような記述をしている論文が見つかります。
ここで新たにILKという遺伝子が出てきたので、今度はILKをクエリにして新しい文書を作らせました。そうすると「ILK遺伝子を過剰発現させると、虚血性の心機能ダメージを回復させる」というような情報が得られます。これも、そのように記述した論文が見つかりました。
ここで新たにILKとmajor depression(大うつ病)、本来Fibrosis(線維症)に 興味を持っていたんですが、この間にも何か関係があるかもしれないということでILKとmajor depression(大うつ病)について調べると、ある論文のディスカッションパートに「ILKがNGF経路を介して病後の回復に関わっていて、major depression(大うつ病)にも関係していると考察」している論文が見つかりました。
文章生成の連続によって、今まで 研究者が想定していなかった新たな気づきに近づけるものと考えています。
こちらはcalcification(石灰化)という単語をクエリーに文章を作ったものですが、比較的長い文章が書き出され、解読すると3つの論文情報を合作したような文章が作られていました。
これは、一つ論文を読んだだけでは理解できない周辺知識との連結が起こっているということです。最初に示したロングテールの図において、我々が普段認識しているLamppost周りの情報に加えて、論文情報を連結することで『LamppostからFaroutへ』=知識の連結によって新たな着想を得るということが実際にできる可能性が示されたものと考えております。
最後の実例は、ナレッジグラフです。はじめにセマンティック解析によって、遺伝子をノックアウトすることで疾患モデルが回復したという論文情報を抽出してきました。そこで得た8506報の論文のうちの2786報を使ったナレッジグラフを示しています。
拡大図はこちらですが ブルーのノード(丸印)が遺伝子を、オレンジのノードが 疾患を表しています。
グリーンで示したエッジ(矢印)が、遺伝子をノックアウトすることで疾患が回復する方向の情報。オレンジ色のエッジが、遺伝子をノックアウトすることで疾患が増悪する方向の情報です。これ一つ一つのエッジが論文一つ一つに相当していると見なすことが出来ます。したがってエッジをたどっていくことで、複数の論文の情報を俯瞰的に統合して理解することができると考えられます。
こちらは 糸球体腎炎とALS。一見、何の関係もない疾患ですけれども、マトリックスメタロプロテアーゼ9(MMP9)をノックアウトすると、糸球体腎炎を回復させる。同じようにMMP9をノックアウトするとALSも回復させることができる。普段気がつかない関係性を俯瞰的に理解することができます。加えて、このグラフ構造自体を機械学習にかけることができます。グラフの構造を学習して、新たなリンケージを予測する機械学習モデルも作りました。これに関しては、先月の人工知能学会でその成果を発表することができました。
最後のスライドです。今までテキストマイニング、自然言語にフォーカスして標的探索の話をしてきましたが、テキストだけで新たな標的が見つかるというわけではありません。実際には、GWAS/eQTL, Epigenomeといったマルチオミックスデータによって、相互補完し、社内社外にある様々なデータベースの情報を取り込んだり、クリニコゲノミクスやリアルワールドデータといったような臨床情報を解析して、確度の高いターゲットを選んでいきます。
加えて重要なのは、社内で保有するモダリティ技術との適合性です。中外の技術力を活かして他社ではなかなか薬にできないタフターゲットにアプローチするなどの創薬上の戦略を立てて、Wetでの標的バリエーションを行い新規標的を見出すことが、中外が目指すAI創薬標的探索と考えております。
※本発表・資料に関しては、FRONTEO AI Innovation Forum 2023イベントウェブサイトに限って掲載を許諾しています