自然言語処理AIを使った仮説生成の薬剤性肝障害の新規影響因子探索への応用
2024.05.17AIを活用した孤発性ALSの新規標的探索
2024.05.21FRONTEO Drug Discovery AI Factoryは、創薬とAIの知識をあわせ持つバイオロジストが、自社開発のAIを活用し、新規性の高い標的遺伝子と仮説生成を提案するAI創薬支援サービスです。新たに始まった、Springer Nature社のジャーナル600誌を解析するサービスと組み合わせることで、さらに画期的で新規性の高いアウトプットを実現します。
株式会社FRONTEO
取締役/CTO
博士(理学)
豊柴 博義
早稲田大学大学院 理工学研究科数学専攻修了後、米国国立環境健康科学研究所等で、さまざまなデータの統計解析を用いた研究に従事。2017年よりFRONTEOでライフサイエンスAIの開発に従事。ライフサイエンスの領域に特化したAIアルゴリズムを開発。テキストのベクトル化という特徴を生かし、現在までに論文探索、創薬支援、認知症診断支援、転倒予測などのさまざまなビジネスをこのアルゴリズムをベースに開発している。2019年よりライフサイエンスAI CTO。2021年には執行役員に就任。AIの社会実装を更に推進する。
Drug Discovery AI Factoryがイノベーティブな理由
KIBITが取り込んでいる理論
弊社のAIエンジンKIBITが取り込んでいる理論は、2つあります。1つはDistributional hypothesis「分布仮説」。もう1つはSpreading Activation「拡散活性化」です。この2つの理論により、新たな発見やイノベーションを起こしやすい仕組みになっています。
Distributional hypothesis「分布仮説」
分布仮説は、単語は周りの単語で特徴付けられるという1950年代から知られている理論です。
小さい子どもは、意味がわからない新しい単語に遭遇した際、その周りに使われている単語から新しく出た単語の意味を類推し、使用法を徐々に理解していくと言われています。
分布仮説はその元になる理論で、いわば我々が新しい言葉を学ぶアルゴリズムそのものをKIBITに使っています。
なぜKIBITは新たな発見を可能にするのか?
なぜ分布仮説に従って学習させると「ディスカバリー」をもたらすのでしょうか。
KIBITは分布仮説のみに従って、周りに出てくる単語の種類と頻度だけで単語の意味を規定します。そのためバイアスに左右されないというのが大きな特徴になっています。
パブリケーションされている遺伝子の数
こちらはy軸にその遺伝子名を含んだ論文数、x軸に掲載された論文数の多い順に遺伝子を並べたグラフです。ロングテールの形を取り、左側の特定の遺伝子に対しての論文数は非常に多くなりますが、ほとんどの遺伝子はパブリケーションが少なく、パブリケーションされていない遺伝子もたくさんあることが分かります。
これは確証バイアスと言われるもので、自分の思い込みやこうなって欲しいという願望で情報を見ると、ついついそうではない情報を軽視して、自分が見たいものだけを抽出してしまうというバイアスです。
「First in class」を開発したい場合は、当然ながら疾患との関連性の報告が少ない標的を提案したいと思うわけですが、それは非常に難しいことです。
そもそも新しいものを見つけるのが難しいだけでなく、知らない間にバイアスをかけて見てしまうのも問題となります。
KIBITは分布仮説に従っているので、ほとんど出てこない遺伝子であっても、周りに出てくる単語から使い方を学習します。
新しいものをどんどん読み込ませて行くと、当然ながら新しいものを見つける能力が高くなっていきます。
論文に載っている情報は、主要な遺伝子ばかり
こちらはALSという疾患名をPubMedで検索した場合とKIBITに検索した場合を比較したものです。それぞれのトップ100の論文の中に含まれる遺伝子が、先ほどのグラフの中でどの辺りにある遺伝子なのかを示しています。
キーワード検索では見つからない、予想外の遺伝子に出会う可能性がある
PubMedはultra major geneが1つしか出てきません。KIBITもultra major geneについては2つですが、major geneは2倍以上、minor geneは約5倍になっています。
こういう観点からもKIBITがいかに発見する力が高いかを見ていただけると思います。
新しいことを見つけるのは非常に重要ですが、なぜそれをKIBITはイノベーションに繋げることができるのか。KIBITが使っている2つめの理論「Spreading Activation(拡散活性化)」を使って説明します。
Spreading Activation(拡散活性化)は、言語生成や言語理解の過程で起こっていることを説明するために、心理学や心理言語学、認知言語学で使われているモデルです。
ひとつの言葉から関連する言葉を頭の中でイメージしながら、どんどん膨らませていく過程を辿るという理論です。
創造に必要な5つの要素とは?
『Explaining Creativity』という創造性はどのようにして起こるかを説明した本の中で「創造性に必要な5つの要素」が挙げられています。
特に、赤字の2. Restと3. Selective forgetting、5. Spreading activationについては実験で有効だと確かめられています。
その中のSpreading Activationは、アイデアがどんどん連鎖して広がっていくこと。創造性を獲得していくのに重要な要素とされています。
セマンティックネットワーク
Spreading Activationがどんな所に使われているかがわかる例がSemantic networkです。
我々はさまざまな関連ネットワークのなかで、文章を想起したり物事を理解したりするわけですが、例えば「赤い」という単語が最初に与えられた時に、それに付随する概念で抽象的に頭の中に色々なものを思い描きます。
こちらには果物、色、花の名前が示されています。例えば、話しているトピックが果物に関連するものなら、頭の中でAPPLEやPEERSへと思考が一気に移っていく働きがあると言われています。
概念によって結びつけられた非常に複雑な関連ネットワーク上に作られるわけですが、この概念を分散表現でベクトル化してコサイン類似度の近さで結びつけたのがKIBIT Cascade Eyeです。
単に遺伝子の繋がりの情報を論文から出すだけではなく、Spreading Activationをあえて可視化することで研究者の思考をブーストすることを重要視しています。
それぞれの繋がりはどのぐらい概念で近いかをベースに作っているので、Semantic networkの応用版ということが理解いただけるかと思います。
Springer Natureとの連携で解析の精度が上がる
Springer Nature:600 journals full text
KIBITに、Springer Nature社の600ジャーナル、しかもアブストラクトだけではなくフルテキストを取り込むサービスがスタートしました。期待できる効果は3つ。
1つ目は、より大きなコーパスを獲得できること。分散表現の質が高まることに繋がります。
2つ目は、複数の領域にまたがる600ジャーナルなので、単にバイオメディカルというよりはバイオテクノロジーに関連するものと、技術と創薬に関連する部分がどんな風に繋がっているかも分析できる環境が整うと思います。
3つ目は、より多くの関連性が獲得できるので、Spreading Activationの情報がさらにリッチになってイノベーションが加速すると考えています。
続いて、実際にアブストラクトとフルテキストそれぞれで分析した場合の比較をご紹介します。
Springer Nature社から取り込む情報の中には、Natureシリーズの雑誌が数多く含まれています。
約30のNatureシリーズの雑誌、本文のフルテキストを使ってベクトル化したものと、アブストラクトだけを使ってベクトル化したものを比較した結果がこちらです。
実際に遺伝子がどのくらいの数出てくるかという情報ですが、全てを比較すると非常に膨大な数になるので『Nature immunology』に限って比較しています。
直近の15年ほどで遺伝子数を比べると、フルテキストの方が約5倍も多いという結果が出ました。
時間差は5年
また、ある遺伝子が最初に論文中に出現した年をA、その遺伝子が最初にアブストラクトに出現した年をBとして、 AからBを引くとどのぐらいの時間差があったかが観測できます。そのヒストグラムがこちらです。
0の部分が多いのは非常にいいことで、時間差がそんなにないことになりますが、平均を取るとだいたい-5になります。これは本文中に出てからアブストラクトに出るまでに約5年かかっていることを意味しています。
フルテキストが使える利点は、単に情報量が増えるだけではなく、時間も稼げるということ。5年分の新しい情報が次々と解析に組み込まれることになるのです。
単語数は14倍、文章数は50倍
さらに、アブストラクトとフルテキストで比べると単語の数は約14倍多く、センテンスの数は約50倍多いという差がありました。
それぞれベクトル化した中からクエリーを投げて、アブストラクトは約77万センテンス、フルテキストは約4000万センテンスを探索して、最も近いものを上から2万センテンス選んで、どういうものが上がってくるかをみたものがこちらです。
例えば、MEF2Cという遺伝子が含まれているものが2万中何センテンスあったかを見てみます。
そもそもMEF2Cという単語を含むセンテンスがいくつかあって、選んだ2万の中に43センテンスが入っていくというのがどのくらいの確率になるかを計算しています。
フルテキストの場合、2万報中で最初にMF2Cという遺伝子が入ってきたセンテンスが25番目にありました。
一方でアブストラクトの場合、MF2Cを含んでいるセンテンスが1番目に上がってきています。
43センテンスと12センテンスが2万の中にどのぐらい含んでいるかという数ですが、それをベースにP値を比較するとこれぐらい差があります。
これはどのぐらい2万の中に43センテンス入るのがランダムチャンスじゃないかを表していて、3倍ぐらい精度が高いので、やはりフルテキストを使った場合の方がいいというのが見えます。
2つ目の例ですが、こちらはMETTL1が過剰に発現すると予後どのぐらい長く生きられるかに関連しているかを検索した場合です。
センテンスもアブストラクトも1番最初にMETTL1を含んだものを見つけてきていますが、P値を見ると全く大きさが違います。
フルセンテンスを使った方が圧倒的な精度で正解に近いコメントをしたものを見つけてくることができます。
センテンスの数は約50倍
まとめると、遺伝子数だと約5倍、タイムラグだと5年、単語の数は14倍、センテンスの数は50倍という圧倒的な差で、検索精度も有意に差があります。
Springer Nature社の600ジャーナルを入れることで、さらに効率と精度を上げて解析できるようになると思います。
このSpringer Nature社の情報をどう使うかを説明します。いったんPubMedベースで作ったベクトル空間に、Springer Natureのフルテキストを使ってベクトル化した増加分を移動させて追加させる形で解析できるので、PubMedベースにSpringer Natureから得られる情報をアドオンして使えます。
我々のKIBITとSpringer Natureの雑誌をフルテキストで使うことにより、さらにディスカバリーとイノベーションを起こせるDrug Discovery AI Factoryが実現します。