疾患ゲノム解析と自然言語処理AI「KIBIT」の融合による新規創薬標的探索の実現
2024.02.07二次元マッピングに秘められた可能性を紐解く~可視化された注目遺伝子と疾患・症状の類似性~
2024.03.25論文探索AI「KIBIT Amanogawa」は、PubMedに掲載された3000万報以上の膨大な論文情報の中から類似性・関連性の高いデータを即時検出・解析します。従来のキーワード検索では発見できなかった情報や検索者によるバイアスの掛からない情報を見つけることが可能となり、医学・創薬研究における客観的・網羅的な分析を実現します。実際に創薬研究者がどのようなシーンでKIBIT Amanogawaを活用しているのか、目的別に事例を交えてご紹介いたします。
株式会社FRONTEO
ライフサイエンスAI事業本部
ライフサイエンスAI研究チーム 担当課長
博士(薬学)
野村 城司
熊本大学大学院にて博士号を取得後、帝人ファーマ株式会社に入社。創薬の探索研究から前臨床研究まで従事しプロジェクトリーダー、薬理グループリーダーを歴任。帝人株式会社の経営企画、事業戦略・機能戦略立案に従事。2023年10月FRONTEOに入社し、KIBITを用いた解析方針立案、解析、仮説生成を担当
単語や文章を数値化することで未知の関係性を予測
なぜKIBIT Amanogawaで新しい繋がりをとらえられるのか?
はじめに、なぜKIBIT Amanogawaで新しい繋がりを捉えられるのかを簡単にご説明します。
例えばAlcoholという言葉が含まれる大量の文書情報を「分布仮説」に基づいてベクトル化して、それと類似性の高い文章を抽出します。キーワードに依らない概念的に類似性の高いものを引っ張ってきますので、人が想像できないような繋がりが得られます。
このような思考の意図的な飛躍を可能にする仕組みをシステムで提供できることがKIBIT Amanogawaの特長です。
テキストマイニングとベクトル概念検索の違い
テキストマイニングは、テキストのデータから必要な情報を抽出したり、自然言語を用いた関係性を加味した情報を検索したり、既存情報によって直接的に裏付けられた関係性を提示したりするのが特長です。
対してベクトル概念検索は、単語や文章などのテキストデータを自社開発の自然言語AIでベクトル化、すなわち数値化して、概念的な類似性に基づいて情報を抽出することで、既存の情報から未知の関係性を発見するシステムです。
ケースによって得手不得手があり、例えば得たい情報が明確な場合はテキストマイニングが適していて、キーワードに依らない情報や新規のアイデアが欲しい場合は、ベクトル概念検索が非常に効力を発揮します。
決定的な違いとして、テキストマイニングは直接的な情報があるとAとBを繋げられますが、直接的に関連する情報がないとBとCは繋げられません。ベクトル概念検索は、AとBに直接的な情報がある一方でBとCには関連する情報がない場合においても、概念的に類似性が高いとBとCには関連性があるものと予測します。
テキストマイニングではAとCに関連性があるという発想は生まれづらいですが、ベクトル概念検索ならAとCに何らかの関係性があるのではないかという発想が生まれ、新しい発見に繋がります。
飛躍度の高い検索で「セレンディピティを後押し」
インターフェース
KIBIT Amanogawaのインターフェースは、ワードや文章そのものを検索として入れることができて、さらに概念を足す、引くことも可能です。ワードでフィルターをかけたり、年代をフォーカスして抽出したりすることもできます。
これらの条件を入力した後、結果はKIBIT AmanogawaのSpace Mapと呼ばれるもの、あるいはその他の4つの表示機能でアウトプットが出てきます。
Space Mapは、ベクトル化した検索ワードとその周辺の論文を平面に転写したものです。この1個1個が論文そのものを示していますが、このようにグルーピングされて色分けされています。Discoveryや検索のモードで分類されて、類似性の高いものでグループ、クラスター分けされます。Space Map上でカーソルで囲ったグループに含まれる論文がどういったものなのかを見ることもできます。
Terms Frequencyは、ある一定のグループに含まれる論文の中に MeSH termがどういう頻度で出てくるかを一覧にする機能です。Chronological Chartは、年代別にどのようなグループがどのように変遷しているかを示すものです。Card Boxは、どのような論文を抽出したのかを類似性・関連性の高い論文から並べます。こういった機能を駆使しながら検索をしていきます。
「飛躍の度合い」を選択できる仕組み
検索モードで、検索ワードとの一致性が非常に高いものをKeyword、概念的に一致性の高いものをVector、その重複部分をHybridと定義しています。
さらにVectorからHybridを差し引いたものをDiscoveryとして、Keywordでも出てこないVector、すなわち概念的に類似性の高いものだけが出てきます。
ここに何らかの隠れた情報、調べたいものから概念的に飛躍したものが濃縮されているのではないかと考えられます。このように検索モードを使い分けられます。
KIBIT Amanogawaの場面による使い分け
新規性の高いアイデアを得たい時、PubMedで調べてもはっと気付くような場面は、なかなかありません。飛躍度を高める検索モードであるDiscoveryやVectorを検索することで、研究者に気づきを与える「セレンディピティの後押し」になると思います。
一方で、検索ワードに関連する情報を広く収集したい時には、飛躍はあまり必要ないので、HybridやKeywordが有用です。PubMedのようなキーワード検索の短所をカバーする概念検索で漏れを減らす、漠然と頭の中でイメージした内容に近い論文を見つけやすいのが利点です。
続いて、新規性の高いアイデアを得たい場合の事例を2つ、検索ワードに関連する情報を広く収集したい時を想定して曖昧な情報で目的の文献を検索する場合の事例を1つご紹介します。
新規のアイデアを得るため、アナロジーを用いて検索する
アナロジーを駆使して新しいアイデアに辿り着く
まず1つ目は、新規のアイデアを得るケース。ADHDという疾病の新規標的を探索する際に新しいアイデアを得たいケースを想定した事例です。
ベクトル化・数値化することで概念の足し引きが可能になるKIBIT Amanogawaの特長を活かして、ADHDの標的を見つけます。
事例1:新規なアイデアを得る(ADHDの標的)
Schizophreniaの標的分子であるDRD2から適応症を差し引いて残ったものは標的という概念になります。これにADHDという疾病のベクトル概念を加えていくと、おそらくADHDの標的がアウトプットとして出てくるだろうというアナロジーを利用します。
検索ワードとしてDRD2を入力し、ADHDをプラスして、schizophreniaをマイナスすると、Space Mapに結果が表示されます。
Terms Frequencyで「気づき」のヒントを得る
今回はTerms Frequencyを見ていきますが、ADHDの新規性の高い標的を見つけたいので、少し飛躍度を高めたところで探索するために、Discoveryに注目します。
DiscoveryのTerms Frequencyに注目
今回のDiscoveryでは4つのクラスターが表示されていますが、各クラスターに出てくるMeSH termの頻度が羅列されます。
MeSH termを見ていきますと、なかなかADHDとの関連性が思い浮かばない、IL-10を発見したので注目してみます。IL-10は、抗炎症作用を持ったサイトカインの一つです。ADHDと炎症は、なかなか繋がりにくく、飛躍度の高い気づきであると考えます。
PubMedではADHDとIL-10を結びつけられるか?
PubMedでADHDとIL-10を結びつけられるか検索すると、2000報以上の後に示唆する論文が出てきます。例えば、題名だけを確認していってもたどり着くには労力がかかります。
PubMed検索だけではなかなかたどり着けないところに、KIBIT Amanogawaを使うことで一足飛びに気づきを得た事例です。
事例1:まとめ
KIBIT Amanogawaを用いてADHDの新規標的を探索し、IL-10という新しい気づきを得ました。
二次的なアイデアの広がりとして、例えばIL-10ファミリーの可能性はないのか、そもそもIL-10は創薬標的になるのか、既存薬はあるのか、どういった細胞が分泌するのかなど、様々な疑問が生じてきますので、それに対してさらに検索をかけていくというループを回しながら仮説の精度を上げていく作業になります。
DHDの新規標的を探索し、結果的にIL-10という気づきを得たわけですが、ここで重要なのは研究者の頭の中で新たな結びつき、発想が生まれることです。そこをうまく仕組み化したのがKIBIT Amanogawaです。
注目の疾患から、新しい気づきを得る方法
事例2:気になる疾患からスタート
次の事例は、新しい気づきを得るということで、気になる疾患からスタートするパターンを考えてみます。
糖尿病で検索を開始して、このようなSpace Mapが出てきました。何か発想を飛躍したいということで、先ほどの事例と同様にDiscoveryだけ残します。
事例2:Terms Frequencyで「気づき」のヒントを得る
Terms Frequencyで見てみると、糖尿病と馴染みがないneoplasmsというものが出てきたので注目してみます。
事例2:新しい気づきの発見
Card Boxで見ると、HbA1cと癌の発症リスクが関係性を示す論文が出てくるのでこちらを見ていきます。
HbA1cと各種の発がんリスクは軒並み正の相関を示しますが、前立腺がんだけ、なぜか逆相関するという気づきを得ました。
事例2:KIBIT Amanogawaで気づきをさらに高める
なぜこうなるのかを深掘りしていくために、糖尿病に対して前立腺がんをウェイト1で加えてみました。両者の関係性を担保する論文を見つけるために、ピンポイントに狙っていきたいという意図で検索モードはHybridを選択します。
基本的には糖尿病と前立腺がんの発症リスクは逆相関という論文が複数出てきましたが、一方でその逆の報告もあるので、機序は不明ですが何かしらの関係性はあるという気づきを得たことになります。
事例2:PubMedで糖尿病と前立腺がんの関係性に気づけるか?
糖尿病をPubMedで検索すると、prostate cancerがabstractに含まれる論文が2000報くらいで、初期の段階でこういった膨大な数に目を通すのはなかなか時間がかかります。KIBIT Amanogawaを活用することで、短時間で気づきを得たことになります。
事例2:まとめ
ここから創薬に結びつける、あるいは何らかの情報を得たい場合には、さらに質問や疑問点、仮説を設定しながら深掘りしていくことになりますが、初期段階に気づきを得ることが重要です。
断片的な記憶から目当ての文献を探す
事例3:曖昧な情報で目的の文献を探索
最後の事例は、曖昧な情報で目的の文献を探索するというケースです。
以前、論文で見かけたことは覚えているが、具体的な情報を思い出せない…そんなケースは多々あると思います。なんとなくイメージで英単語を変換してPubMedに入力しても、なかなか正解の論文にうまくたどり着けません。
KIBIT Amanogawaに、同じような単語を羅列で入れます。概念的に近いものを得るためにHybridだけ残してみると、うろ覚えの論文を早期に見つけることができました。
Take Home Message
まとめです。KIBIT Amanogawaはベクトルの概念検索をベースにしていて、キーワード検索やテキストマイニングとは一線を画すシステムです。
ユニークな情報の結びつけ方で、通常ではたどり着かないような論文を提示します。思考の意図的な飛躍を可能にする仕組みなので、研究者にとって非常に有用なツールになっています。
今回示した事例は、研究者の方々が日々様々なことを疑問に思って調べていく中のほんの一部です。どういったことをやりたいかに応じて概念的な足し引きができる、検索のやり方が広がる拡張性のあるシステムなので、ぜひ活用してください。