創薬研究者による「KIBIT Amanogawaを活用した仮説生成の事例」
2023.12.19Drug Repositioningを加速するAIソリューション ~想定を超えた適応症候補の提案~
2023.12.25FRONTEOの自社開発AIエンジン「KIBIT」を搭載した論文検索AI「KIBIT Amanogawa」は、PubMedを学習させ、独自の自然言語処理 AIの技術を論文検索に活用した「発見型概念検索」システムです。類似性・関連性のある論文を高い精度で発見できる、研究者の仮説生成を加速させるシステムとして注目を集めています。そんな「KIBIT Amanogawa」の特長を、FRONTEOのライフサイエンスAI創薬チーム・白水が説明していきます。
株式会社FRONTEO
ライフサイエンスAI事業本部
AI創薬チーム
白水 愛
外資系の製薬企業にて主に眼科領域の医薬情報担当者(MR)として従事。2023年3月FRONTEO入社。現在ライフサイエンスAI事業本部にてKIBIT Amanogawaを始めとするAI創薬の事業拡大に取り組む
自然言語の大いなる可能性を信じて
FRONTEOが開発したAIエンジン「KIBIT(キビット)」は、自然言語を利用しているのが特長です。KIBIT Amanogawaの具体的な説明の前にまず、ベースとなる自然言語の可能性についてご説明します。
20代の文章からアルツハイマー発症の可能性が読み取れる!?
1986年、米国の大学で678人の修道女を対象にした脳の老化研究が始まりました。この研究における最も興味深い発見の一つは、修道女が20代で記載した自伝の中で使っている言葉の単語選択と語彙が、アルツハイマー病の発症と相関していたことです。
使用されていた言葉に、複雑さや活力、流暢さなどの「言語密度」が低いと判定された修道女の約80%はアルツハイマー病を発症し、反対に高いと判定された場合の発症率はわずか10%だったと報告されています。
ここで明らかになったことは、20代の自伝とアルツハイマー病の発症には相関関係があるということです。
この研究を通じて、同じ生活様式でもなぜ発症に差があるのか? 自伝とアルツハイマー発症の関連性とは? なぜ脳の画像診断などではなく、普段使用している言葉によってこの結果が明らかになるのか? まだまだ疑問は多く存在していて、自然言語の秘めたる可能性を感じます。
創薬研究者が仮説生成のために開発したAIシステム
KIBIT Amanogawaは、創薬研究者が開発した仮説生成を加速するAIシステムです。PubMedに掲載された膨大な論文情報から、自社開発のAIエンジン「KIBIT」の分布仮説に基づいて類似性・関連性の高い論文を抽出していきます。では、我々の考える「仮説」とは何か。AIのシステムの背景にある分布仮説について話したいと思います。
FRONTEOが考える「仮説生成」
研究者の皆さんは、Real World Dataや論文を元にして、論文を再度読み込んで、繰り返し検索を行っていると思います。類似性・関連性の高い論文でエビデンスを確認したり、新たな着想を得たりしながら、新規性の高い標的分子や疾患メカニズム、患者情報、安全性情報、フィジビリティも鑑みた仮説を立てていることでしょう。
その際研究者は、自分自身が予想もしていなかった関連論文を見つけるため、何かの基準に基づいた類似性・関連性の高い順に論文を検索するシステムがないかと悩んでいるはず。その悩みを解決するため、発見型概念検索AIシステムKIBIT Amanogawaを開発しました。「分布仮説」に基づいたアルゴリズムによって類似性・関連性の高い論文を抽出することを可能にしているのです。
分布仮説とは、単語はその周りの単語によって特徴づけられるというものです。例えばalcoholという単語は複数の意味がありますが、その前後に出てくる単語の種類と頻度によって意味付けをされます。
この表はイメージですが、非構造化情報から構造化情報へということで、ある単語と文中で前後指定範囲内に出現した単語の頻度を集計すると、単語をベクトル、すなわち数値で表現することができるようになります。
テキストをベクトル化することで「足し引き」が可能に
テキストを数値化、すなわちベクトル化すると、KIBIT Amanogawaではどのようなことができるのか。KIBIT Amanogawaで取り扱うテキスト情報は主に医学論文です。これをAIであるKIBITが学習してベクトル化(数値化)することで、足し算や引き算といった演算が可能になります。
自然言語処理による意味付けは、通常の辞書的な意味付けとは全く異なるものになります。例えばalcoholを例にすると、無色で可燃性のalcohol、飲料としてのalcohol、構造式として表現するalcoholといったものが辞書的な意味付けですが、自然言語処理においては、alcoholの意味付けというのは、 alcoholが含まれる大量の文書情報を学習して、周囲に出てくる単語の種類と頻度を見極めることで意味付けをします。
KIBIT Amanogawaだから発見できる「思いもよらない繋がり」
続いて、自然言語処理によって、どのように思いもよらない繋がりが生まれてくるのか、その仕組みについてお話しします。
大量の文書情報において、alcoholと非常によく似た使われ方をするものがあった場合、 alcohol と概念的に類似しているとAIが判断します。この関連性に人が気づくというのは非常に難しく、AIだから気づくことができる仕組みになっています。
創薬研究者は、First in classの薬剤を目指して仮説生成を進めますが、それを加速させるために、類似性・関連性の高い論文を簡単に抽出できて、さらにそこから新たなアイデアを得るために概念の足し引きをすることができるのがKIBIT Amanogawaです。
仮説生成を加速させる“発見型”の概念検索
発見型概念検索AIシステムKIBIT Amanogawaは、PubMedの中で使用される単語の概念に対して、あらゆる角度から類似性・関連性の高い論文を抽出します。
検索ワードとの一致性が高いものをKeyword、その検索の内容との一致性が高いものをVector、それらが重なる部分をHybridハイブリッド、そしてKeywordの要素を除いた部分に隠れた情報が含まれるということでDiscovery。この4つの分類で検索結果を表示します。
隠れた情報であるDiscoveryの事例を紹介します。例えばALSというQueryを設定した際に、PubMedのBest Matchだとmajor genesを多く拾うのに対して、KIBIT AmanogawaのDiscoveryではminor genesも含めて多く拾います。
予想もしていなかった遺伝子に出会える
もう少し詳細に見ていくと、KIBIT AmanogawaのDiscoveryは、PubMedのBest Matchと比較して拾う遺伝子の数も多く、minor genesも多く拾うことが分かります。
このように、KIBIT Amanogawaを使うことで、クエリーの類似性・関連性が高いにもかかわらず、予想してもいなかった遺伝子に出会う機会が増えると考えています。
繰り返しになりますが、KIBIT Amanogawaは大量の医学論文を学習して、テキスト情報を数値化、すなわちベクトル化します。これにより、位置情報として可視化することも可能となり、新たなクラスターとして分析できます。概念の足し算や引き算といった演算も可能です。新たな発見をする、その後押しをするシステムになっています。