FRONTEO | ライフサイエンスAI

概念検索がもたらす新しい情報探索のかたち

東京大学大学院 新領域創成科学研究科 メディカル情報生命専攻 イノベーション政策研究分野 教授 加納信吾 氏インタビュー

東京大学大学院
新領域創成科学研究科 メディカル情報生命専攻
イノベーション政策研究分野
教授 加納信吾 氏

東京大学大学院 新領域創成科学研究科 メディカル情報生命専攻 イノベーション政策研究分野は、2020年度の講義「医療イノベーション俯瞰演習:研究分野を俯瞰し、自らの関心事項の世界における位置づけを明らかにする」において、論文探索AI「Amanogawa」導入しました。教授の加納信吾氏に、Amanogawaに興味を持った背景と、概念検索によって何が可能になるのかについてお話をうかがいました。



■ キーワード検索の限界

━━━ Amanogawaを導入された経緯をお聞かせください。

当研究室の名前は「バイオイノベーション政策分野」です。以前は「バイオ知財コース」という名前で、特許データベースをデータソースとし、特許登録情報に基づいて研究開発や企業活動の動向など様々なものを計測するアプローチを用いた研究に取り組んできました。

当研究室に入る学生の標準的な人物像は、理系専攻で修士課程を修了して就職し、社会人経験を10年ほど積んでから入学したという方です。5、6人の部下を持ち、一通り仕事ができるようになった段階で、勤務先から新たなことにチャレンジするよう指示され、取り組みたいと考える領域の情報や自分の思考を整理し再検討する必要が生じて博士課程に入学してきます。



入学後、学生はそれぞれのテーマについて膨大な量の学術論文検索に着手しますが、そこで「思い描いた内容の論文がヒットしない」という問題に直面します。こういう先行研究があるはずだ、という予測は立てられるが、求める情報がヒットしない。教員と学生の間で最も多くやりとりされる会話は「この内容について書かれた論文を参照する必要がある」「一生懸命探しましたが、ありませんでした」「そんなはずはない、調べ方が悪いのだろう」です。学生が必要な論文を探し出せるようになるまで、入学後半年から1年、ずっとこのやりとりが続き、学生はものすごく苦労しています。

なぜヒットする論文を見つけ出すのがこれほど難しいのか。それはキーワード選定と、同じ意味のことを記述する際の類義語・表記揺れの問題が原因です。例えば、「共同研究」と「オープン・イノベーション」はほぼ類似の内容を示す同義語ですが、キーワード検索では、入力語と論文中で使用される単語が一致していなければ検出されません。さらに、派生語・省略形などの存在も検索を困難にします。そのため、必要な論文等を網羅的に手に入れるには、適切なキーワードを見出すことに加え、複数のキーワードの包含関係なども徹底的に調べ、試行錯誤しながら最適な検索式を特定する必要があるのです。



■ AIを活用した概念検索という手法

Amanogawaで行える概念検索*は、この試行錯誤の挑戦において、非常に有効な解決手段となります。私は以前、「NRIサイバーパテント」という特許データベースで概念検索を利用したことがありました。このシステムは、200字程度の文章を入力すると、その内容に関する特許を類似度ランキングで表示するものです。目指す研究の概要を入力すると競合相手の特許が見事に上位に表示されていました。この経験から、特許検索における概念検索の有効性、また概念検索でアプローチしなければならない領域があることを実感していたのです。そこで、論文についても同様のシステムが必要だとよく理解していましたが、これまではそれを行える検索ツールはありませんでした。

そうした中、2020年10月に本学で行った集中セミナー「研究開発の現場を知る―キャリアデザインの前に知っておくべきこと」にFRONTEOライフサイエンスAI CTOの豊柴 博義氏に講師として参加いただいた際にAmanogawaを知り、「これだ」と思って利用を決めました。



■ Amanogawaの魅力と今後の可能性

━━━ 実際に使ってみて、特に良いと感じた点は何ですか?

文章で検索できること。これに尽きます。検索ボックスに、論文のアブストラクト(要旨)でも何でも入れられて、表記ゆれを気にせずに探したいテーマや概念についてどんな論文がヒットするかをスクリーニングできます。論文は本来、知らないことを知るために読むものですが、検索ボックスには自分がすでに知っている言葉しか入れられないというジレンマがあります。

概念検索は、この制約を受けず、自分の知っている情報を端緒として知らない情報にアクセスすることが可能となります。

━━━ 逆に、この部分が改善されるとより良いと思う点は何ですか?

現在、検索された論文はカード形式でアブストラクトとともに表示されますが、タイトルだけのリストモードでの一覧もできると嬉しいです。概念検索を行った結果が、例えば検索した論文のアブストラクトに対する類似度などの評価順にランキング表示されると、そこから順に読んでいくことができます。

特許庁で働く審査官は特許審査において、申請内容の新規性を否定する関連特許・論文の有無を確認するために文献検索を行いますが、この際、まず関連特許・論文を100まで絞り込みます。その絞り込んだ100件を精読します。つまり、効率的な文献検索と調査とは精読対象を100件に絞ること、という経験則をもっているわけです。

Amanogawaは現在、膨大な論文を解析・提示し可視化します。これをさらに進め、「まず読むべき論文100本」を絞り込んで提示する機能が付加されると、大変役立ちます。

━━━ 最後に、Amanogawaの活用を特にお勧めするとしたら、どのような方でしょうか?

Amanogawaで行える概念検索は、その領域の専門家よりも、むしろ、新しいテーマを考える必要が生じる人に有効です。ニューエントリーで新たなフィールドを探しに来る人々です。それが概念検索のユーザーになると思います。研究者は、自分の専門領域については、世界の研究者グループ、テーマごとの専門家、キーワードなどを含めて熟知しています。そのため、専門領域の情報が必要な際は、最初から適切なキーワード検索を行えるので、概念検索は不要なのです。

具体的には、研究費配分機関や企業の研究開発企画スタッフなどに需要があると思います。彼らは、次に実施するグラントや新しい研究開発のテーマを企画しなければなりません。研究を誘導する機能を持っているといえます。例えば国立研究開発法人日本医療研究開発機構(AMED)の場合、経済産業省・厚生労働省・文部科学省が研究テーマを決め、それを受けてAMEDが具体的な公募案件などにブレイクダウンします。この際に、そのテーマについてどのような研究によるアプローチが有効かを検討するのに有用でしょう。企業で新しい研究開発テーマを構想する場合にも、概念検索から該当する具体的な研究テーマや適切な研究者を特定する作業に役立つと思います。



 
  • * 概念検索:検索条件の単語・文章について、文字列としての一致ではなく、その意味や概念の類似度に基づいて検索する手法。

ライフサイエンスAI事業本部へのお問い合わせ