概念検索がもたらす新しい情報探索のかたち
東京大学大学院 新領域創成科学研究科 メディカル情報生命専攻 イノベーション政策研究分野 教授 加納信吾 氏インタビュー

東京大学大学院
新領域創成科学研究科 メディカル情報生命専攻
イノベーション政策研究分野
教授 加納信吾 氏
東京大学大学院 新領域創成科学研究科 メディカル情報生命専攻 イノベーション政策研究分野は、2020年度の講義「医療イノベーション俯瞰演習:研究分野を俯瞰し、自らの関心事項の世界における位置づけを明らかにする」において、論文探索AI「Amanogawa」を導入しました。教授の加納信吾氏に、Amanogawaに興味を持った背景と、概念検索によって何が可能になるのかについてお話をうかがいました。
■ キーワード検索の限界
━━━ Amanogawaを導入された経緯をお聞かせください。
当研究室の名前は「バイオイノベーション政策分野」です。以前は「バイオ知財コース」という名前で、特許データベースをデータソースとし、特許登録情報に基づいて研究開発や企業活動の動向など様々なものを計測するアプローチを用いた研究に取り組んできました。
当研究室に入る学生の標準的な人物像は、理系専攻で修士課程を修了して就職し、社会人経験を10年ほど積んでから入学したという方です。5、6人の部下を持ち、一通り仕事ができるようになった段階で、勤務先から新たなことにチャレンジするよう指示され、取り組みたいと考える領域の情報や自分の思考を整理し再検討する必要が生じて博士課程に入学してきます。
入学後、学生はそれぞれのテーマについて膨大な量の学術論文検索に着手しますが、そこで「思い描いた内容の論文がヒットしない」という問題に直面します。こういう先行研究があるはずだ、という予測は立てられるが、求める情報がヒットしない。教員と学生の間で最も多くやりとりされる会話は「この内容について書かれた論文を参照する必要がある」「一生懸命探しましたが、ありませんでした」「そんなはずはない、調べ方が悪いのだろう」です。学生が必要な論文を探し出せるようになるまで、入学後半年から1年、ずっとこのやりとりが続き、学生はものすごく苦労しています。
なぜヒットする論文を見つけ出すのがこれほど難しいのか。それはキーワード選定と、同じ意味のことを記述する際の類義語・表記揺れの問題が原因です。例えば、「共同研究」と「オープン・イノベーション」はほぼ類似の内容を示す同義語ですが、キーワード検索では、入力語と論文中で使用される単語が一致していなければ検出されません。さらに、派生語・省略形などの存在も検索を困難にします。そのため、必要な論文等を網羅的に手に入れるには、適切なキーワードを見出すことに加え、複数のキーワードの包含関係なども徹底的に調べ、試行錯誤しながら最適な検索式を特定する必要があるのです。
■ AIを活用した概念検索という手法
Amanogawaで行える概念検索