Drug Repositioningを加速するAIソリューション ~想定を超えた適応症候補の提案~
2023.12.25創薬研究者が解説。論文探索AI「KIBIT Amanogawa」による目的に応じた検索事例
2024.03.25疾患ゲノム解析は、疾患の原因から創薬標的を見出すことが期待され、これまで世界中で多くの研究が実施されてきました。一方で、膨大な疾患ゲノム情報が得られているにも関わらず、治療法の開発に至っていない疾患も多く存在します。遺伝子座と遺伝子発現の関連性を特定する手法であるeQTL解析と、膨大な医学・薬学情報を学習した自然言語処理AIエンジン「KIBIT」の機能を融合することで、従来のゲノム解析の課題を解決し、創薬標的探索を実現する手法について紹介します。
株式会社FRONTEO
ライフサイエンスAI事業本部 ライフサイエンスAI研究チーム 担当部長
博士(理学), MBA
里見 佳典
大阪大学大学院修了後、武田薬品工業株式会社に入社。メタボロミクス、プロテオミクス等のオミクス解析とバイオインフォマティクスを活用し、ゲノム創薬やトランスレーショナルリサーチ等を担当。その後、塩野義製薬においてデジタルヘルス事業企画に従事。KIBITとバイオインフォマティクスを駆使して、新たな解析手法の開発を担当
遺伝子座と遺伝子発現の関連性を特定するeQTL解析
eQTL(発現量的形質遺伝子座) とは
「疾患ゲノム解析の課題を自然言語AIによって解決する」という本題の前に、まずは「eQTL解析」について解説します。
eQTLとは、遺伝子変異が遺伝子の発現量と関連があるゲノム領域のことです。この図では発現量に影響する遺伝子をeGeneと示しています。疾患によって発現変動があるeGeneを解析することで創薬標的探索につながる可能性があります。
影響範囲の広いeQTLの特徴
eQTLの特徴の一つは影響範囲の広さです。eQTL近傍の遺伝子以外の遺伝子発現にも影響することが知られています。また、エキソン以外のイントロンやエンハンサー領域などの非翻訳領域上の変異もeQTLとして報告されています。
興味深い特徴の1つに、組織特異的変動があります。同一のeQTLであっても、臓器によってeGeneや発現への影響度が異なることも知られています。
臓器特異的に遺伝子発現量の影響を予測できることは、創薬標的探索を行う上で大きなメリットがあります。
疾患ゲノムデータとeQTL解析による疾患特異的遺伝子変動予測
疾患ゲノムデータ(例えばGWAS)とeQTLを組み合わせることで、疾患メカニズムの予測を行うことが可能です。疾患特異的なゲノム変異から、疾患特異的かつ臓器特異的に変動する遺伝子とその変動量を予測することによって、疾患メカニズム解析を行います。
疾患eQTL解析の課題
一方で、疾患特異的なeQTL解析により創薬標的候補を探索する上で課題があります。
1つは、複数予測されるeGeneの中で、どの遺伝子が疾患メカニズムに関連する遺伝子かわからないこと。もう1つは、eGeneがどのように疾患の発症につながるのか、eGeneの変動予測だけでは実際のメカニズムがわからないことです。
一般的には統計的な解析によって変動確率の高い遺伝子を予測する手法もありますが、我々は今回、自然言語処理AIを活用して解決する方法を検討しました。
eQTL解析とKIBITの融合による創薬標的探索
eGeneが疾患の原因である可能性を予測
まず、1つ目の「どの遺伝子が疾患メカニズムに関連する遺伝子かわからない」という課題に対しては、疾患の原因の特徴を有する遺伝子を予測するAIを活用します。
弊社では、疾患の原因遺伝子の特徴を学習したAI(原因性予測モデル)を開発しています。この原因性予測モデルを活用することで、eGeneの中から疾患の原因の特徴を有する遺伝子を探索します。
ここでは膀胱がんの事例を紹介します。
横軸は膀胱がんのGWASデータから予測されるeGeneの変動量です。また、縦軸は膀胱がんの原因性予測モデルから予測される原因性スコアです。
遺伝子の予測変動量及び原因性スコアの両者の値が高い領域に、FGFR3があることが分かります。FGFR3は膀胱がん治療薬として米国で承認されている医薬品の標的遺伝子であり、膀胱がんの治療薬標的が予測できていることが分かります。このことからも、同じ領域にある他の3つの遺伝子に関しても、膀胱がんの治療薬標的候補であることが想定されます。
文献を学習したAIによる予測であるため、FGFR3を見つけることは当然だと思われるかもしれませんが、弊社のAIは遺伝子名を単語として学習しているのではなく、疾患の原因となる遺伝子の特徴を学習していることから、FGFR3及びそれ以外の遺伝子に関しても、疾患の原因の特徴を有していることが想定されます。
疾患eQTL解析とKIBITを組み合わせた疾患メカニズム解析
続いて2つ目の課題である「eGeneの変動予測だけでは実際のメカニズムがわからない」点について検討を行いました。
弊社では、自然言語AIの機能を活用することで、疾患に関する遺伝子ネットワークを描くことができます。通常は、遺伝子ネットワークの上流遺伝子も自然言語AIによって予測を行いますが、本手法ではeGeneを上流遺伝子とした遺伝子ネットワークを描くことで、疾患メカニズムを解明できる可能性があると考えました。
多発性硬化症の事例
この解析では、多発性硬化症の事例を紹介します。多発性硬化症のGWASデータとして、700か所以上の遺伝子変異をもとにeGeneを予測します。
多発性硬化症のGWASから予測される遺伝子発現
ここでは、臓器ごとのeGeneの変動予測データを示します。縦軸に臓器、横軸にeGeneをプロットしていますが、臓器毎にeGeneの変動予測が異なることが分かります。
クラスター解析のデータからも、脳の各部位の領域において特徴的な発現パターンがあることが分かります。今回は、Brain cortexのeGene情報を用いて遺伝子ネットワークを作成しました。
多発性硬化症のeQTL疾患ネットワークから想定される疾患メカニズム仮説
Brain cortexのeGeneを起点とした疾患の遺伝子ネットワークから、免疫細胞の制御に関わる遺伝子、インターフェロン関連の遺伝子、細胞増殖関連に関わる遺伝子など、免疫機能やミエリンの再構成に関わることが予測される遺伝子を発見することができました。
多発性硬化症eGene(脳)由来の遺伝子ネットワーク
多発性硬化症の遺伝子ネットワークの中に、ITGA4という遺伝子が含まれていることが分かります。ITGA4はeGeneの直下に見られますが、この遺伝子は多発性硬化症治療のターゲットとして知られている遺伝子です。
また、ITGA4周辺に複数の細胞外マトリックスの遺伝子が含まれることが分かりました。細胞外マトリックスを媒介することによる細胞の保護や免疫機能の亢進などが予測されます。
KIBITにより予測される遺伝子ネットワークは、文献上に登場する既存の遺伝子だけでなく、これまで知られていない隠れたネットワークの予測も含めた関係性を描くことができます。本手法では、ゲノムデータから予測される疾患変動遺伝子情報(eGene)が、どのように疾患につながるのか、新規のメカニズムの可能性も含めて予測することが可能になります。
今回、疾患ゲノム解析と自然言語AI「KIBIT」の融合による創薬標的探索の事例について紹介しました。今回紹介した手法だけでなく、遺伝子を仮想的にKOすることで遺伝子の機能を予測するVirtual Experimentsや、2つの疾患の共通の遺伝子や特異的な遺伝子を予測する重複差分解析などの多くの解析手法を活用することで、創薬標的探索の確度をさらに向上させることができると考えています。