NVIDIAとアストラゼネカが協業 創薬におけるAIの活用を支援 有望な新薬のいち早い発見のため必要なツールを研究者に提供

NVIDIAは画期的なTransformerニューラルネットワークを用いた新しいAI研究プロジェクトにおいて、バイオ製薬会社のAstraZenecaおよびフロリダ大学の学術医療センターであるUF Healthと協業している。

ここ数年でようやく利用可能になったTransformerベースのニューラルネットワークのアーキテクチャは、研究者が自己教師あり学習を用いて膨大なデータセットを利用することを可能にし、事前トレーニング時に手作業でラベル付けされたデータを必要としない。これらのモデルは言語の文法の学習と同様に化学構造を記述するための構文規則の学習にも適しており、研究分野やモダリティを超えて応用が進んでいる。


クララプラットフォームでAstraZenecaと共同研究

NVIDIAは英国最大のスーパーコンピューターとしてまもなく運用が開始されるCambridge-1で実行される最初のプロジェクトとして、創薬に使われる化学構造のTransformer ベースの生成AIモデルについて、AstraZenecaと共同研究を行っている。このモデルはオープンソース化され、NVIDIA NGC ソフトウェア カタログで研究者や開発者に提供され、計算創薬のためのNVIDIA Clara Discoveryプラットフォームで展開可能になる予定。

また、別のプロジェクトとして、UF HealthはNVIDIAの最先端のMegatronフレームワークと、NGC上で利用可能なBioMegatron事前トレーニング済みモデルを利用して、過去最大の臨床言語モデルであるGatortonの開発を行っている。新しいNGCのアプリケーションとしてはDNAのアクセス可能な領域を特定するディープラーニングモデルであるAtacWorksや、疎なデータ、曖昧なデータ、またはノイズの多いデータから生体分子の構造を推論するツールMELDなどがある。


NVIDIAとAstraZenecaが開発を進めるMegaMolBART

NVIDIAとAstraZenecaが開発を進めているMegaMolBARTと呼ばれる創薬モデルは、反応予測、分子最適化、およびde novo分子生成に使用される予定。MegaMolBARTはAstraZenecaのMolBART Transformerモデルをベースにしており、スーパーコンピューティング インフラストラクチャ上での大規模なトレーニングを可能にするNVIDIAの Megatronフレームワークを使用して、ZINC化合物データベースでトレーニングされている。

大規模なZINCデータベースにより、研究者は化学構造を理解するモデルを事前トレーニングすることができ、手作業でのデータラベル付けの必要がなくなる。化学の統計的理解を備えたこのモデルは、化学物質が互いにどのように反応するか予測したり、新しい分子構造を生成したりするなどのさまざまなダウンストリームのタスクに特化される予定。

AstraZeneca の分子 AI、ディスカバリー サイエンス、および研究開発の責任者であるオラ エンキビスト(Ola Engkvist)氏は、次のように述べている。

「AI 言語モデルが文中の単語間の関係を学習できるのと同様に、分子構造データでトレーニングされたニューラルネットワークが、実在の分子内の原子間の関係を学習できるようにすることが我々の狙いです。この NLP モデルは、開発が完了した時点でオープンソース化される予定で、より迅速な創薬のための強力なツールを科学コミュニティにもたらします」

NVIDIA DGX SuperPODでトレーニングされたモデルは、データベース内に存在しないが有望な新薬候補になり得る分子のアイデアを研究者に提供する。インシリコ手法と呼ばれる計算方法により、薬剤開発者は広大な化学空間をさらに探索し、膨大な費用と時間を要する実験室試験に移行する前に薬理学的特性を最適化することができる。

今回の共同研究ではNVIDIA DGX A100をベースとするCambridge-1およびSeleneスーパーコンピューターを使用して、大規模ワークロードを実行する。Cambridge-1は英国最大のスーパーコンピューターで、Green500で第3位、TOP500で第29位に相当する。NVIDIAのSeleneスーパーコンピューターは最新のGreen500で第1位、TOP500で第5位にランクされている。


UF Healthの「GatorTronモデル」

UF HealthのGatorTronモデルは200万人の患者との5,000万件を超えるやり取りからの記録でトレーニングされており、命を救う臨床試験の候補患者の特定、命に関わる状態の予測および医療チームへの警告、医師への臨床判断支援を提供する。

GatorTronモデルは臨床医学だけでなく、臨床試験や、特定の薬剤、治療、またはワクチンの効果の研究に向けた患者コホートの迅速な作成を容易にすることで、創薬も加速させる。このモデルはNVIDIAのディープラーニング応用研究チームがPubMedコーパスからのデータを用いて開発した、これまでに学習された中で最大の生物医学Transformerモデル「BioMegatron」を用いて作成された。BioMegatronは生物医学および臨床テキストで事前トレーニングされたNVIDIA ClaraDiscoveryモデルのコレクションである Clara NLPを通じて、NGC上で利用できる。


創薬プラットフォームを強化

NVIDIA Clara DiscoveryライブラリおよびNVIDIA DGXシステムは、計算創薬プラットフォームにも採用され、医薬研究の促進を公表している。

■化学シミュレーションソフトウェア開発におけるリーダーであるSchrödingerは、科学計算と機械学習の研究、NVIDIAプラットフォーム上でのSchrödingerのアプリケーションの最適化、および数十億種類の新薬候補化合物を数分で評価するためのNVIDIA DGX SuperPODを中心とする共同ソリューションを含むNVIDIAとの戦略的提携を発表した。

■バイオテクノロジ企業のRecursionはNVIDIA DGX SuperPODリファレンスアーキテクチャをベースとした、2021年1月の時点でTOP500で第58位にランクされるものと推定されるスーパーコンピューター「BioHive-1」を導入。BioHive-1によりRecursionは、従来既存のクラスターを使用して完了までに1週間を要していたディープラーニングプロジェクトを 1日で実行できるようになる。

■NVIDIA Inception ProgramのパートナーであるInsilico Medicineは、特発性肺線維症の治療のための前臨床新薬候補を特定したことを発表した。これは、臨床試験候補の新規疾患ターゲットに対するAI設計分子の初めての例。化合物はNVIDIA Tensor コア GPUを搭載したシステムで生成された。ターゲット仮説から前臨床候補の特定までに要した期間は18か月足らずで、コストも200万ドル以内に収まった。

■NVIDIA Inception ProgramのメンバーであるVyasa Analyticsは、Clara NLPおよびNVIDIA DGXシステムを使用して、ユーザーが事前トレーニング済み生物医学研究モデルを利用できるようにしている。同社のGPUアクセラレーション対応Vyasa Layar Data Fabricは、複数機関によるがん研究、臨床試験分析、および生物医学データの融合などのためのソリューションを開発する原動力となっている。

なお、ヘルスケア分野におけるNVIDIAの取り組みについては、GPU Technology Conferenceにおける、ヘルスケアトラックから確認できる。16のライブウェビナー、18の特別イベント、100以上の録画セッションが予定されている。

ABOUT THE AUTHOR / 

山田 航也
山田 航也

横浜出身の1998年生まれ。現在はロボットスタートでアルバイトをしながらプログラムを学んでいる。好きなロボットは、AnkiやCOZMO、Sotaなどのコミュニケーションロボット。

PR

連載・コラム