Google DeepMindとNVIDIAが「DiffusionGemma」を公開自己回帰型LLMの4倍高速化を実現

Google DeepMindは、極めて高速なテキスト生成を目的に構築された実験的なオープンモデル「DiffusionGemma」を公開した。NVIDIAはこれを最適化し、GeForce RTX GPU、NVIDIA RTX PROプラットフォーム、DGX Sparkシステムでさらに高速に動作するよう対応した。

従来の自己回帰型LLMとは異なるアーキテクチャ

現在主流の大規模言語モデル（LLM）は自己回帰型であり、テキストを1トークンずつ逐次生成する。これはメモリ律速の問題を抱えており、バッチサイズが1の場合、計算能力の多くが無駄になる。

DiffusionGemmaはこの課題を根本から覆す。Gemma 4 26Bのエキスパート混合アーキテクチャをベースに、拡散ヘッドを組み合わせて構築されており、1ステップあたり最大256トークンを並列にノイズ除去する。260億パラメータのうち、1ステップあたりアクティブ化されるのは38億パラメータのみだ。この並列処理はNVIDIA Tensorコアの演算律速ワークロードと完全に合致しており、CUDAソフトウェアスタックが初日から効率的な実行を可能にする。

各プラットフォームでの推論性能

性能面では、1基のNVIDIA H100 TensorコアGPUで毎秒1,000トークン、DGX Sparkで毎秒150トークン、DGX Stationでは最大800トークン/秒を達成。同一シングルユーザー環境の自己回帰モデルと比較して最大4倍近く高速だ。

対応プラットフォームは以下の通通り。

DGX Spark：NVIDIA GB10 Grace Blackwell Superchipと128GBの統合メモリを搭載し、プロトタイピングやファインチューニング、完全ローカルのエージェントワークフローに対応
NVIDIA RTX PRO 6000ワークステーション：低遅延生成やエージェント型ループのローカル実行が可能
DGX Station：最大800トークン/秒の高速推論と748GBのコヒーレントメモリを提供
GeForce RTX GPU：llama.cppを近日サポート予定

DiffusionGemmaはApache 2.0ライセンスのオープンウェイトモデルとして公開されており、Hugging Face Transformers、vLLM、Unslothがリリース初日からサポートする。Hugging Faceでの試用のほか、build.nvidia.comでNVIDIAがホストするAPIを使った無料テストも可能だ。

インタラクティブチャット、エージェント型ループ、オンデバイスアシスタントなど遅延に敏感なユースケースへの応用が期待される。

ロボスタオンラインセミナー情報

「自律搬送ロボット「カチャカプロ」が売れる理由」を開催

Preferred Roboticsは、小型AMR「カチャカプロ」で、自律搬送ロボット（AMR）の国内市場において台数シェア1位を獲得しました（富士経済調べ）。
ロボスタでは、「カチャカ」シリーズで注目を集めるPreferred Roboticsの代表取締役CEO、礒部達氏をお迎えし、オンラインセミナー「自律搬送ロボット「カチャカプロ」が売れる理由～AMRシェア1位を支える設計思想と開発戦略」を開催します。
社会で実際に役立つロボットの開発、そして“使われる製品”を実現する設計思想や量産・普及の実像に迫ります。

オンラインセミナー「自律搬送ロボット「カチャカプロ」が売れる理由～AMRシェア1位を支える設計思想と開発戦略」Preferred Robotics

先着50名様を無料でご招待します。詳しくはこちら。

JR西日本が導入した「汎用人型重機」人機一体の金岡博士が登壇

「あまねく世界からフィジカルな苦役を無用とする」。
「汎用人型重機」「多機能鉄道重機」という新たな産業ロボットの概念を切り拓いてきた人機一体の代表、金岡博士がオンラインセミナー「人機一体に聞く「人型重機とフィジカルAI」社会実装のリアル　～人を拡張するロボットの最前線～」に登壇。
JR西日本と共同で開発・実証が進む「人型重機」による鉄道インフラ保守の最前線をご紹介。高所作業や危険作業を人に代わって担うロボットが、どのように現場へ導入され、実際の業務を変革し始めているのかを、具体事例とともに解説します。
また、ヒューマノイドやフィジカルAIの潮流にも踏み込み、人機バイラテラルアームに代表されるマニピュレーション技術の進化、人間の技能のデータ化・再現といった技術的アプローチについても、現場視点で整理します。