MoE（混合専門家モデル）白書2024年版

　昨今、MoEの普及が進んでいるにもかかわらず、MoEに関する体系的かつ包括的なレビューが不足している。本白書では、MoEモデルに関する動向、論文、文献を体系的かつ包括的にレビューし、MoE技術の展望を探る者にとって価値ある大要として提供するものである。
　本白書では、MoEモデルに関して形成されつつある分類法を紹介し、アルゴリズム設計、システム設計、コンピューティングシステムのサポート、実用的な応用といったさまざまな視点を包含する分析を提供し、それぞれ分類法で概説した構造に従って掘り下げている。
　さらに、この分野で直面する課題に焦点を当て、将来的に最も有望な研究・開発・実装手段を概説する。
　本白書が、MoEモデルを迅速に理解しようとする研究者、実務者、AI投資家、アナリスト等にとって不可欠な参考資料となり、MoE探索における継続的な更新と最先端開発の共有を促進することを願っている。

序

＜1＞MoE（専門家混合モデル）概説
　・まえがき
　・定義・概念の広がり
　・MoEモデルが関心を集める根拠・背景
　・LLMとMoEの関係
　・密なモデルよりも効果的にスケールするMoEモデル

＜2＞MoEの展開と背景
　・概説
　・密なMoE
　・疎なMoE
　・MoEのスパース混合
　・条件付き計算
　・言語のためのMoE
　・視覚のためのMoE
　・浅いMoE
　・トランスフォーマーモデルへの応用

＜3＞MoEに関する分類法
　・概説
　・TransformerベースのモデルにおけるMoE層

＜4＞MoEがもたらす効率向上
　・MoE言語モデルのスケーリング則
　・効率的なスケーリングと生涯学習
　・検索補強モデル
　・効率的なフィードフォワード層
　・関連研究
　　-グーグル・ディープマインド　「100万人のMoE」

＜5＞MoEの研究動向
　・概況・近況
　・スパース性／活性化スパース性
　・異種MoE
　・スパースゲートMoE
　・ルーティング戦略
　・ニューラルアーキテクチャ探索
　・トップPルーティング戦略
　・事例
　　-テンセント・フンユアン／マサチューセッツ工科大学　「言語モデリングのための専門家の異種混合：HMoE」

＜6＞MoE普及の課題・解法の道筋
　・概説
　・モデルのサイズ
　・トレーニングの安定性と負荷分散
　・スケーラビリティと通信オーバーヘッド
　・言語処理タスクに対応
　・専門家の専門化とコラボレーション
　・スパース活性化と計算効率
　・汎化性と頑健性
　・解釈可能性と透明性
　・学習後のLLMの量子化
　・パラメータオフロードによる推論
　・LLM圧縮による効率性、信頼性の向上
　・モデルを圧縮する際の問題
　・最適化された活性化オフロード
　　-異なるエキスパートに対する不均等な計算負荷への対処
　　-LLMの量子化
　　-MoEの圧縮

＜7＞最適化されたMoE活性化オフロード
　・MoEモデルの最適化
　・LLMの量子化とMoE
　・MoEの圧縮

＜8＞専門家混合アルゴリズムの設計
　・ゲーティング機能
　　-疎なゲーティング関数
　　-密度
　　-ソフト
　　他

＜9＞エキスパート・ネットワークのアーキテクチャ
　・ネットワークの種類
　　-フィード・フォワード・ネットワーク
　　-アテンション
　　-その他
　・ハイパーパラメーター
　　-専門家の数
　　-エキスパートのサイズ
　　-MoE層の頻度
　・アクティベーション機能
　・共有エキスパート

＜10＞MoE派生モデルの進化
　・概説
　・パラメータ効率の良いMoE
　　-フィード・フォワード・ネットワーク
　　-アテンション
　　-トランス・ブロック
　　-各レイヤー
　・トレーニングと推論スキーム
　　-密から疎へ
　　-疎から密へ
　　-エキスパートモデルのマージ
　・派生モデル
　・パラメータ効率の良い微調整（PEFT）
　・Mixture of Depthアーキテクチャによるアプローチ

＜11＞MoEの設計
　・計算
　・コミュニケーション
　・ストレージ

＜12＞MoEの応用
　・自然言語処理
　・コンピュータビジョン
　・レコメンダー・システム
　・マルチモーダル・アプリケーション
　　他

＜13＞MoEアーキテクチャの統合による大規模マルチモーダルモデルの機能拡張
　・概説
　・漸進的学習アプローチ
　・フレームワーク
　・戦略的トレーニング
　・トレーニング
　・統一されたマルチモーダルモデル
　・LLMのためのマルチモーダル命令チューニング
　・MoEによる大規模モデル
　・関連研究
　　-インスティテュート・オブ・テクノロジー他研究チーム　「Uni-MoE：MoEによる統一マルチモーダルLLMのスケーリング」

＜14＞MoEのソリューション
　・動的なエキスパート配置・複製

＜15＞非線形性を識別するための強力なモデルとしてのMoE
　・概説

＜16＞SMoEs（スパースMoEモデル）
　・Sparse Mixture of Experts (SMoEs）による推論とトレーニング速度、メモリフットプリントの改善
　・関連研究
　　-グーグル・ブレイン　「専門家のスパース混合によるスケーリング・ビジョン」
　　-アーロン・クールビル　「Sparse Mixture-of-Expertによる分散実施」

＜17＞主なプレーヤー／商用利用可能なMeEモデル
　・Mistral AI　「Mixtral 8x7B」
　・IBM　「量子回路の最適化、量子コンピューティング能力の強化：Qiskit SDK v1.2」
　・マイクロソフト　「勾配情報付き専門家混合MoEモデル：GRIN MoE」
　・マイクロソフト／中国科学院大学　「Q-Sparse：LLMにおける活性化の完全なスパース性を可能にするAIアプローチ」
　・アレンAI研究所／コンテクスチュアルAI／ワシントン大学／プリンストン大学の研究チーム　「完全にオープンソース化されたMoE」
　・XVERSE Technology　「MOEアーキテクチャと大規模言語処理における新たな基準を設定する多言語 AI モデル: XVERSE-MoE-A36B」
　・DeepSeek-AI　「MoEを特徴とする最先端の238億パラメータモデル：DeepSeek-V2.5」

＜18＞その他主な研究論文紹介
　・テキサス大学オースティン校、ドレクセル大学、MIT、UIUC、ローレンス・リバモア国立研究所、AI安全性センター他研究チーム　
　　「LLM圧縮の評価： AI言語モデル開発における効率性、信頼性、倫理性のバランス」
　・非線形力学系のための専門家モデルの変分ベイズ混合と感度分析
　・モスクワ物理工科大学　「オフロードを用いた専門家混合言語モデルの高速推論」