Prime Intellectは2025年5月にINTELLECT-2を発表しました。これは、世界初の非同期で信頼不要な分散化ノード協力によって訓練された強化学習大モデルで、パラメータ規模は32Bに達します。INTELLECT-2モデルは、三大陸にわたる100以上のGPU異種ノードによって協調訓練され、完全な非同期アーキテクチャを使用し、訓練時間は400時間を超え、非同期協力ネットワークの実現可能性と安定性を示しています。このモデルは、性能面での突破口であるだけでなく、Prime Intellectが提唱する"訓練即合意"のパラダイムが初めて体系的に実現されたものです。INTELLECT-2はPRIME-RL、TOPLOC、SHARDCASTなどのコアプロトコルモジュールを統合し、分散化訓練ネットワークが訓練プロセスの開発を初めて実現したことを示しています。
AIトレーニングの新しいパラダイム:集中管理から分散化協調への技術革命
AIトレーニングパラダイムの進化: 集中制御から分散化協調への技術革命
AIの全バリューチェーンにおいて、モデル訓練はリソース消費が最も大きく、技術的なハードルも最も高いプロセスであり、モデルの能力上限と実際の応用効果を直接決定します。推論段階の軽量な呼び出しに対して、訓練プロセスは持続的な大規模な計算力の投入、複雑なデータ処理プロセス、高強度の最適化アルゴリズムのサポートを必要とし、AIシステム構築の真の「重工業」です。アーキテクチャのパラダイムから見ると、訓練方法は集中化訓練、分散化訓練、フェデラルラーニング、そして本稿で重点的に議論する分散化訓練の四つに分類されます。
! AIトレーニングパラダイムの進化:中央集権的な制御から分散型のコラボレーションへの技術革命
集中化トレーニングは最も一般的な従来の方法であり、単一の機関がローカルの高性能クラスター内で全てのトレーニングプロセスを完了します。ハードウェア、基盤ソフトウェア、クラスタースケジューリングシステム、トレーニングフレームワークの全てのコンポーネントは、統一された制御システムによって調整されて運用されます。このような深い協調のアーキテクチャは、メモリ共有、勾配同期、フォールトトレランスメカニズムの効率を最適化し、GPTやGeminiなどの大規模モデルのトレーニングに非常に適しており、高い効率とリソースの管理可能性の利点を持っていますが、同時にデータの独占、リソースの壁、エネルギー消費、単一障害点などの問題も抱えています。
分散化トレーニングは現在の大規模モデルのトレーニングの主流手法であり、その核心はモデルのトレーニングタスクを分解し、複数のマシンに配布して協力して実行することにより、単一の計算およびストレージのボトルネックを突破することです。物理的には「分散化」特性を持っているものの、全体は依然として中央集権的な機関によって制御、スケジュール、および同期されており、通常は高速なローカルエリアネットワーク環境で動作し、NVLink高速相互接続バス技術を介して、主ノードが各サブタスクを統一的に調整します。主流の方法には次のものが含まれます:
分散化トレーニングは「集中管理+分散実行」の組み合わせであり、同じボスが遠隔で複数の「オフィス」の従業員に指示を出してタスクを完了させることに例えられます。現在、ほぼすべての主流の大規模モデルはこの方法でトレーニングを完了しています。
! AIトレーニングパラダイムの進化:中央集権的な制御から分散型のコラボレーションへの技術革命
分散化トレーニングは、よりオープンで検閲耐性のある未来の道を示します。その核心的な特徴は、複数の相互に信頼しないノードが中心的なコーディネーターなしで協力してトレーニングタスクを完了することであり、通常はプロトコルによってタスクの配布と協力が促進され、暗号的なインセンティブメカニズムを利用して貢献の誠実性を確保します。このモデルが直面する主な課題には、以下が含まれます:
分散化トレーニングは、世界中のボランティアがそれぞれ計算能力を提供し、協力してモデルをトレーニングすることとして理解できますが、「真に実行可能な大規模分散化トレーニング」は依然としてシステム的な工学的課題であり、システムアーキテクチャ、通信プロトコル、暗号セキュリティ、経済メカニズム、モデル検証などの複数の側面を含んでいます。しかし、「協力的に効果的+誠実なインセンティブ+正しい結果」を実現できるかどうかは、まだ初期のプロトタイプ探索段階にあります。
フェデラルラーニングは、分散型と分散化の間の移行形態として、データのローカル保持とモデルパラメータの集中集約を強調し、プライバシーコンプライアンスを重視するシーンに適しています。フェデラルラーニングは、分散トレーニングのエンジニアリング構造とローカル協調能力を持ちながら、分散化トレーニングのデータ分散の利点も兼ね備えていますが、信頼できる調整者に依存しており、完全にオープンで検閲に耐える特性は持っていません。プライバシーコンプライアンスのシーンにおける"制御された分散化"の一種と見なすことができ、トレーニングタスク、信頼構造、通信メカニズムにおいて比較的穏やかであり、産業界の移行的デプロイメントアーキテクチャとしてより適しています。
分散型トレーニングの境界、機会、現実
訓練のパラダイムから見ると、分散化訓練はすべてのタスクタイプに適しているわけではありません。特定のシナリオでは、タスク構造が複雑でリソース要求が非常に高いか、協力が困難なため、異種の信頼されていないノード間で効率的に完了することが天然的に不適切です。例えば、大規模モデルの訓練はしばしば高いメモリ容量、低遅延、高速帯域幅に依存しており、オープンネットワーク内で効果的に分割および同期することが困難です; データプライバシーと主権制限が強いタスクは法律遵守と倫理的制約に制限され、オープン共有ができません; また、協力のインセンティブが欠如しているタスクは外部の参加動機が不足しています。これらの境界が現在の分散化訓練の現実的制限を形成しています。
しかし、これは分散化トレーニングが偽命題であることを意味するわけではありません。実際、構造が軽量で、並列処理が容易で、インセンティブを与えられるタスクタイプにおいて、分散化トレーニングは明確な応用の見通しを示しています。これには次のようなものが含まれますが、これに限定されません: LoRA微調整、行動整合性を持つ後処理タスク、データクラウドソーシングトレーニングおよびアノテーションタスク、リソースが制御された小型基盤モデルのトレーニング、そしてエッジデバイスが参加する協調トレーニングシナリオです。これらのタスクは一般に高い並列性、低いカップリング性、および異種計算能力を許容する特性を持っており、P2Pネットワーク、Swarmプロトコル、分散最適化器などの方法を通じて協力的なトレーニングを行うのに非常に適しています。
! AIトレーニングパラダイムの進化:中央集権的な制御から分散型のコラボレーションへの技術革命
分散化トレーニングクラシックプロジェクト解析
現在、分散化トレーニングとフェデラルラーニングの最前線領域において、代表的なブロックチェーンプロジェクトにはPrime Intellect、Pluralis.ai、Gensyn、Nous Research、Flock.ioが含まれます。技術革新性とエンジニアリング実現の難易度の観点から、Prime Intellect、Nous Research、Pluralis.aiはシステムアーキテクチャとアルゴリズム設計において多くの独創的な探求を提案しており、現在の理論研究の最前線方向を代表しています。一方、GensynとFlock.ioの実現経路は比較的明確で、初歩的なエンジニアリングの進展を見ることができます。本稿では、これら五つのプロジェクトの背後にあるコア技術とエンジニアリングアーキテクチャの道を順次解析し、分散化AIトレーニングシステムにおけるその違いと相補関係をさらに探ります。
プライムインテレクト: トレーニング軌跡が検証可能な強化学習協調ネットワークの先駆者
Prime Intellectは、信頼を必要としないAIトレーニングネットワークの構築に取り組んでおり、誰もがトレーニングに参加でき、その計算への貢献に対して信頼できる報酬を得られるようにしています。Prime Intellectは、PRIME-RL + TOPLOC + SHARDCASTの3つのモジュールを通じて、検証可能でオープンで、インセンティブメカニズムが整ったAI分散化トレーニングシステムの構築を目指しています。
一、Prime Intellectプロトコルスタックの構造と主要モジュールの価値
! AIトレーニングパラダイムの進化:中央集権的な制御から分散型のコラボレーションへの技術革命
二、Prime Intellectトレーニングの重要なメカニズムの詳細
PRIME-RL:デカップリング型非同期強化学習タスクアーキテクチャ
PRIME-RLはPrime Intellectが分散化トレーニングシナリオのためにカスタマイズしたタスクモデリングと実行フレームワークであり、異種ネットワークと非同期参加者のために設計されています。強化学習を優先的に適用対象として採用し、トレーニング、推論、重みのアップロードプロセスを構造的にデカップリングすることで、各トレーニングノードがローカルで独立してタスクループを完了できるようにし、標準化されたインターフェースを通じて検証および集約メカニズムと協調します。従来の監視学習プロセスと比較して、PRIME-RLは中央集権的なスケジューリングのない環境での弾力的なトレーニングを実現するのにより適しており、システムの複雑さを低減し、マルチタスクの並行処理と戦略の進化を支える基盤を築いています。
TOPLOC:軽量トレーニング行動検証メカニズム
TOPLOCはPrime Intellectが提唱したトレーニングの検証可能性の核心メカニズムであり、ノードが実際に観測データに基づいて有効な戦略学習を完了したかどうかを判断するために使用されます。ZKMLなどの重いソリューションとは異なり、TOPLOCは全モデルの再計算に依存せず、"観測シーケンス↔戦略更新"の間の局所的一貫性の軌跡を分析することによって、軽量構造の検証を完了します。これはトレーニングプロセス中の行動軌跡を検証可能なオブジェクトに初めて変換し、信頼不要なトレーニング報酬の配分を実現するための重要な革新であり、監査可能でインセンティブのある分散化協力トレーニングネットワークを構築するための実行可能な道を提供します。
SHARDCAST: 非同期の重み集約および伝播プロトコル
SHARDCASTはPrime Intellectが設計した重みの伝播と集約のプロトコルであり、非同期、帯域幅が制限され、ノードの状態が変化しやすい実際のネットワーク環境に最適化されています。これはgossip伝播メカニズムと局所的な同期戦略を組み合わせて、複数のノードが非同期状態で部分的な更新を継続的に提出できるようにし、重みの漸進的な収束と多バージョンの進化を実現します。集中型または同期型のAllReduce手法と比較して、SHARDCASTは分散化トレーニングのスケーラビリティと耐障害性を著しく向上させ、安定した重みのコンセンサスと継続的なトレーニングの反復を構築するための核心的な基盤となります。
OpenDiLoCo:スパース非同期通信フレームワーク
OpenDiLoCoはPrime IntellectチームがDeepMindの提案したDiLoCo理念に基づいて独立に実装し、オープンソース化した通信最適化フレームワークであり、分散化トレーニングにおける帯域幅の制約、デバイスの異種性、ノードの不安定性といった一般的な課題に特化して設計されています。そのアーキテクチャはデータ並列性に基づいており、Ring、Expander、Small-Worldなどの疎なトポロジー構造を構築することで、グローバル同期の高い通信コストを回避し、局所的な隣接ノードに依存するだけでモデルの協調トレーニングを完了できます。非同期更新とチェックポイント耐障害メカニズムを組み合わせることで、OpenDiLoCoはコンシューマ向けGPUやエッジデバイスが安定してトレーニングタスクに参加できるようにし、グローバル協力トレーニングの参加可能性を大幅に向上させ、分散化トレーニングネットワークを構築するための重要な通信基盤の一つとなっています。
PCCL:協調通信ライブラリ
PCCLはPrime Intellectが分散化されたAIトレーニング環境のために特別に設計した軽量通信ライブラリであり、従来の通信ライブラリが異種デバイスや低帯域幅のネットワークにおいて適応する際のボトルネックを解決することを目的としています。PCCLは疎拓扑、勾配圧縮、低精度同期およびチェックポイント復元をサポートし、コンシューマ向けGPUや不安定なノードで動作可能であり、OpenDiLoCoプロトコルの非同期通信能力を支える基盤コンポーネントです。それはトレーニングネットワークの帯域幅耐性とデバイス互換性を大幅に向上させ、真にオープンで信頼不要の協調トレーニングネットワークを構築するための「最後の一マイル」の通信基盤を整えました。
三、Prime Intellectのインセンティブネットワークと役割分担
Prime Intellectは、誰でもタスクに参加し、実際の貢献に基づいて報酬を得られる、許可不要で検証可能な経済的インセンティブメカニズムを持つトレーニングネットワークを構築しました。プロトコルは、三つのコアロールに基づいて運営されています:
プロトコルのコアプロセスには、タスクの発行、ノードのトレーニング、トラッキングの検証、重みの集約、報酬の配布が含まれ、"実際のトレーニング行動"を中心にしたインセンティブのクローズドループを構成しています。
! AIトレーニングパラダイムの進化:中央集権的な制御から分散型のコラボレーションへの技術革命
四、INTELLECT-2:初の検証可能な分散化トレーニングモデルのリリース
Prime Intellectは2025年5月にINTELLECT-2を発表しました。これは、世界初の非同期で信頼不要な分散化ノード協力によって訓練された強化学習大モデルで、パラメータ規模は32Bに達します。INTELLECT-2モデルは、三大陸にわたる100以上のGPU異種ノードによって協調訓練され、完全な非同期アーキテクチャを使用し、訓練時間は400時間を超え、非同期協力ネットワークの実現可能性と安定性を示しています。このモデルは、性能面での突破口であるだけでなく、Prime Intellectが提唱する"訓練即合意"のパラダイムが初めて体系的に実現されたものです。INTELLECT-2はPRIME-RL、TOPLOC、SHARDCASTなどのコアプロトコルモジュールを統合し、分散化訓練ネットワークが訓練プロセスの開発を初めて実現したことを示しています。