Децентралізація AI тренування нова парадигма: Prime Intellect та Pluralis досліджують передові технології

2025-08-06 13:33:33

Святий Грааль Crypto AI: Децентралізація тренування на передньому краї досліджень

У повному ланцюгу вартості AI навчання моделей є найресурсомісткішим і з найвищими технічними бар'єрами етапом, що безпосередньо визначає верхню межу можливостей моделі та фактичну ефективність застосування. На відміну від легких викликів етапу висновку, процес навчання вимагає безперервних масштабних обчислювальних витрат, складних процесів обробки даних та підтримки високоефективних алгоритмів оптимізації, що є справжньою "важкою промисловістю" у побудові систем AI. З точки зору архітектурних парадигм, способи навчання можна поділити на чотири категорії: централізоване навчання, розподілене навчання, федеративне навчання та децентралізоване навчання, яке є основною темою цієї статті.

Централізоване навчання є найпоширенішим традиційним способом, яке виконується єдиною установою на локальному високопродуктивному кластері, де весь процес навчання, від апаратного забезпечення, програмного забезпечення нижнього рівня, системи розподілу кластерів до всіх компонентів навчального фреймворку, координується єдиною системою управління. Така глибока співпраця архітектури забезпечує оптимальну ефективність спільного використання пам'яті, синхронізації градієнтів і механізмів відмовостійкості, що робить її дуже підходящою для навчання масштабних моделей, таких як GPT, Gemini, з перевагами високої ефективності та контрольованих ресурсів, але в той же час існують проблеми монополії даних, бар'єрів для ресурсів, споживання енергії та ризиків єдиної точки.

Розподілене навчання є основним способом навчання великих моделей, його суть полягає в розподілі завдань навчання моделі на кілька машин для спільного виконання, щоб подолати обмеження обчислень і зберігання на одній машині. Хоча фізично воно має "дистрибутивні" ознаки, загалом воно все ще контролюється централізованими установами, які здійснюють управління та синхронізацію, зазвичай працює в середовищі швидких локальних мереж, через технологію високошвидкісної міжмашинної зв'язку NVLink, головний вузол координує всі підзавдання. Основні методи включають:

Паралельність даних: кожен вузол навчає різні дані, параметри спільні, потрібно відповідати вагам моделі.
Паралельне моделювання: розміщення різних частин моделі на різних вузлах для досягнення високої масштабованості
Паралельне трубопроводне виконання: поетапне послідовне виконання, підвищення пропускної здатності
Тензорне паралельне обчислення: детальне розподіл матричних обчислень, підвищення паралельної гранулярності

Розподілене навчання є комбінацією "централізованого контролю + розподіленого виконання", аналогічно тому, як один і той же бос дистанційно керує співробітниками з кількох "офісів", що співпрацюють для виконання завдання. Наразі майже всі основні великі моделі навчаються саме таким чином.

Децентралізація тренування означає більш відкритий і стійкий до цензури шлях у майбутнє. Його ключовою характеристикою є: кілька ненадійних вузлів, які співпрацюють для виконання тренувального завдання без центрального координатора, зазвичай через протокол, що забезпечує розподіл та співпрацю завдань, і за допомогою механізму крипто-стимулів для забезпечення чесності внесків. Основні виклики, з якими стикається ця модель, включають:

Складність гетерогенності пристроїв та їх розподілу: висока складність координації гетерогенних пристроїв, низька ефективність розподілу завдань
Вузьке місце ефективності зв'язку: нестабільний мережевий зв'язок, помітне вузьке місце синхронізації градієнтів
Відсутність довіреного виконання: відсутність довіреного середовища виконання, важко перевірити, чи дійсно вузли беруть участь у обчисленнях.
Відсутність єдиної координації: немає центрального диспетчера, складний механізм розподілу завдань та відкату в разі помилок

Децентралізація тренування можна зрозуміти як: група глобальних волонтерів, які спільно вносять обчислювальну потужність для тренування моделі, але "справжнє здійсненне масове децентралізоване тренування" все ще є системним інженерним викликом, що охоплює архітектуру системи, комунікаційні протоколи, криптозахист, економічні механізми, перевірку моделей та інші аспекти, але питання "кооперативна ефективність + стимулювання чесності + правильність результатів" все ще перебуває на стадії раннього прототипування.

Федеративне навчання як перехідна форма між розподіленістю та децентралізацією підкреслює збереження даних на місцях та централізовану агрегацію параметрів моделі, що підходить для сценаріїв, де важлива конфіденційність. Федеративне навчання має інженерну структуру розподіленого навчання та локальні можливості співпраці, одночасно маючи переваги розподілених даних у децентралізованому навчанні, але все ще залежить від надійних координуючих сторін і не має повністю відкритих та антикорупційних характеристик. Це можна розглядати як "контрольовану децентралізацію" в сценаріях, що вимагають конфіденційності, де завдання навчання, структура довіри та механізми зв'язку є відносно м'якими, що робить його більш підходящим як перехідну архітектуру для промисловості.

Децентралізація тренування меж, можливості та реальні шляхи

З точки зору навчальної парадигми, децентралізоване навчання не підходить для всіх типів завдань. У деяких сценаріях, через складну структуру завдання, надвисокі вимоги до ресурсів або велику складність співпраці, воно природно не підходить для ефективного виконання на гетерогенних, недовірених вузлах. Наприклад, навчання великих моделей часто залежить від великої відеопам'яті, низької затримки та високої пропускної здатності, що ускладнює їх ефективне розподілення та синхронізацію в відкритій мережі; завдання, що підлягають суворим вимогам юридичної відповідності та етичним обмеженням, не можуть бути відкритими для обміну; а завдання, які не мають бази для стимулювання співпраці, не мають зовнішнього мотиву участі. Ці межі разом складають реальні обмеження сучасного децентралізованого навчання.

Але це не означає, що децентралізоване навчання є псевдозадачею. Насправді, у легких за структурою, легких для паралелізації та заохочувальних типах завдань, децентралізоване навчання демонструє чіткі перспективи застосування. До них належать, але не обмежуються: тонка настройка LoRA, завдання після навчання з вирівнюванням поведінки, завдання навчання та маркування даних за допомогою краудсорсингу, навчання малих базових моделей з контрольованими ресурсами, а також сценарії кооперативного навчання з участю крайових пристроїв. Ці завдання зазвичай мають високу паралельність, низьку зв'язаність і толерантність до гетерогенних обчислювальних потужностей, що робить їх дуже підходящими для кооперативного навчання через P2P мережі, протокол Swarm, розподілені оптимізатори та інші методи.

Децентралізація тренування класичних проєктів аналіз

В даний час в області децентралізованого навчання та федеративного навчання основними представницькими блокчейн-проектами є Prime Intellect, Pluralis.ai, Gensyn, Nous Research та Flock.io. З точки зору технологічної інноваційності та складності реалізації, Prime Intellect, Nous Research і Pluralis.ai запропонували багато оригінальних досліджень у системній архітектурі та алгоритмічному дизайні, що представляє передові напрямки сучасних теоретичних досліджень; тоді як реалізаційні шляхи Gensyn і Flock.io є відносно зрозумілими, і вже можна спостерігати перші етапи інженерного прогресу. У цій статті поетапно буде розглянуто основні технології та інженерна архітектура цих п'яти проектів, а також додатково досліджено їхні відмінності та взаємодоповнюючі зв'язки в системі децентралізованого навчання AI.

Prime Intellect: Тренувальні траєкторії, що підлягають верифікації, посилена навчальна кооперативна мережа

Prime Intellect прагне побудувати мережу навчання ШІ без необхідності довіри, яка дозволяє будь-кому брати участь у навчанні та отримувати надійні винагороди за свої обчислювальні внески. Prime Intellect сподівається створити децентралізовану систему навчання ШІ з верифікацією, відкритістю та повноцінним механізмом стимулювання за допомогою трьох основних модулів: PRIME-RL + TOPLOC + SHARDCAST.

01、Структура протоколу Prime Intellect та цінність ключових модулів

02, Детальний опис ключових механізмів тренування Prime Intellect

#PRIME-RL: Архітектура завдань асинхронного підкріплювального навчання з розв'язуванням

PRIME-RL є фреймворком моделювання та виконання завдань, спеціально розробленим компанією Prime Intellect для децентралізованих навчальних сценаріїв, призначеним для гетерогенних мереж та асинхронних учасників. Він використовує підкріплене навчання як пріоритетний об'єкт адаптації, структурно розкладаючи процеси навчання, висновків та завантаження ваг, що дозволяє кожному навчальному вузлу незалежно виконувати цикл завдань на місці та взаємодіяти через стандартизований інтерфейс з механізмами валідації та агрегації. У порівнянні з традиційними процесами навчання під наглядом, PRIME-RL краще підходить для реалізації гнучкого навчання в середовищах без центрального планування, що знижує складність системи та закладає основу для підтримки паралельних завдань і еволюції стратегій.

#TOPLOC:Легковажний механізм верифікації поведінки тренування

TOPLOC є основним механізмом перевірки навчання, запропонованим Prime Intellect, який використовується для визначення, чи дійсно вузол завершив ефективне навчання стратегії на основі спостережуваних даних. На відміну від важких рішень, таких як ZKML, TOPLOC не залежить від повторного обчислення всієї моделі, а здійснює верифікацію легковаговою структурою, аналізуючи локальну узгодженість між "послідовністю спостережень ↔ оновленням стратегії". Він вперше перетворює траєкторії поведінки під час навчання на об'єкти, що підлягають перевірці, що є ключовою інновацією для реалізації розподілу винагород за навчання без довіри, надаючи здійсненний шлях для створення аудиторських, заохочувальних мереж децентралізованого співпраці.

#SHARDCAST:Асиметрична вагова агрегація та поширення протоколу

SHARDCAST є протоколом вагового поширення та агрегування, розробленим Prime Intellect, спеціально оптимізованим для асинхронних, обмежених за пропускною здатністю та з мінливим станом вузлів реальних мережевих середовищ. Він поєднує механізм обміну інформацією (gossip) та локальні стратегії синхронізації, що дозволяє кільком вузлам безперервно подавати часткові оновлення в умовах асинхронного стану, що забезпечує поступову конвергенцію ваг та еволюцію з кількома версіями. У порівнянні з централізованими або синхронними методами AllReduce, SHARDCAST значно покращує масштабованість та відмовостійкість децентралізованого навчання, становлячи основну базу для побудови стабільного консенсусу ваг і безперервної ітерації навчання.

#OpenDiLoCo:Рідкісний асинхронний комунікаційний фреймворк

OpenDiLoCo є незалежною реалізацією та відкритим вихідним кодом оптимізаційного фреймворку зв'язку, розробленим командою Prime Intellect на основі концепції DiLoCo, запропонованої DeepMind, спеціально створеним для вирішення таких викликів, як обмежена пропускна здатність, гетерогенність пристроїв та нестабільність вузлів, які часто зустрічаються під час децентралізованого навчання. Його архітектура базується на паралельній обробці даних, шляхом побудови розріджених топологічних структур, таких як кільце, розширювач, малий світ, що дозволяє уникнути високих витрат на зв'язок при глобальній синхронізації, і для завершення кооперативного навчання моделі достатньо лише залежати від сусідніх вузлів. Поєднуючи асинхронне оновлення та механізм відмовостійкості, OpenDiLoCo дозволяє споживчим GPU та крайнім пристроям стабільно брати участь у навчальних завданнях, значно підвищуючи участь у глобальному кооперативному навчанні, і є однією з ключових комунікаційних інфраструктур для побудови децентралізованої навчальної мережі.

#PCCL:Бібліотека співпраці для зв'язку

PCCL є легковаговою комунікаційною бібліотекою, створеною компанією Prime Intellect для децентралізованого середовища тренування ШІ, яка має на меті вирішення адаптаційних вузьких місць традиційних комунікаційних бібліотек в умовах гетерогенних пристроїв та низькосмугових мереж. PCCL підтримує розріджену топологію, стиснення градієнтів, синхронізацію з низькою точністю та відновлення з контрольних точок, може працювати на споживчих GPU та нестабільних вузлах, є базовим компонентом, що підтримує асинхронні комунікаційні можливості протоколу OpenDiLoCo. Він помітно підвищує толерантність до пропускної здатності мережі навчання та сумісність пристроїв, відкриваючи "останню милю" комунікаційної інфраструктури для створення справжньої відкритої, бездокументної мережі спільного навчання.

03、Prime Intellect стимулююча мережа та розподіл ролей

Prime Intellect побудував мережу тренувань, яка не потребує дозволу, є верифікованою та має економічні стимули, що дозволяє будь-кому брати участь у завданнях та отримувати винагороду на основі реального внеску. Протокол працює на основі трьох основних ролей:

Ініціатор завдання: визначити навчальне середовище, початкову модель, функцію винагороди та критерії валідації
Навчальні вузли: виконання локального навчання, подання оновлень ваг та спостережень траєкторії
Вузли верифікації: використовують механізм TOPLOC для перевірки достовірності навчальної поведінки та беруть участь у розрахунку винагород і агрегації стратегій.

Основний процес угоди включає в себе публікацію завдань, навчання вузлів, валідацію траєкторій, агрегацію ваг і виплату винагород, утворюючи стимулюючий замкнутий цикл навколо "реальної навчальної поведінки".

04、INTELLECT-2: перший перевіряємий децентралізований навчальний модель.

Prime Intellect випустила INTELLECT-2 у травні 2025 року, це перша у світі модель великого навчання на основі підкріпленого навчання, створена за допомогою асинхронних, бездоверчий децентралізованих вузлів. Кількість параметрів складає 32B. Модель INTELLECT-2 була навчена за допомогою понад 100 гетерогенних вузлів GPU, розташованих на трьох континентах, використовуючи повністю асинхронну архітектуру, час навчання перевищує 400 годин, демонструючи життєздатність і стабільність асинхронної кооперативної мережі. Ця модель не лише є проривом у продуктивності, але й першим системним впровадженням парадигми "навчання як консенсус", запропонованої Prime Intellect. INTELLECT-2 інтегрує основні модулі протоколів PRIME-RL, TOPLOC та SHARDCAST, що знаменує собою перше досягнення відкритості, верифікації та економічних стимулів у процесі навчання децентралізованої навчальної мережі.

У плані продуктивності, INTELLECT-2 базується на QwQ-32B, пройшов спеціалізоване RL навчання в коді та математиці, перебуваючи на передньому краї нинішніх відкритих RL моделей доопрацювання.

PRIME0.34%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

6 лайків

Нагородити
6
7
Поділіться

Прокоментувати

0/400

Blockwatcher9000