У сфері штучного інтелекту з'являються нові гіганти, ера "битви сотень моделей" настає
Минулого місяця в світі ШІ спалахнула "Боротьба тварин". З одного боку, Llama, випущена Meta, завоювала прихильність розробників завдяки своїй відкритій природі. З іншого боку, великий модель під назвою Falcon, що з'явилася в травні цього року, обійшла Llama та зайняла перше місце в рейтингу відкритих LLM.
Цікаво, що розробником Falcon є Інститут наукових інновацій в Абу-Дабі, столиці Об'єднаних Арабських Еміратів. Міністр штучного інтелекту ОАЕ потім був обраний до списку "100 найвпливовіших людей у сфері AI" за версією журналу Time.
Сьогодні сфера AI вступила в етап активної конкуренції. Країни та компанії з певними фінансовими можливостями створюють локальні версії ChatGPT. Лише в районі Перської затоки Саудівська Аравія нещодавно закупила понад 3000 чіпів H100 для навчання LLM для своїх університетів.
Ця ситуація викликає сумніви: як так сталося, що обіцяна висока складність жорсткої технології перетворилася на "одна країна - одна модель"?
Transformer змінив правила гри
У 2017 році вісім комп'ютерних вчених з Google опублікували алгоритм Transformer у статті «Увага — це все, що вам потрібно», ставши каталізатором цього етапу буму в ІІ. Сьогодні всі великі моделі, включаючи серію GPT, базуються на основі Transformer.
Зміни трансформера полягають у двох основних моментах: по-перше, використання позиційного кодування замість циклічного дизайну, що дозволяє здійснювати паралельні обчислення та значно підвищує ефективність навчання; по-друге, подальше посилення здатності до розуміння контексту.
Це перетворює великі моделі з теоретичного дослідження на інженерну проблему. Дані, масштаб обчислень, архітектура моделей та інші інженерні елементи стали ключовими у змаганнях штучного інтелекту. Будь-яка компанія, яка має певні технічні можливості, може розробити великі моделі.
Конфлікт між відкритим та закритим вихідним кодом
На даний момент "Битва великих моделей" стала реальністю. Станом на липень, кількість великих моделей у Китаї досягла 130, перевищивши 114 у США. Інші країни, такі як Японія, Індія, Південна Корея та інші, також мають свої великі моделі.
Проте, вхід легкий, а досягти успіху складно. Наприклад, Falcon, хоча і перевершує Llama за рейтингом, але важко сказати, що він завдає серйозного удару Meta. Для великих відкритих моделей активна спільнота розробників є основною конкурентною перевагою. Meta вже давно має традицію відкритого коду і в управлінні спільнотою перевершує інших.
Звичайно, підвищення продуктивності також є шляхом. Але наразі більшість LLM мають помітний розрив з GPT-4. У останньому тестуванні AgentBench GPT-4 з відривом лідирує з 4.41 бала, друге місце займає Claude з 2.77 бала, інші відкриті моделі мають близько 1 бала.
Причиною цієї різниці є відмінна команда вчених OpenAI та довготривалий накопичений досвід. Основою великих моделей є екосистемне будівництво ( відкритий код ) або чиста здатність до висновків ( закритий код ).
Невідповідність витрат і доходів
Наразі в індустрії великих моделей існує серйозна дисбаланс між витратами та доходами. Згідно з оцінками Sequoia Capital, світові технологічні компанії щорічно витрачають до 200 мільярдів доларів на інфраструктуру великих моделей, тоді як річний дохід великих моделей становить максимум 75 мільярдів доларів, що створює прогалину щонайменше в 125 мільярдів доларів.
Навіть такі програмні гіганти, як Microsoft і Adobe, стикаються зі збитками в сфері AI-продуктів. Більшість компаній з великими моделями після величезних інвестицій все ще не знайшли чіткої моделі прибутку.
З посиленням конкуренції внаслідок гомогенізації та збільшення кількості відкритих моделей, прості постачальники великих моделей можуть зіткнутися з більшим тиском. У майбутньому цінність ШІ, можливо, більше проявлятиметься в конкретних сценаріях використання, а не в самій моделі.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
18 лайків
Нагородити
18
5
Поділіться
Прокоментувати
0/400
0xSherlock
· 15год тому
Привабливіше за гроші
Переглянути оригіналвідповісти на0
WhaleMinion
· 16год тому
Війна тільки почалася
Переглянути оригіналвідповісти на0
SignatureDenied
· 16год тому
Технології не мають кордонів
Переглянути оригіналвідповісти на0
LuckyBearDrawer
· 17год тому
Гроші можуть вирішити все
Переглянути оригіналвідповісти на0
SelfStaking
· 17год тому
Торгівля криптовалютою не така важлива, як створення моделей
AI великі моделі розквітають, зниження технологічного бар'єру викликає глобальну конкуренцію
У сфері штучного інтелекту з'являються нові гіганти, ера "битви сотень моделей" настає
Минулого місяця в світі ШІ спалахнула "Боротьба тварин". З одного боку, Llama, випущена Meta, завоювала прихильність розробників завдяки своїй відкритій природі. З іншого боку, великий модель під назвою Falcon, що з'явилася в травні цього року, обійшла Llama та зайняла перше місце в рейтингу відкритих LLM.
Цікаво, що розробником Falcon є Інститут наукових інновацій в Абу-Дабі, столиці Об'єднаних Арабських Еміратів. Міністр штучного інтелекту ОАЕ потім був обраний до списку "100 найвпливовіших людей у сфері AI" за версією журналу Time.
Сьогодні сфера AI вступила в етап активної конкуренції. Країни та компанії з певними фінансовими можливостями створюють локальні версії ChatGPT. Лише в районі Перської затоки Саудівська Аравія нещодавно закупила понад 3000 чіпів H100 для навчання LLM для своїх університетів.
Ця ситуація викликає сумніви: як так сталося, що обіцяна висока складність жорсткої технології перетворилася на "одна країна - одна модель"?
Transformer змінив правила гри
У 2017 році вісім комп'ютерних вчених з Google опублікували алгоритм Transformer у статті «Увага — це все, що вам потрібно», ставши каталізатором цього етапу буму в ІІ. Сьогодні всі великі моделі, включаючи серію GPT, базуються на основі Transformer.
Зміни трансформера полягають у двох основних моментах: по-перше, використання позиційного кодування замість циклічного дизайну, що дозволяє здійснювати паралельні обчислення та значно підвищує ефективність навчання; по-друге, подальше посилення здатності до розуміння контексту.
Це перетворює великі моделі з теоретичного дослідження на інженерну проблему. Дані, масштаб обчислень, архітектура моделей та інші інженерні елементи стали ключовими у змаганнях штучного інтелекту. Будь-яка компанія, яка має певні технічні можливості, може розробити великі моделі.
Конфлікт між відкритим та закритим вихідним кодом
На даний момент "Битва великих моделей" стала реальністю. Станом на липень, кількість великих моделей у Китаї досягла 130, перевищивши 114 у США. Інші країни, такі як Японія, Індія, Південна Корея та інші, також мають свої великі моделі.
Проте, вхід легкий, а досягти успіху складно. Наприклад, Falcon, хоча і перевершує Llama за рейтингом, але важко сказати, що він завдає серйозного удару Meta. Для великих відкритих моделей активна спільнота розробників є основною конкурентною перевагою. Meta вже давно має традицію відкритого коду і в управлінні спільнотою перевершує інших.
Звичайно, підвищення продуктивності також є шляхом. Але наразі більшість LLM мають помітний розрив з GPT-4. У останньому тестуванні AgentBench GPT-4 з відривом лідирує з 4.41 бала, друге місце займає Claude з 2.77 бала, інші відкриті моделі мають близько 1 бала.
Причиною цієї різниці є відмінна команда вчених OpenAI та довготривалий накопичений досвід. Основою великих моделей є екосистемне будівництво ( відкритий код ) або чиста здатність до висновків ( закритий код ).
Невідповідність витрат і доходів
Наразі в індустрії великих моделей існує серйозна дисбаланс між витратами та доходами. Згідно з оцінками Sequoia Capital, світові технологічні компанії щорічно витрачають до 200 мільярдів доларів на інфраструктуру великих моделей, тоді як річний дохід великих моделей становить максимум 75 мільярдів доларів, що створює прогалину щонайменше в 125 мільярдів доларів.
Навіть такі програмні гіганти, як Microsoft і Adobe, стикаються зі збитками в сфері AI-продуктів. Більшість компаній з великими моделями після величезних інвестицій все ще не знайшли чіткої моделі прибутку.
З посиленням конкуренції внаслідок гомогенізації та збільшення кількості відкритих моделей, прості постачальники великих моделей можуть зіткнутися з більшим тиском. У майбутньому цінність ШІ, можливо, більше проявлятиметься в конкретних сценаріях використання, а не в самій моделі.