DeepSeek набирає силу: що не помітили ЗМІ? - RAND

Нещодавнє висвітлення ШІ-моделей DeepSeek в основному зосереджувалося на їхній вражаючій продуктивності в тестах і підвищенні ефективності. Хоча ці досягнення заслуговують на визнання і мають політичні наслідки (докладніше про це нижче), історія з доступом до обчислень, експортним контролем і розробкою ШІ є складнішою, ніж у багатьох звітах. Ось кілька ключових моментів, які заслуговують на більшу увагу:

  1. Реальні експортні обмеження на ШІ-чіпи почали діяти лише в жовтні 2023 року, що робить заяви про їхню неефективність передчасними. DeepSeek тренувався на чіпах Nvidia H800, розроблених спеціально для обходу початкових обмежень, запроваджених у жовтні 2022 року. Для робочих навантажень DeepSeek ці чіпи працюють так само, як і H100, доступні в США. Доступний зараз H20, найновіший ШІ-чіп Nvidia, який можна експортувати до Китаю, менш продуктивний для навчання (хоча він все ще пропонує значні можливості для застосування, на які слід звернути увагу).

Експортний контроль вплине на екосистему ШІ в Китаї через зменшення можливостей розгортання, обмежене зростання компаній та стримування синтетичного навчання і можливостей самовдосконалення.
  1. Експортний контроль за апаратним забезпеченням діє із запізненням і ще не встиг відчутно вплинути на ситуацію. Китай все ще експлуатує дообмежувальні дата-центри з десятками тисяч чіпів, тоді як американські компанії будують дата-центри з сотнями тисяч чіпів. Справжнє випробування настане, коли ці центри обробки даних потребуватимуть модернізації або розширення - процес, який буде простішим для американських фірм, але складнішим для китайських компаній, що перебувають під американським експортним контролем. Якщо моделі наступного покоління потребуватимуть 100 000 чіпів для навчання, експортний контроль суттєво вплине на розробку китайської передової моделі.

  1. Той факт, що DeepSeek V3 навчався на менших обчислювальних ресурсах, не є дивним: алгоритми машинного навчання завжди дешевшали з часом. Але той самий приріст ефективності, який дозволяє невеликим компаніям, таким як DeepSeek, отримати доступ до певних можливостей, ймовірно, також дозволить іншим компаніям будувати більш потужні системи на більших обчислювальних системах. Ми повинні бути вельми раді, що DeepSeek навчила свою модель V3 на 2 000 чіпах H800, а не на 200 000 чіпах B200 (останнє покоління Nvidia).

  1. Їхній час може бути стратегічним, але технологія реальна. Випуск R1 під час інавгурації президента Трампа минулого тижня може мати на меті похитнути довіру громадськості до лідерства США в галузі штучного інтелекту у вирішальний момент американської політики, що нагадує запуск продукту Huawei під час візиту колишнього міністра Раймондо до Китаю. Цей потенційний розрахований піар-хід не повинен затьмарювати дві реальності: технічний прогрес DeepSeek і структурні проблеми, з якими вони вже стикаються і які дедалі частіше виникають у зв'язку з експортним контролем.

  2. Експортному контролю важче вплинути на окремі тренувальні запуски, і легше - на всю екосистему. Важливо, що обмеження на найсучасніші чіпи можуть ефективно стримувати широкомасштабне розповсюдження ШІ і розвиток можливостей. Компанії, що займаються розробкою ШІ, зазвичай витрачають 60-80 відсотків своїх обчислювальних ресурсів на поширення продукту. Обмеження доступу до обчислень збільшить витрати КНР на ШІ, обмежить широке розгортання та обмежить можливості системи. Важливо, що обчислення при розповсюдженні - це не просто обслуговування користувачів, вони мають вирішальне значення для створення синтетичних навчальних даних і забезпечення зворотного зв'язку через взаємодію моделей, а також для побудови, масштабування і дистиляції.

  3. Підвищення ефективності DeepSeek, ймовірно, стало можливим завдяки попередньому доступу до значних обчислювальних ресурсів. Парадоксально, але шлях до меншого використання чипів (тобто «ефективності») може вимагати початкового застосування набагато більшої їх кількості. DeepSeek керувала першим в Азії кластером із 10 000 Nvidia A100, за повідомленнями, підтримує 50 000 «Hoppers» (що можуть бути Nvidia H100, H800 або H20) і має додатковий необмежений доступ до китайських та іноземних хмарних провайдерів (які не підпадають під експортний контроль). Цей широкий доступ до обчислювальних ресурсів, ймовірно, був критично важливим для розробки їхніх методів підвищення ефективності шляхом проб і помилок, а також для обслуговування їхніх моделей клієнтам. Хоча їхня модель R1 демонструє вражаючу ефективність, її розробка вимагала значних обчислювальних потужностей для генерації синтетичних даних, дистиляції та експериментування.

  4. Розрив у комп'ютерних технологіях між Сполученими Штатами та Китаєм, який ще більше збільшився через експортний контроль, залишається головним обмеженням для DeepSeek. Керівництво DeepSeek відкрито визнало недоліки обчислювальних потужностей. Засновник DeepSeek Лян Венфенг заявив:

    «Це означає, що нам потрібна вдвічі більша обчислювальна потужність для досягнення тих самих результатів. Крім того, існує приблизно двократний розрив в ефективності використання даних, що означає, що нам потрібно вдвічі більше навчальних даних і обчислювальних потужностей для досягнення порівнянних результатів. Разом це вимагає в 4 рази більших обчислювальних потужностей».

    Він додав:

    «У нас немає короткострокових планів зі збору коштів. Наша проблема ніколи не полягала у фінансуванні, а в блокаді високотехнологічних чіпів».
  5. Провідні американські компанії тримають найкращі свої можливості в таємниці, а це означає, що публічні показники дають недосконалу картину прогресу в галузі ШІ. У той час як деякі китайські фірми відкрито діляться своїми досягненнями, такі компанії, як Anthropic, Google і OpenAI, зберігають значні приватні можливості. Це робить прямі порівняння на основі публічної інформації неповними. Увага до DeepSeek частково зумовлена їхнім відкритим підходом - вони детально діляться вагами моделей і методами, на відміну від західних компаній, які стають дедалі більш закритими. Однак, чи обов'язково відкритість перетворюється на стратегічну перевагу, ще належить з'ясувати.

І що з того?

Досягнення DeepSeek реальні і значні. Заяви, що відкидають їхній прогрес як просту пропаганду, не відповідають дійсності.

Реальність підвищення ефективності обчислень означає, що можливості ШІ неминуче будуть поширюватися. Одних лише заходів контролю недостатньо: вони повинні поєднуватися з діями, спрямованими на посилення стійкості і захисту суспільства: створенням інститутів для виявлення, оцінки та усунення ризиків, пов'язаних зі штучним інтелектом, і побудовою надійного захисту від потенційно шкідливих застосувань штучного інтелекту з боку супротивників. Однак ми також повинні визнати, що експортний контроль вже впливає на розвиток китайського ШІ і може мати ще більший вплив у майбутньому. Хоча можливості ШІ, ймовірно, поширюватимуться незалежно від контролю - і завжди буде важко повністю запобігти розповсюдженню за допомогою експортного контролю або інших «втручань у можливості» - вони залишаються важливими для збереження наших технологічних переваг. Контроль дозволяє виграти дорогоцінний час, але він повинен доповнюватися політикою, яка гарантує, що демократії залишатимуться лідерами і будуть стійкими до супротивників.

Джерело — RAND

Поділись своїми ідеями в новій публікації.
Ми чекаємо саме на твій довгочит!
Космос Політики
Космос Політики@politikosmos

Світова політика

76KПрочитань
4Автори
305Читачі
На Друкарні з 1 травня

Більше від автора

Вам також сподобається

Коментарі (0)

Підтримайте автора першим.
Напишіть коментар!

Вам також сподобається