Великі мовні моделі стають все більшими і кращими

A surreal image of three repeated heads that look like they're dissolving into a screen / computer chip

Чи можуть вони вдосконалюватися вічно?


У світі розвитку AI технології зі швидкістю світла переходять з розряду чудових у розряд застарілих. Лише 18 місяців тому випуск Chatgpt, чат-бота компанії Openai, спричинив справжнє AI-божевілля. Сьогодні його можливості стали звичним явищем. Відтоді кілька фірм (таких як Anthropic, Google і Meta) представили версії своїх власних моделей (Claude, Gemini і Llama), які вдосконалюють Chatgpt у різних напрямках.

Ця жага до нового тільки прискорилася. У березні Anthropic випустила Claude 3, яка випередила попередні топові моделі від Openai та Google у різних рейтингах. 9 квітня Openai повернули собі корону (за деякими показниками), допрацювавши свою модель. 18 квітня Meta випустила Llama 3, яка, судячи з перших результатів, є найпотужнішою відкритою моделлю на сьогоднішній день. Openai, ймовірно, зробить фурор десь цього року, коли випустить gpt-5, яка може мати можливості, що виходять за межі будь-якої сучасної великої мовної моделі (llm). Якщо вірити чуткам, наступне покоління моделей буде ще більш вражаючим - наприклад, здатним виконувати багатокрокові завдання, а не просто відповідати на підказки, або ретельно аналізувати складні питання, а не видавати першу-ліпшу алгоритмічно доступну відповідь.

Для тих, хто вважає, що це звичайний технологічний хайп, зауважте: інвестори смертельно серйозно налаштовані на підтримку наступного покоління моделей. Очікується, що навчання gpt-5 та інших моделей наступного покоління коштуватиме мільярди доларів. Також повідомляється, що Openai співпрацює з Microsoft, технологічним гігантом, щоб побудувати новий центр обробки даних вартістю 100 мільярдів доларів. Виходячи з одних лише цифр, здається, що в майбутньому нас чекає безмежне експоненціальне зростання. Це перегукується з думкою, яку поділяють багато дослідників у галузі штучного інтелекту під назвою "гіпотеза масштабування", а саме, що архітектура нинішніх llms знаходиться на шляху до розблокування феноменального прогресу. Все, що потрібно для того, щоб перевершити людські здібності, згідно з гіпотезою, - це більше даних і потужніші комп'ютерні чіпи.

Однак, якщо придивитися уважніше до технічного кордону, то стають очевидними деякі страхітливі перешкоди.

Краси недостатньо

Дані цілком можуть бути найбільш вузьким місцем. За оцінками дослідницької компанії Epoch ai, колодязь високоякісних текстових даних у загальнодоступному інтернеті вичерпається до 2026 року. Це змусило дослідників шукати нові ідеї. Деякі лабораторії звертаються до приватної мережі, купуючи дані у брокерів і новинних сайтів. Інші звертаються до величезних обсягів аудіо- та візуальних даних в Інтернеті, які можна використовувати для навчання все більших моделей протягом десятиліть. Відео може бути особливо корисним у навчанні АІ-моделей фізики навколишнього світу. Якщо модель може спостерігати за м'ячем, що летить у повітрі, їй буде легше розв'язати математичне рівняння, яке описує рух снаряда. Провідні моделі, такі як gpt-4 і Gemini, зараз є "мультимодальними", здатними працювати з різними типами даних.

Коли дані більше не можна знайти, їх можна створити. Такі компанії, як Scale ai і Surge ai, створили великі мережі людей, які генерують і коментують дані, в тому числі докторів наук, які вирішують проблеми з математики або біології. За оцінками одного з керівників провідного AI-стартапу, це обходиться AI-лабораторіям у сотні мільйонів доларів на рік. Дешевший підхід передбачає створення "синтетичних даних", в яких один llm створює мільярди сторінок тексту для навчання другої моделі. Але цей метод може мати проблеми: моделі, навчені таким чином, можуть втратити минулі знання і генерувати нетворчі відповіді. Більш плідним способом навчання АІ-моделей на синтетичних даних є їхнє навчання у співпраці чи змаганні. Дослідники називають це "самостійною грою". У 2017 році Google DeepMind, AI-лабораторія пошукового гіганта, розробила модель під назвою AlphaGo, яка після тренування проти самої себе перемогла чемпіона світу з гри в го серед людей. Зараз Google та інші фірми використовують подібні методи у своїх новітніх ШІ.

Поширення таких ідей, як "самогра", на нові домени є актуальною темою досліджень. Але більшість реальних проблем - від управління бізнесом до того, щоб бути хорошим лікарем - є складнішими, ніж гра, без чітких виграшних ходів. Ось чому для таких складних областей дані для навчання моделей все ще потрібні від людей, які можуть відрізнити відповіді хорошої якості від відповідей поганої якості. Це, в свою чергу, уповільнює процес.

Більше кремнію, але нехай це буде модно

Краще апаратне забезпечення - ще один шлях до потужніших моделей. Графічні процесори (gpus), спочатку розроблені для відеоігор, стали основним чіпом для більшості програмістів штучного інтелекту завдяки своїй здатності виконувати інтенсивні обчислення паралельно. Один із способів розблокувати нові можливості може полягати у використанні чіпів, розроблених спеціально для моделей штучного інтелекту. Компанія Cerebras, виробник мікросхем з Кремнієвої долини, у березні випустила продукт, що містить у 50 разів більше транзисторів, ніж найбільший графічний процесор. Побудова моделей зазвичай ускладнюється тим, що дані повинні постійно завантажуватися в графічний процесор і вивантажуватися з нього в процесі навчання моделі. Гігантський чіп Cerebras, навпаки, має вбудовану пам'ять.

Нові моделі, які зможуть скористатися перевагами цих досягнень, будуть надійнішими і краще оброблятимуть складні запити користувачів. Одним із способів цього є збільшення "контекстних вікон" - кількості тексту, зображень чи відео, які користувач може завантажити в модель під час запиту. Збільшення контекстних вікон, які дозволяють користувачам завантажувати додаткову релевантну інформацію, також видається ефективним способом боротьби з галюцинаціями - схильністю АІ-моделей впевнено відповідати на запитання, використовуючи вигадану інформацію.

Але поки одні розробники моделей змагаються за більше ресурсів, інші бачать ознаки того, що гіпотеза масштабування має проблеми. Фізичні обмеження - недостатня пам'ять, скажімо, або зростаючі витрати на електроенергію - накладають практичні обмеження на більші моделі. Ще більше занепокоєння викликає те, що незрозуміло, чи розширення контекстних вікон буде достатнім для подальшого прогресу. Ян Лекун (Yann LeCun), провідний ай-бофін, який зараз працює в Meta, є одним з багатьох, хто вважає, що обмеження в нинішніх AI-моделях не можна виправити за допомогою ще більшої кількості таких самих.

Тому деякі вчені звертаються до давнього джерела натхнення в галузі ШІ - людського мозку. Середньостатистична доросла людина може міркувати і планувати набагато краще, ніж найкращі llm, незважаючи на те, що використовує менше енергії і набагато менше даних. "ШІ потребує кращих алгоритмів навчання, і ми знаємо, що вони можливі, тому що вони є у вашому мозку", - каже Педро Домінгос, комп'ютерний науковець з Вашингтонського університету.

Однією з проблем, за його словами, є алгоритм, за яким навчаються llm, що називається зворотним поширенням. Всі llm - це нейронні мережі, розташовані шарами, які отримують вхідні дані і перетворюють їх для прогнозування результатів. Коли llm перебуває у фазі навчання, він порівнює свої прогнози з версією реальності, що міститься в його навчальних даних. Якщо вони розходяться, алгоритм вносить невеликі зміни до кожного шару мережі, щоб покращити майбутні прогнози. Це робить його обчислювально інтенсивним та інкрементальним.

An image of an eye dissipating from a computer chip

Нейронні мережі в сучасних llms також неефективно структуровані. З 2017 року більшість моделей AI-моделей використовують тип нейромережевої архітектури, відомий як трансформатор ("t" в gpt), що дозволяє їм встановлювати зв'язки між бітами даних, які знаходяться далеко один від одного в наборі даних. Попередні підходи намагалися встановити такі далекі зв'язки. Наприклад, якщо трансформаторну модель попросити написати текст пісні, вона може в своїй коді повторити рядки з багатьох попередніх куплетів, тоді як більш примітивна модель забула б про початок пісні до того часу, як дійшла б до її кінця. Трансформери також можна запускати на багатьох процесорах одночасно, що значно скорочує час, необхідний для їхнього навчання.

Альберт Гу, комп'ютерний науковець з Університету Карнегі-Меллона, тим не менш, вважає, що час трансформерів незабаром може добігти кінця. Масштабування їхніх контекстних вікон є вкрай неефективним з точки зору обчислень: коли вхідні дані подвоюються, обсяг обчислень, необхідних для їхньої обробки, збільшується вчетверо. Разом з Трі Дао з Прінстонського університету доктор Гу розробив альтернативну архітектуру під назвою Mamba. Якщо, за аналогією, трансформатор читає всі сторінки книги за один раз, то Mamba читає їх послідовно, оновлюючи своє світосприйняття в міру просування вперед. Це не лише ефективніше, але й більш наближено до того, як працює людське сприйняття.

LLM також потребують допомоги, щоб навчитися краще міркувати та планувати. Андрій Карпатій, дослідник, який раніше працював в Openai, пояснив у нещодавньому виступі, що нинішні LLM здатні мислити лише "системою 1". У людей це автоматичний режим мислення, який бере участь у прийнятті швидких рішень. На противагу цьому, мислення "системи 2" є повільнішим, більш свідомим і включає в себе ітерації. Для систем штучного інтелекту це може вимагати алгоритмів, здатних до так званого пошуку - здатності окреслити і дослідити багато різних варіантів дій, перш ніж вибрати найкращий. Це схоже на те, як моделі штучного інтелекту, що грають в ігри, можуть вибирати найкращі ходи після вивчення декількох варіантів.

Вдосконалене планування за допомогою пошуку є основним напрямком сучасних зусиль. Доктор Лекун з компанії Meta, наприклад, намагається запрограмувати здатність міркувати і робити прогнози безпосередньо в АІ-системі. У 2022 році він запропонував фреймворк під назвою "Joint Embedding Predictive Architecture" (jepa), який навчений передбачати більші фрагменти тексту або зображень за один крок, ніж сучасні моделі генеративного ШІ. Це дозволяє їй зосередитися на глобальних особливостях набору даних. Наприклад, при аналізі зображень тварин модель на основі джепи може швидше зосередитися на розмірі, формі та кольорі, а не на окремих ділянках хутра. Сподіваємося, що завдяки абстрагуванню джепа навчається ефективніше, ніж генеративні моделі, які відволікаються на несуттєві деталі.

Експерименти з такими підходами, як Mamba або jepa, залишаються винятком. Поки дані та обчислювальна потужність не стануть нездоланною перешкодою, трансформантні моделі залишатимуться популярними. Але в міру того, як інженери впроваджуватимуть їх у дедалі складніші додатки, людський досвід залишатиметься важливим для маркування даних. Це може означати повільніший прогрес, ніж раніше. Для того, щоб нове покоління моделей штучного інтелекту приголомшило світ, як це зробив Chatgpt у 2022 році, можуть знадобитися фундаментальні прориви.

Першоджерело: The Economist “Large language models are getting bigger and better”

Більше новин в телеграмі

Поділись своїми ідеями в новій публікації.
Ми чекаємо саме на твій довгочит!
Пащека / Світові новини
Пащека / Світові новини@pascheka

12.6KПрочитань
0Автори
109Читачі
На Друкарні з 15 березня

Більше від автора

  • Болото замість козиря

    Фінансовий скандал у Граці, корупційні розслідування у Відні, посадові махінації в колишніх синіх міністерствах, контакти з російськими олігархами - FPÖ Кікля опинилася у вирі справ.

    Теми цього довгочиту:

    Корупція
  • "Наша Європа може померти": Страшне послання Макрона континенту

    Макрон попередив про загрозу майбутньому ЄС та закликав до більш "суверенної" Європи. Він запропонував ідеї зміцнення ЄС, такі як збільшення бюджету та оборонні преференції. Промова розглядається як передвиборча агітація на тлі відставання партії Макрона в опитуваннях.

    Теми цього довгочиту:

    Європейський Союз

Вам також сподобається

Коментарі (0)

Підтримайте автора першим.
Напишіть коментар!

Вам також сподобається