Як ми всі стали донорами мозку ШІ

Скотт Розенберг (Scott Rosenberg), головний редактор розділу технологій Axios, порушує важливі питання щодо використання даних користувачів для навчання моделей штучного інтелекту. Висновки не втішні.


Бум штучного інтелекту побудований на даних, дані надходять з інтернету, а інтернет - від нас.

Новина: Аналіз Washington Post одного публічного набору даних, який широко використовується для навчання ШІ, показує, наскільки широко сучасна індустрія ШІ використовує 30-річну скарбницю веб-публікацій для навчання своїх нейронних мереж.

Чому це важливо: Ви коли-небудь писали блог? Створювали веб-сторінку? Брали участь у дискусії на Reddit? Швидше за все, ваші слова повсюдно сприяли навчанню чат-ботів зі штучним інтелектом.

Загальна картина: Хоча це масове вербальне перепрофілювання викликає важливу юридичну суперечку про те, чи слід його вважати добросовісним використанням, чи крадіжкою, воно також надихає зводити особисті рахунки багатьох з мільйонів людей, чиї дописи створили сучасний онлайн-світ.

Ми думали, що ділимося своїми серцями та думками, і, звісно, так воно і було.

Але не усвідомлюючи цього, ми також створювали базу даних, неповну, але багату, людського самовираження.

Ця база даних уможливлює неймовірну вправність завершення речень у ChatGPT та його конкурентів.

Оскільки візуальні інструменти ШІ, такі як Dall-E, Midjourney і Stable Diffusion, стали популярними ще до того, як з'явилися текстові чат-боти на кшталт ChatGPT, творці візуального контенту - фотографи, ілюстратори та художники - були першими, хто зіткнувся з цим усвідомленням.

Музиканти стикаються з таким же прозрінням, оскільки вони бачать безліч створених ШІ факсиміле своїх творів - як минулого тижня (уявна) колаборація між Drake та the Weeknd, "Heart on My Sleeve".

Але надрукованих слів в інтернеті набагато більше, ніж коли-небудь записаних пісень або намальованих картин.

Проєкт Washington Post дозволяє вам ввести будь-яке доменне ім'я в інтернеті, щоб побачити, чи було воно внесене до однієї з навчальних баз даних ШІ, і якщо так, то в якій мірі. (Це не та база даних, яку OpenAI використовувала для ChatGPT або інших своїх проєктів; OpenAI не розкрила джерела своїх навчальних даних).

"Набір даних містив понад півмільйона особистих блогів, що становить 3,8 відсотка" від загальної кількості "токенів", або дискретних мовних фрагментів, в даних, які виявила команда Washington Post. (Публікації на пропроїтарних платформах соціальних мереж, таких як Facebook, Instagram і Twitter, не відображаються - ці компанії зберігають доступ до своїх даних для себе).

Зверніть увагу: ці навчальні бази даних величезні, але навряд чи репрезентативні. Деякі культури, групи та предмети є надмірно представлені, в той час як багато інших несправедливо проігноровані. І всі упередження, обмеження і токсичні аспекти інтернет-культури проявляються в навчальних даних ШІ.

Моя інформаційна бульбашка: Особистий блог, який я досить послідовно вів протягом 15 років, добре представлений у наборі даних Washington Post - разом, здається, з більшістю інших матеріалів, які я писав протягом десяти років для веб-журналу, який я допомагав створювати.

Якщо ви маєте будь-яку онлайн-історію, можливість самостійного пошуку, яку надає дослідження Washington Post, просто непереборна, як пошук власного імені в Гуглі. (Існує подібний інструмент пошуку під назвою "Have I Been Trained?" для візуальних робіт).

Коли ви знайдете свою роботу в списку, ви, ймовірно, запитаєте себе, як і я: "Чи це те, чого я хотів?", "Чому зі мною не порадилися?" і "Що, якби я знав, що це станеться?".

Будьте розумними: Жага штучного інтелекту до навчальних даних висвітлює всю 30-річну історію популярного інтернету в новому світлі.

Сьогоднішні прориви в галузі ШІ були б неможливими без наявності цифрових сховищ і звалищ інформації, ідей і почуттів, які інтернет спонукав людей створювати.

Але ми виробляли все це один для одного, а не для ШІ.

З цієї точки зору, існування цих величезних "корпусів" даних було надзвичайно важливим непередбачуваним наслідком розвитку самої мережі.

У 1995 році, коли ціле покоління закохалося в "www" і браузер, або десять років потому, коли інше покоління святкувало появу блогів і "мудрість натовпу", цей результат був прихований від очей.

На початку 2010-х років революція машинного навчання почала викликати занепокоєння у деяких далекоглядних експертів. Але потрібно було дуже довго вдивлятися, щоб побачити, що вся мережа може перетворитися на тренувальний матеріал для штучного інтелекту.

Сьогодні цей непередбачуваний наслідок займає центральне місце в нашому онлайн-досвіді, нагадуючи нам, що все, що ми робимо зараз з ШІ та для ШІ, своєю чергою, формуватиме майбутнє у спосіб, який ми не можемо передбачити.

Наприклад, якщо ми випустимо потік симулякрів у наші публічні мережі, ми ризикуємо відбити у людей бажання продовжувати ділитися або навіть створювати свої власні оригінальні роботи.

Це може призвести до того, що майбутні моделі штучного інтелекту назавжди застрягнуть на застиглому відбитку людства приблизно 2000-2020 років, не маючи нічого нового, на чому можна було б навчитися.

Оригінальна публікація


Сподобалась публікація? Дуже на це сподіваюсь, адже автор відшукував матеріали, перекладав, редагував та адаптував його для того, щоб читання приносило не лише задоволення, але й було корисним. Можете підтримати його донатом. Навіть 1 гривня принесе радість!

Поділись своїми ідеями в новій публікації.
Ми чекаємо саме на твій довгочит!
Артем
Артем@artem

Намагається збагнути світ

4.3KПрочитань
8Автори
45Читачі
Підтримати
На Друкарні з 15 квітня

Більше від автора

  • Провести School Maker Faire і вижити. Власний досвід

    24 травня 2024 року в Ukrainian Global School пройшов School Maker Faire подія, що об'єднала учнів, вчителів та батьків навколо ідей STEAM (наука, технології, інженерія, мистецтво та математика). Це було справжнє свято винахідливості, креативності та практичного навчання.

    Теми цього довгочиту:

    Maker Faire
  • Чому micro:bit краще за Arduino для початкової школи

    В сучасному цифровому світі дуже важливо щоб діти вивчали основи програмування та електроніки. Погодьтесь, якщо ти розумієш, як влаштована та чи інша технологія, у тебе менше шансів потрапити в якесь незручне становище.

    Теми цього довгочиту:

    Освіта
  • “Другий Мозок” своїми руками

    Після невеликої перерви я вирішив повернутися до теми Продуктивності та Роботи з інформацією. Якщо до цього я робив переклади матеріалів, то цей довгочит вже авторський.

    Теми цього довгочиту:

    Продуктивність

Вам також сподобається

Коментарі (0)

Підтримайте автора першим.
Напишіть коментар!

Вам також сподобається