Друкарня від WE.UA

Як ми всі стали донорами мозку ШІ

Скотт Розенберг (Scott Rosenberg), головний редактор розділу технологій Axios, порушує важливі питання щодо використання даних користувачів для навчання моделей штучного інтелекту. Висновки не втішні.


Бум штучного інтелекту побудований на даних, дані надходять з інтернету, а інтернет - від нас.

Новина: Аналіз Washington Post одного публічного набору даних, який широко використовується для навчання ШІ, показує, наскільки широко сучасна індустрія ШІ використовує 30-річну скарбницю веб-публікацій для навчання своїх нейронних мереж.

Чому це важливо: Ви коли-небудь писали блог? Створювали веб-сторінку? Брали участь у дискусії на Reddit? Швидше за все, ваші слова повсюдно сприяли навчанню чат-ботів зі штучним інтелектом.

Загальна картина: Хоча це масове вербальне перепрофілювання викликає важливу юридичну суперечку про те, чи слід його вважати добросовісним використанням, чи крадіжкою, воно також надихає зводити особисті рахунки багатьох з мільйонів людей, чиї дописи створили сучасний онлайн-світ.

Ми думали, що ділимося своїми серцями та думками, і, звісно, так воно і було.

Але не усвідомлюючи цього, ми також створювали базу даних, неповну, але багату, людського самовираження.

Ця база даних уможливлює неймовірну вправність завершення речень у ChatGPT та його конкурентів.

Оскільки візуальні інструменти ШІ, такі як Dall-E, Midjourney і Stable Diffusion, стали популярними ще до того, як з'явилися текстові чат-боти на кшталт ChatGPT, творці візуального контенту - фотографи, ілюстратори та художники - були першими, хто зіткнувся з цим усвідомленням.

Музиканти стикаються з таким же прозрінням, оскільки вони бачать безліч створених ШІ факсиміле своїх творів - як минулого тижня (уявна) колаборація між Drake та the Weeknd, "Heart on My Sleeve".

Але надрукованих слів в інтернеті набагато більше, ніж коли-небудь записаних пісень або намальованих картин.

Проєкт Washington Post дозволяє вам ввести будь-яке доменне ім'я в інтернеті, щоб побачити, чи було воно внесене до однієї з навчальних баз даних ШІ, і якщо так, то в якій мірі. (Це не та база даних, яку OpenAI використовувала для ChatGPT або інших своїх проєктів; OpenAI не розкрила джерела своїх навчальних даних).

"Набір даних містив понад півмільйона особистих блогів, що становить 3,8 відсотка" від загальної кількості "токенів", або дискретних мовних фрагментів, в даних, які виявила команда Washington Post. (Публікації на пропроїтарних платформах соціальних мереж, таких як Facebook, Instagram і Twitter, не відображаються - ці компанії зберігають доступ до своїх даних для себе).

Зверніть увагу: ці навчальні бази даних величезні, але навряд чи репрезентативні. Деякі культури, групи та предмети є надмірно представлені, в той час як багато інших несправедливо проігноровані. І всі упередження, обмеження і токсичні аспекти інтернет-культури проявляються в навчальних даних ШІ.

Моя інформаційна бульбашка: Особистий блог, який я досить послідовно вів протягом 15 років, добре представлений у наборі даних Washington Post - разом, здається, з більшістю інших матеріалів, які я писав протягом десяти років для веб-журналу, який я допомагав створювати.

Якщо ви маєте будь-яку онлайн-історію, можливість самостійного пошуку, яку надає дослідження Washington Post, просто непереборна, як пошук власного імені в Гуглі. (Існує подібний інструмент пошуку під назвою "Have I Been Trained?" для візуальних робіт).

Коли ви знайдете свою роботу в списку, ви, ймовірно, запитаєте себе, як і я: "Чи це те, чого я хотів?", "Чому зі мною не порадилися?" і "Що, якби я знав, що це станеться?".

Будьте розумними: Жага штучного інтелекту до навчальних даних висвітлює всю 30-річну історію популярного інтернету в новому світлі.

Сьогоднішні прориви в галузі ШІ були б неможливими без наявності цифрових сховищ і звалищ інформації, ідей і почуттів, які інтернет спонукав людей створювати.

Але ми виробляли все це один для одного, а не для ШІ.

З цієї точки зору, існування цих величезних "корпусів" даних було надзвичайно важливим непередбачуваним наслідком розвитку самої мережі.

У 1995 році, коли ціле покоління закохалося в "www" і браузер, або десять років потому, коли інше покоління святкувало появу блогів і "мудрість натовпу", цей результат був прихований від очей.

На початку 2010-х років революція машинного навчання почала викликати занепокоєння у деяких далекоглядних експертів. Але потрібно було дуже довго вдивлятися, щоб побачити, що вся мережа може перетворитися на тренувальний матеріал для штучного інтелекту.

Сьогодні цей непередбачуваний наслідок займає центральне місце в нашому онлайн-досвіді, нагадуючи нам, що все, що ми робимо зараз з ШІ та для ШІ, своєю чергою, формуватиме майбутнє у спосіб, який ми не можемо передбачити.

Наприклад, якщо ми випустимо потік симулякрів у наші публічні мережі, ми ризикуємо відбити у людей бажання продовжувати ділитися або навіть створювати свої власні оригінальні роботи.

Це може призвести до того, що майбутні моделі штучного інтелекту назавжди застрягнуть на застиглому відбитку людства приблизно 2000-2020 років, не маючи нічого нового, на чому можна було б навчитися.

Оригінальна публікація


Сподобалась публікація? Дуже на це сподіваюсь, адже автор відшукував матеріали, перекладав, редагував та адаптував його для того, щоб читання приносило не лише задоволення, але й було корисним. Можете підтримати його донатом. Навіть 1 гривня принесе радість!

Статті про вітчизняний бізнес та цікавих людей:

  • Вітаємо з Різдвом Христовим!

    Друкарня та платформа WE.UA вітають всіх наших читачів та авторів зі світлим святом Різдва! Зичимо всім українцям довгожданого миру, міцного здоровʼя, злагоди, родинного затишку та втілення всього доброго і прекрасного, чого вам побажали колядники!

    Теми цього довгочиту:

    Різдво
  • Каблучки – прикраси, які варто купувати

    Ювелірні вироби – це не тільки спосіб витратити гроші, але і зробити вигідні інвестиції. Бо вартість ювелірних виробів з кожним роком тільки зростає. Тому купуючи стильні прикраси, ви вигідно вкладаєте кошти.

    Теми цього довгочиту:

    Як Вибрати Каблучку
  • П'ять помилок у виборі домашнього текстилю, які псують комфорт сну

    Навіть ідеальний матрац не компенсує дискомфорт, якщо текстиль підібрано неправильно. Постільна білизна безпосередньо впливає на терморегуляцію, стан шкіри та глибину сну. Більшість проблем виникає не через низьку якість виробів, а через вибір матеріалів та подальшу експлуатацію

    Теми цього довгочиту:

    Домашній Текстиль
  • Як знайти житло в Києві

    Переїжджаєте до Києва і шукаєте житло? Дізнайтеся, як орендувати чи купити квартиру, перевірити власника та знайти варіанти, про які зазвичай не говорять.

    Теми цього довгочиту:

    Агентство Нерухомості
  • Як заохотити дитину до читання?

    Як залучити до читання сучасну молодь - поради та факти. Користь читання для дітей - основні переваги. Розвиток дітей - це наше майбутнє.

    Теми цього довгочиту:

    Читання
Поділись своїми ідеями в новій публікації.
Ми чекаємо саме на твій довгочит!
Артем
Артем@artem

Намагається збагнути світ

8.7KПрочитань
8Автори
75Читачі
Підтримати
На Друкарні з 15 квітня

Більше від автора

  • 7 навичок щасливих дітей-мейкерів: практичні поради для підтримки творчого потенціалу

    У цій статті я хочу розглянути сім груп ключових навичок, що допоможуть розкрити потенціал мейкерів-початківців та закладуть міцний фундамент для їхнього подальшого розвитку.

    Теми цього довгочиту:

    Навчання
  • Формула ідеального запиту до ШІ

    Як вчитель, я щодня бачу, як учні та колеги звертаються до штучного інтелекту. І майже завжди спостерігаю одну й ту саму проблему: запити створюються інтуїтивно, без чіткої структури, з купою зайвих оборотів та слів. Давайте це виправимо!

    Теми цього довгочиту:

    Штучний Інтелект
  • Меленькі експерименти: життя як наукова лабораторія

    Як перетворити власне життя на наукову лабораторію, де ви самі формулюєте гіпотези, проводите дослідження та аналізуєте результати, рухаючись до своїх цілей не через жорстке планування, а через гнучке експериментування

    Теми цього довгочиту:

    Продуктивність

Це також може зацікавити:

Коментарі (0)

Підтримайте автора першим.
Напишіть коментар!

Це також може зацікавити: