Big Tech компанії перебувають в погоні за тренувальними даними для ШІ

Financial Times уклало угоду з OpenAI про навчання моделей штучного інтелекту на основі архівного контенту видання. Згідно угоди FT надасть ліцензію на свої матеріали виробнику ChatGPT з метою розробки технології генеративного штучного інтелекту, яка здатна створювати тексти, зображення та код, що майже не відрізняються від творів людини.

Логотипи соціальних мереж

Випадок з FT не є поодиноким, а частино ширшого тренду, коли Big Tech компанії шукають можливостей здобути легальні дані для тренування Штучного інтелекту.

Візьмемо наприклад сайт Photobucket, який на початку 2000-х років був найпопулярнішим у світі для розміщення зображень. Будучи медіа-опорою для таких популярних колись сервісів, як Myspace і Friendster, він налічував 70 млн користувачів і становив майже половину американського ринку онлайн-фотографій.

Сьогодні Photobucket все ще використовують лише 2 мільйони людей, згідно з даними аналітичного трекера Similarweb. Втім, революція в галузі генеративного ШІ може дати йому нове життя.

Гендиректор компанії повідомив, що він веде переговори з кількома технологічними компаніями про ліцензування 13 млрд фотографій і відео з Photobucket для навчання генеративних моделей штучного інтелекту, які можуть створювати новий контент у відповідь на текстові підказки. Він обговорював розцінки від 5 центів до 1 долара за фото і більше 1 долара за відео.

Генеральний директор Photobucket Тед Леонард

Photobucket відмовився назвати своїх потенційних покупців, посилаючись на комерційну таємницю. Такі переговори дозволяють припустити, що компанія може володіти контентом на мільярди доларів, і дають уявлення про метушливий ринок даних, який виникає в поспіху, щоб домінувати в технології генеративного ШІ.

Такі технологічні гіганти, як Google, Meta та OpenAI, що підтримується Microsoft, спочатку безкоштовно використовували масиви даних з Інтернету для навчання генеративних моделей ШІ, таких як ChatGPT, які можуть імітувати людську творчість. Вони заявили, що це законно і етично, хоча їм загрожують судові позови від низки власників авторських прав через цю практику.

Водночас ці технологічні компанії також спокійно платять за контент, заблокований за пейволлами, що породжує приховану торгівлю всім - від чатлогів до давно забутих особистих фотографій з помираючих додатків.

Багато великих компаній, що займаються маркетинговими дослідженнями, кажуть, що вони навіть не починали оцінювати розмір непрозорого ринку даних про ШІ, де компанії часто не розкривають свої угоди. Ті дослідники, які це роблять, наприклад, Business Research Insights, оцінюють ринок приблизно в $2,5 млрд і прогнозують, що протягом десятиліття він може зрости до $30 млрд.

Технологічні компанії заявляють, що технологія була б занадто дорогою, якби вони не могли використовувати величезні архіви безкоштовних даних веб-сторінок, таких як ті, що надаються некомерційним репозиторієм Common Crawl, який вони описують як "загальнодоступний".

Тим не менш, їхній підхід спричинив хвилю позовів про порушення авторських прав і регуляторних суперечок, а також спонукав видавців додавати код на свої веб-сайти для блокування скрейчингу.

За кілька місяців після дебюту ChatGPT наприкінці 2022 року, наприклад, такі компанії, як Meta, Google, Amazon і Apple, уклали угоди з постачальником стокових зображень Shutterstock про використання сотень мільйонів зображень, відео та музичних файлів з його бібліотеки.

Фіндиректор Shutterstock повідомив, сума угод з великими технологічними компаніями спочатку становила від 25 до 50 млн доларів кожна, але згодом більшість з них було розширено. Менші технологічні гравці наслідували цей приклад, що спричинило новий "шквал активності" за останні два місяці.

Логотип компанії Shutterstock

Конкурент Shutterstock, компанія Freepik, повідомила, що уклала угоди з двома великими технологічними компаніями про ліцензування більшої частини свого архіву з 200 млн зображень за ціною від 2 до 4 центів за зображення. Є ще п'ять подібних угод, які готуються до підписання.

З'являється також індустрія спеціалізованих фірм, що займаються даними ШІ, які отримують права на реальний контент, такий як подкасти, короткометражні відеоролики та взаємодію з цифровими помічниками, а також створюють мережі короткострокових контрактних працівників для створення індивідуальних візуальних і голосових зразків з нуля.

Компанія Defined.ai ліцензує дані низці компаній, включаючи Google, Meta, Apple, Amazon і Microsoft.

Ставки залежать від покупця і типу контенту, але компанії зазвичай готові платити від $1 до $2 за зображення, від $2 до $4 за короткометражне відео і від $100 до $300 за годину повнометражних фільмів. Ринкова ціна за текст становить 0,001 долара за слово.

Генеральний директор Photobucket Леонард стверджує, що він стоїть на міцному юридичному ґрунті, посилаючись на оновлені в жовтні умови надання послуг компанії, які надають їй "необмежене право" продавати будь-який завантажений контент з метою навчання систем штучного інтелекту. Він розглядає ліцензування даних як альтернативу продажу реклами.

Photobucket не єдиний серед платформ, хто використовує ліцензування. Минулого місяця материнська компанія Tumblr, Automattic, заявила, що ділиться контентом з "окремими компаніями, що займаються ШІ". У лютому Reuters повідомило, що Reddit уклав угоду з Google про надання свого контенту для навчання ШІ-моделей останньої.

Поділись своїми ідеями в новій публікації.
Ми чекаємо саме на твій довгочит!
Останній Капіталіст
Останній Капіталіст@OstanniyCapitalist

Українська націонал-буржуазія

103.2KПрочитань
0Автори
737Читачі
На Друкарні з 7 серпня

Більше від автора

  • Енергетичні підсумки червня

    Через переведення частини енергоблоків українських АЕС у плановий ремонт (що забезпечить їх стабільну роботу взимку) та збільшення середньодобової температури, частота та довжина стабілізаційних відключень у червні значно зросла.

    Теми цього довгочиту:

    Енергетика
  • Франція - чому на виборах палає ?

    Цієї неділі пройде перший тур парламентських виборів, і це буде мати неабиякий вплив на майбутнє Пятої Республіки. Бажаємо приємного читання.

    Теми цього довгочиту:

    Франція
  • Ближчий погляд на іноземні інвестиції в казначейські облігації США

    Казначейство США нещодавно почало публікувати зміни в оцінці як частину нової розширеної форми TIC щодо довгострокових цінних паперів (TIC SLT), щоб відрізняти зміни в транскордонних інвестиціях, пов'язані з чистими надходженнями, від тих, що пов'язані з оцінкою.

    Теми цього довгочиту:

    Економіка

Вам також сподобається

Коментарі (0)

Підтримайте автора першим.
Напишіть коментар!

Вам також сподобається