Financial Times уклало угоду з OpenAI про навчання моделей штучного інтелекту на основі архівного контенту видання. Згідно угоди FT надасть ліцензію на свої матеріали виробнику ChatGPT з метою розробки технології генеративного штучного інтелекту, яка здатна створювати тексти, зображення та код, що майже не відрізняються від творів людини.
Випадок з FT не є поодиноким, а частино ширшого тренду, коли Big Tech компанії шукають можливостей здобути легальні дані для тренування Штучного інтелекту.
Візьмемо наприклад сайт Photobucket, який на початку 2000-х років був найпопулярнішим у світі для розміщення зображень. Будучи медіа-опорою для таких популярних колись сервісів, як Myspace і Friendster, він налічував 70 млн користувачів і становив майже половину американського ринку онлайн-фотографій.
Сьогодні Photobucket все ще використовують лише 2 мільйони людей, згідно з даними аналітичного трекера Similarweb. Втім, революція в галузі генеративного ШІ може дати йому нове життя.
Гендиректор компанії повідомив, що він веде переговори з кількома технологічними компаніями про ліцензування 13 млрд фотографій і відео з Photobucket для навчання генеративних моделей штучного інтелекту, які можуть створювати новий контент у відповідь на текстові підказки. Він обговорював розцінки від 5 центів до 1 долара за фото і більше 1 долара за відео.
Photobucket відмовився назвати своїх потенційних покупців, посилаючись на комерційну таємницю. Такі переговори дозволяють припустити, що компанія може володіти контентом на мільярди доларів, і дають уявлення про метушливий ринок даних, який виникає в поспіху, щоб домінувати в технології генеративного ШІ.
Такі технологічні гіганти, як Google, Meta та OpenAI, що підтримується Microsoft, спочатку безкоштовно використовували масиви даних з Інтернету для навчання генеративних моделей ШІ, таких як ChatGPT, які можуть імітувати людську творчість. Вони заявили, що це законно і етично, хоча їм загрожують судові позови від низки власників авторських прав через цю практику.
Водночас ці технологічні компанії також спокійно платять за контент, заблокований за пейволлами, що породжує приховану торгівлю всім - від чатлогів до давно забутих особистих фотографій з помираючих додатків.
Багато великих компаній, що займаються маркетинговими дослідженнями, кажуть, що вони навіть не починали оцінювати розмір непрозорого ринку даних про ШІ, де компанії часто не розкривають свої угоди. Ті дослідники, які це роблять, наприклад, Business Research Insights, оцінюють ринок приблизно в $2,5 млрд і прогнозують, що протягом десятиліття він може зрости до $30 млрд.
Технологічні компанії заявляють, що технологія була б занадто дорогою, якби вони не могли використовувати величезні архіви безкоштовних даних веб-сторінок, таких як ті, що надаються некомерційним репозиторієм Common Crawl, який вони описують як "загальнодоступний".
Тим не менш, їхній підхід спричинив хвилю позовів про порушення авторських прав і регуляторних суперечок, а також спонукав видавців додавати код на свої веб-сайти для блокування скрейчингу.
За кілька місяців після дебюту ChatGPT наприкінці 2022 року, наприклад, такі компанії, як Meta, Google, Amazon і Apple, уклали угоди з постачальником стокових зображень Shutterstock про використання сотень мільйонів зображень, відео та музичних файлів з його бібліотеки.
Фіндиректор Shutterstock повідомив, сума угод з великими технологічними компаніями спочатку становила від 25 до 50 млн доларів кожна, але згодом більшість з них було розширено. Менші технологічні гравці наслідували цей приклад, що спричинило новий "шквал активності" за останні два місяці.
Конкурент Shutterstock, компанія Freepik, повідомила, що уклала угоди з двома великими технологічними компаніями про ліцензування більшої частини свого архіву з 200 млн зображень за ціною від 2 до 4 центів за зображення. Є ще п'ять подібних угод, які готуються до підписання.
З'являється також індустрія спеціалізованих фірм, що займаються даними ШІ, які отримують права на реальний контент, такий як подкасти, короткометражні відеоролики та взаємодію з цифровими помічниками, а також створюють мережі короткострокових контрактних працівників для створення індивідуальних візуальних і голосових зразків з нуля.
Компанія Defined.ai ліцензує дані низці компаній, включаючи Google, Meta, Apple, Amazon і Microsoft.
Ставки залежать від покупця і типу контенту, але компанії зазвичай готові платити від $1 до $2 за зображення, від $2 до $4 за короткометражне відео і від $100 до $300 за годину повнометражних фільмів. Ринкова ціна за текст становить 0,001 долара за слово.
Генеральний директор Photobucket Леонард стверджує, що він стоїть на міцному юридичному ґрунті, посилаючись на оновлені в жовтні умови надання послуг компанії, які надають їй "необмежене право" продавати будь-який завантажений контент з метою навчання систем штучного інтелекту. Він розглядає ліцензування даних як альтернативу продажу реклами.
Photobucket не єдиний серед платформ, хто використовує ліцензування. Минулого місяця материнська компанія Tumblr, Automattic, заявила, що ділиться контентом з "окремими компаніями, що займаються ШІ". У лютому Reuters повідомило, що Reddit уклав угоду з Google про надання свого контенту для навчання ШІ-моделей останньої.