Українська націонал-буржуазія

Big Tech компанії перебувають в погоні за тренувальними даними для ШІ

19 травня 6 хв читати

Financial Times уклало угоду з OpenAI про навчання моделей штучного інтелекту на основі архівного контенту видання. Згідно угоди FT надасть ліцензію на свої матеріали виробнику ChatGPT з метою розробки технології генеративного штучного інтелекту, яка здатна створювати тексти, зображення та код, що майже не відрізняються від творів людини.

Випадок з FT не є поодиноким, а частино ширшого тренду, коли Big Tech компанії шукають можливостей здобути легальні дані для тренування Штучного інтелекту.

Візьмемо наприклад сайт Photobucket, який на початку 2000-х років був найпопулярнішим у світі для розміщення зображень. Будучи медіа-опорою для таких популярних колись сервісів, як Myspace і Friendster, він налічував 70 млн користувачів і становив майже половину американського ринку онлайн-фотографій.

Сьогодні Photobucket все ще використовують лише 2 мільйони людей, згідно з даними аналітичного трекера Similarweb. Втім, революція в галузі генеративного ШІ може дати йому нове життя.

Гендиректор компанії повідомив, що він веде переговори з кількома технологічними компаніями про ліцензування 13 млрд фотографій і відео з Photobucket для навчання генеративних моделей штучного інтелекту, які можуть створювати новий контент у відповідь на текстові підказки. Він обговорював розцінки від 5 центів до 1 долара за фото і більше 1 долара за відео.

Генеральний директор Photobucket Тед Леонард

Photobucket відмовився назвати своїх потенційних покупців, посилаючись на комерційну таємницю. Такі переговори дозволяють припустити, що компанія може володіти контентом на мільярди доларів, і дають уявлення про метушливий ринок даних, який виникає в поспіху, щоб домінувати в технології генеративного ШІ.

Такі технологічні гіганти, як Google, Meta та OpenAI, що підтримується Microsoft, спочатку безкоштовно використовували масиви даних з Інтернету для навчання генеративних моделей ШІ, таких як ChatGPT, які можуть імітувати людську творчість. Вони заявили, що це законно і етично, хоча їм загрожують судові позови від низки власників авторських прав через цю практику.

Водночас ці технологічні компанії також спокійно платять за контент, заблокований за пейволлами, що породжує приховану торгівлю всім - від чатлогів до давно забутих особистих фотографій з помираючих додатків.

Багато великих компаній, що займаються маркетинговими дослідженнями, кажуть, що вони навіть не починали оцінювати розмір непрозорого ринку даних про ШІ, де компанії часто не розкривають свої угоди. Ті дослідники, які це роблять, наприклад, Business Research Insights, оцінюють ринок приблизно в $2,5 млрд і прогнозують, що протягом десятиліття він може зрости до $30 млрд.

Технологічні компанії заявляють, що технологія була б занадто дорогою, якби вони не могли використовувати величезні архіви безкоштовних даних веб-сторінок, таких як ті, що надаються некомерційним репозиторієм Common Crawl, який вони описують як "загальнодоступний".

Тим не менш, їхній підхід спричинив хвилю позовів про порушення авторських прав і регуляторних суперечок, а також спонукав видавців додавати код на свої веб-сайти для блокування скрейчингу.

За кілька місяців після дебюту ChatGPT наприкінці 2022 року, наприклад, такі компанії, як Meta, Google, Amazon і Apple, уклали угоди з постачальником стокових зображень Shutterstock про використання сотень мільйонів зображень, відео та музичних файлів з його бібліотеки.

Фіндиректор Shutterstock повідомив, сума угод з великими технологічними компаніями спочатку становила від 25 до 50 млн доларів кожна, але згодом більшість з них було розширено. Менші технологічні гравці наслідували цей приклад, що спричинило новий "шквал активності" за останні два місяці.

Конкурент Shutterstock, компанія Freepik, повідомила, що уклала угоди з двома великими технологічними компаніями про ліцензування більшої частини свого архіву з 200 млн зображень за ціною від 2 до 4 центів за зображення. Є ще п'ять подібних угод, які готуються до підписання.

З'являється також індустрія спеціалізованих фірм, що займаються даними ШІ, які отримують права на реальний контент, такий як подкасти, короткометражні відеоролики та взаємодію з цифровими помічниками, а також створюють мережі короткострокових контрактних працівників для створення індивідуальних візуальних і голосових зразків з нуля.

Компанія Defined.ai ліцензує дані низці компаній, включаючи Google, Meta, Apple, Amazon і Microsoft.

Ставки залежать від покупця і типу контенту, але компанії зазвичай готові платити від $1 до $2 за зображення, від $2 до $4 за короткометражне відео і від $100 до $300 за годину повнометражних фільмів. Ринкова ціна за текст становить 0,001 долара за слово.

Генеральний директор Photobucket Леонард стверджує, що він стоїть на міцному юридичному ґрунті, посилаючись на оновлені в жовтні умови надання послуг компанії, які надають їй "необмежене право" продавати будь-який завантажений контент з метою навчання систем штучного інтелекту. Він розглядає ліцензування даних як альтернативу продажу реклами.

Photobucket не єдиний серед платформ, хто використовує ліцензування. Минулого місяця материнська компанія Tumblr, Automattic, заявила, що ділиться контентом з "окремими компаніями, що займаються ШІ". У лютому Reuters повідомило, що Reddit уклав угоду з Google про надання свого контенту для навчання ШІ-моделей останньої.

Штучний Інтелект Технології

Статті про вітчизняний бізнес та цікавих людей:

Л
Леруа@leroymerlin.ua
Розкладний садовий стілець: огляд варіантів від «ЛЕРУА МЕРЛЕН» для дачі та тераси
Мобільні розкладні стільці — елемент комфортного відпочинку на відкритій дачній ділянці, терасі, патіо, в альтанці тощо. На відміну від стаціонарних крісел і диванів, це меблі, які легко переносити з місця на місце, ховати в приміщенні від дощу і брати з собою на заміські пікніки
Дата публікації: 3 дн. томуЧас на прочитання: 4 хв читати
Теми цього довгочиту:
Садові Меблі
Kreisel UA@kreisel
Завод у Фастові: як КРАЙЗЕЛЬ будує українське виробництво світової якості?
Завод німецької компанії КРАЙЗЕЛЬ у Фастові функціонує за суворими німецькими стандартами, випускаючи продукцію з високими експлуатаційними характеристиками і стабільною європейською якістю
Дата публікації: 5 дн. томуЧас на прочитання: 3 хв читати
Теми цього довгочиту:
Будматеріали
Cambridge.ua@cambridge.ua
Індивідуальне чи групове вивчення англійської? Порівняння від експертів Cambridge.ua
Питання, яке постає перед кожним, хто вирішив серйозно зайнятися англійською мовою: обирати індивідуальні заняття чи навчатися в групі? Однозначної відповіді тут немає — все залежить від цілей, бюджету, особистих рис характеру та темпу, який комфортний для студента.
Дата публікації: 29 червняЧас на прочитання: 9 хв читати
Теми цього довгочиту:
Курси Англійської
HEMO MEDICA@hemomedika.ua
Медичний центр в Ужгороді: діагностика, консультації, зручність
Коли потрібна не лише консультація одного лікаря, а повний медичний супровід, важливо обрати місце, де можна пройти діагностику, отримати рекомендації та за потреби швидко перейти до наступного етапу обстеження. Саме так працює ГЕМО МЕДИКА — сучасна клініка в Ужгороді.
Дата публікації: 29 червняЧас на прочитання: 4 хв читати
Теми цього довгочиту:
Медичний Центр
ULF@ulf.ua
Автомобіль як робочий інструмент, а не заморожений капітал
Дізнайтесь про переваги лізингу автомобілів для бізнесу. Швидкість доставки, мобільність працівників та виконання замовлень за допомогою лізингу авто.
Дата публікації: 29 червняЧас на прочитання: 3 хв читати
Теми цього довгочиту:
Лізинг

Поділись своїми ідеями в новій публікації.
Ми чекаємо саме на твій довгочит!

Написати

Останній Капіталіст@OstanniyCapitalist

Українська націонал-буржуазія

112Довгочити

169.8KПерегляди

867Підписники

Підтримати

На Друкарні з 7 серпня 2023

Більше від автора

Нова ідея-фікс українських урядовців
У вівторок головний фіскалізатор країни Данило Гетманцев виступив з доволі неочікуваною заявою: а давайте спрямуємо частину доходу українців у ОВДП, а не просто в податки. Ну і підкріпив цю пропозицію подібним ізраїльським досвідом та апеляцією до інших прикладів з історії.
Дата публікації: 7 листопадаЧас на прочитання: 9 хв читати
Теми цього довгочиту:
Економіка
Якою була зовнішня політика президента Дональда Трампа?
Трамп міг одночасно погрожувати Північній Кореї “вогнем і люттю” і провести три дружні саміти з Кім Чен Ином. Міг бомбардувати крилатими ракетами сирійський військовий аеродром, а пізніше оголосити про виведення з Сирії 2000 американських військовослужбовців.
Дата публікації: 1 листопадаЧас на прочитання: 13 хв читати
Теми цього довгочиту:
Трамп
Чим Байден запам'ятався світу
Президентство Байдена стало знаковим під час глобальних криз, таких як пандемія COVID-19 та війна в Україні. У цій статті ми розглянемо, чим він запам'ятався світові.
Дата публікації: 29 жовтняЧас на прочитання: 6 хв читати
Теми цього довгочиту:
Сша

Це також може зацікавити:

Kateryna Fedorova@AI.Mentor
Повний пошаговий гід по DeepSeak для українського бізнесу 🚀
DeepSeak — це потужна технологія штучного інтелекту для аналізу, обробки та генерації текстових даних, яка дозволяє бізнесу автоматизувати рутинні завдання, покращити комунікацію з клієнтами та оптимізувати робочі процеси. Це можливість конкурувати з великими компаніями.
Дата публікації: 24 березняЧас на прочитання: 12 хв читати
Теми цього довгочиту:
Штучний Інтелект
Юра@kotovich
Chat.z.ai у 2025: Що це, можливості, тарифи та свіжий огляд
Chat.z.ai — потужний AI-чат від китайської компанії Zhipu AI (Z.ai), що працює на моделях GLM-4.6 та GLM-4.5. Це прямий конкурент ChatGPT, Claude та Grok, орієнтований на швидкість, кодинг, креатив та продуктивність.
Дата публікації: 10 листопадаЧас на прочитання: 3 хв читати
Теми цього довгочиту:
Chat Z Ai Що Це
D. Sukhachov Dyonya Demon@Ratibor
3Д персептрон Сухачова і взагалі нове слово в програмуванні:)
Привіт друже в мене питання що буде якщо переформатувати перцетрон в 3D модель і ваги використовувати не як конкретне число а як набір параметрів в умовному просторі? Звичайно для цього нам потрібно буде умовна среда в середині перцептрона.
Дата публікації: 16 грудняЧас на прочитання: 10 хв читати
Теми цього довгочиту:
Штучний Інтелект

Нова ідея-фікс українських урядовців

Теми цього довгочиту:

Якою була зовнішня політика президента Дональда Трампа?

Теми цього довгочиту:

Чим Байден запам'ятався світу

Теми цього довгочиту:

Статті про вітчизняний бізнес та цікавих людей:

Розкладний садовий стілець: огляд варіантів від «ЛЕРУА МЕРЛЕН» для дачі та тераси

Теми цього довгочиту:

Завод у Фастові: як КРАЙЗЕЛЬ будує українське виробництво світової якості?

Теми цього довгочиту:

Індивідуальне чи групове вивчення англійської? Порівняння від експертів Cambridge.ua

Теми цього довгочиту:

Медичний центр в Ужгороді: діагностика, консультації, зручність

Теми цього довгочиту:

Автомобіль як робочий інструмент, а не заморожений капітал

Теми цього довгочиту:

Більше від автора

Нова ідея-фікс українських урядовців

Теми цього довгочиту:

Якою була зовнішня політика президента Дональда Трампа?

Теми цього довгочиту:

Чим Байден запам'ятався світу

Теми цього довгочиту:

Це також може зацікавити:

Повний пошаговий гід по DeepSeak для українського бізнесу 🚀

Теми цього довгочиту:

Chat.z.ai у 2025: Що це, можливості, тарифи та свіжий огляд

Теми цього довгочиту:

3Д персептрон Сухачова і взагалі нове слово в програмуванні:)

Теми цього довгочиту:

Коментарі (0)

Це також може зацікавити:

Повний пошаговий гід по DeepSeak для українського бізнесу 🚀

Теми цього довгочиту:

Chat.z.ai у 2025: Що це, можливості, тарифи та свіжий огляд

Теми цього довгочиту:

3Д персептрон Сухачова і взагалі нове слово в програмуванні:)

Теми цього довгочиту: