GTP-4o - нові можливості від OpenAI

Зміст

OpenAI анонсували нову флагманську модель GPT-4o, яка може міркувати між аудіо, відео та текстом у реальному часі.


Коротко про можливості нової моделі


GPT-4o, де “o” ( for “omni”, означає "всеосяжний"), - це значний крок до більш природної взаємодії людини з комп'ютером. Ця модель може сприймати й обробляти інформацію у різних форматах: текст, аудіо, зображення та відео, а також генерувати відповіді у будь-якому з цих форматів.

Швидкість вражає: GPT-4o реагує на аудіозапити всього за 232 мілісекунди в середньому, що практично дорівнює швидкості реакції людини.

Покращена продуктивність: GPT-4o демонструє таку ж продуктивність, як і GPT-4 Turbo, що стосується обробки англійського тексту та коду. При цьому вона значно краща в обробці тексту на інших мовах.

Доступність: GPT-4o не лише потужніша, але й економніша. Її API на 50% дешевше, ніж API GPT-4 Turbo.

Особливі здібності: GPT-4o має значно кращі, ніж у попередніх моделей, можливості розуміння візуальної та аудіоінформації.


Дві GPT-4o взаємодіють між собою

Переклад у реальному часу

Колискові та демонстрація шепоту

Конференція разом з GPT-4o

Сарказм від GPT-4o

Математичні задачі

Вивчення іспанської за допомогою GPT-4o

Гра камінь ножиці папір з GPT-4o

Гармонія з двома GPT-4o

Підготовка до співбесіди

Зустріч GPT-4o з собакою

Доступність "Будь моїми очима" GPT-4o

Привітання з днем народження

GPT-4o оцінює жарт

Підрахунок з GPT-4o

Демонстрація розмовної мови GPT-4o в реальному часі

Демонстрація варіацій голосу GPT4-o

Можливостей технічного зору GPT-4o в реальному часі

Демонстрація асистента кодування GPT-4o та десктопної програми

Переклад GPT-4o в реальному часі

Можливостей технічного зору GPT-4o в реальному часі

Оцінка моделі GPT-4o

За результатами тестування на стандартних оцінювальних показниках, GPT-4o демонструє рівень продуктивності, аналогічний GPT-4 Turbo, що стосується обробки тексту, логічного міркування та розуміння коду. Водночас, GPT-4o встановлює нові рекорди за своїми можливостями працювати з багатомовними текстами, аудіо та візуальною інформацією.

Оцінка тексту

Покращене міркування - GPT-4o показав новий високий результат 88,7% на тест COT MMLU (питання на загальні знання) з нульовою відповіддю. Всі ці оцінки були зібрані за допомогою нашої нової бібліотеки simple evals (відкриється в новому вікні). Крім того, на традиційному 5-ти пострільному тесті без COT MMLU GPT-4o показав новий високий результат 87,2%. (Примітка: Llama3 400b(відкриється в новому вікні) все ще тренується)

Ефективність аудіо ASR

Продуктивність аудіо ASR - GPT-4o значно покращує продуктивність розпізнавання мовлення порівняно з Whisper-v3 для всіх мов, особливо для мов з низьким рівнем ресурсів.

Ефективність аудіоперекладу

Ефективність аудіоперекладу - GPT-4o встановлює нові стандарти перекладу мовлення та перевершує Whisper-v3 у тесті MLS.

Результати нульового тесту M3Exam

M3Exam - Оцінка M3Exam є багатомовним і візуальним оцінюванням, що складається з питань з множинним вибором зі стандартизованих тестів інших країн, які іноді містять фігури та діаграми. GPT-4o перевершує GPT-4 за цим показником для всіх мов. (Результати перевірки зору для суахілі та яванської не враховуються, оскільки для цих мов є лише 5 або менше питань із перевірки зору.)

Оцінки розуміння тексту зоровим аналізатором

Оцінювання розуміння зображень - GPT-4o демонструє найкращі на сьогоднішній день результати за показниками візуального сприйняття. Усі оцінювання зору проводяться без попереднього навчання (zero-shot), при цьому MMMU, MathVista та ChartQA є завданнями CoT без попереднього навчання.

Основні тези з безпеки GPT-4o

  • Вбудована безпека: GPT-4o розроблена з урахуванням безпеки на всіх рівнях, включаючи фільтрацію даних, налаштування поведінки моделі та нові системи безпеки для голосових функцій.

  • Оцінка ризиків: Незалежна оцінка показала, що GPT-4o несе середній рівень ризику за кібербезпекою, ХБРЯ, переконанням та автономією моделі.

  • Зовнішнє тестування: Розширене тестування з залученням понад 70 експертів допомогло виявити та пом'якшити потенційні ризики.

  • Контрольоване впровадження аудіоможливостей: Аудіофункції будуть випущені пізніше з обмеженими голосами та суворим дотриманням політик безпеки.

  • Відомі обмеження: GPT-4o, як і будь-яка модель машинного навчання, має певні обмеження, які будуть детально описані в документації.

  • Постійне вдосконалення: Ми прагнемо постійно вдосконалювати безпеку GPT-4o, виявляючи та усуваючи ризики в міру їх виникнення.


GPT-4o - це нова модель штучного інтелекту, яка відкриває нові горизонти для взаємодії людини з комп'ютером. Її швидкість, універсальність та доступність роблять її цінним інструментом для широкого кола завдань.

Основні джерела інформації

https://openai.com/

Поділись своїми ідеями в новій публікації.
Ми чекаємо саме на твій довгочит!
Технологічний ритм
Технологічний ритм@TechRhythm

ШІ, Web3, Інновації

856Прочитань
0Автори
5Читачі
На Друкарні з 6 квітня

Більше від автора

  • Dream Machine by Luma Labs

    Машина мрії (Dream Machine) створює високоякісні, реалістичні відео з тексту та зображень, використовуючи високомасштабовану та ефективну модель трансформації.

    Теми цього довгочиту:

    Штучний Інтелект
  • Veo - Генерація відео від Google

    Як кажуть самі Google, Veo - це їх найпотужніша на сьогоднішній день модель для створення відео. Вона може генерувати високоякісні відео з роздільною здатністю 1080p, тривалістю хвилина, у широкому діапазоні кінематографічних та візуальних стилів.

    Теми цього довгочиту:

    Штучний Інтелект
  • LTX Studio - платформа для створення фільмів

    Компанія Lightricks анонсувала новий інструмент для створення відеороликів на основі штучного інтелекту під назвою LTX Studio. Ця інноваційна платформа є першою у своєму роді, яка використовує генеративний ШІ

    Теми цього довгочиту:

    Штучний Інтелект

Вам також сподобається

Коментарі (0)

Підтримайте автора першим.
Напишіть коментар!

Вам також сподобається