OpenAI анонсували нову флагманську модель GPT-4o, яка може міркувати між аудіо, відео та текстом у реальному часі.
Коротко про можливості нової моделі
GPT-4o, де “o” ( for “omni”, означає "всеосяжний"), - це значний крок до більш природної взаємодії людини з комп'ютером. Ця модель може сприймати й обробляти інформацію у різних форматах: текст, аудіо, зображення та відео, а також генерувати відповіді у будь-якому з цих форматів.
Швидкість вражає: GPT-4o реагує на аудіозапити всього за 232 мілісекунди в середньому, що практично дорівнює швидкості реакції людини.
Покращена продуктивність: GPT-4o демонструє таку ж продуктивність, як і GPT-4 Turbo, що стосується обробки англійського тексту та коду. При цьому вона значно краща в обробці тексту на інших мовах.
Доступність: GPT-4o не лише потужніша, але й економніша. Її API на 50% дешевше, ніж API GPT-4 Turbo.
Особливі здібності: GPT-4o має значно кращі, ніж у попередніх моделей, можливості розуміння візуальної та аудіоінформації.
Дві GPT-4o взаємодіють між собою
Переклад у реальному часу
Колискові та демонстрація шепоту
Конференція разом з GPT-4o
Сарказм від GPT-4o
Математичні задачі
Вивчення іспанської за допомогою GPT-4o
Гра камінь ножиці папір з GPT-4o
Гармонія з двома GPT-4o
Підготовка до співбесіди
Зустріч GPT-4o з собакою
Доступність "Будь моїми очима" GPT-4o
Привітання з днем народження
GPT-4o оцінює жарт
Підрахунок з GPT-4o
Демонстрація розмовної мови GPT-4o в реальному часі
Демонстрація варіацій голосу GPT4-o
Можливостей технічного зору GPT-4o в реальному часі
Демонстрація асистента кодування GPT-4o та десктопної програми
Переклад GPT-4o в реальному часі
Можливостей технічного зору GPT-4o в реальному часі
Оцінка моделі GPT-4o
За результатами тестування на стандартних оцінювальних показниках, GPT-4o демонструє рівень продуктивності, аналогічний GPT-4 Turbo, що стосується обробки тексту, логічного міркування та розуміння коду. Водночас, GPT-4o встановлює нові рекорди за своїми можливостями працювати з багатомовними текстами, аудіо та візуальною інформацією.
Оцінка тексту
Ефективність аудіо ASR
Ефективність аудіоперекладу
Результати нульового тесту M3Exam
Оцінки розуміння тексту зоровим аналізатором
Основні тези з безпеки GPT-4o
Вбудована безпека: GPT-4o розроблена з урахуванням безпеки на всіх рівнях, включаючи фільтрацію даних, налаштування поведінки моделі та нові системи безпеки для голосових функцій.
Оцінка ризиків: Незалежна оцінка показала, що GPT-4o несе середній рівень ризику за кібербезпекою, ХБРЯ, переконанням та автономією моделі.
Зовнішнє тестування: Розширене тестування з залученням понад 70 експертів допомогло виявити та пом'якшити потенційні ризики.
Контрольоване впровадження аудіоможливостей: Аудіофункції будуть випущені пізніше з обмеженими голосами та суворим дотриманням політик безпеки.
Відомі обмеження: GPT-4o, як і будь-яка модель машинного навчання, має певні обмеження, які будуть детально описані в документації.
Постійне вдосконалення: Ми прагнемо постійно вдосконалювати безпеку GPT-4o, виявляючи та усуваючи ризики в міру їх виникнення.
GPT-4o - це нова модель штучного інтелекту, яка відкриває нові горизонти для взаємодії людини з комп'ютером. Її швидкість, універсальність та доступність роблять її цінним інструментом для широкого кола завдань.