“Новий горизонт моделювання світів”
Сьогодні на сайті Google DeepMind вийшов анонс моделі Genie 3, яка зможе створювати керовану віртуальну реальність.
Сьогодні ми оголошуємо про випуск Genie 3 — універсальної моделі світу, яка може генерувати безпрецедентну різноманітність інтерактивних середовищ. За заданим текстовим запитом Genie 3 може генерувати динамічні світи, якими ви можете переміщатися в режимі реального часу зі швидкістю 24 кадри в секунду, зберігаючи стабільність протягом декількох хвилин при роздільній здатності 720p. — з сайту deepmind.google.

Довше, якісніше, красивіше!
Ви генеруєте promt, а модель створює вам світ з об’єктом яким ви можете керувати. Наприклад: “Гідроцикл серед святкових вогнів”

Або: “Ходьба по тротуару у Флориді на двопохполосній дорозі з одної сторони, та океаном з другої…[далі опис погодніх умов]”
Можна дивитись вверх та вниз🙄


Моделювання ситуацій
Можна “запромтити” різні ситуації які будуть відбуватись у створеній віртуальній реальності:

Робота в дуеті з агентом SIMA
Для тренування моделі Google використовують агента. Агент може керувати персонажем або об’єктом у створеному світі, та досягати поставлених для нього цілей.


Що не може ця модель, і з цього, звісно, випливають наступні покращення які будуть для неї розроблятись:
Хоча Genie 3 розширює межі можливостей моделей світу, важливо визнати його поточні обмеження: Обмежений простір для дій . Хоча події у світі, що викликаються спонуканням, дозволяють здійснювати широкий спектр втручань у навколишнє середовище, вони не обов'язково виконуються самим агентом. Діапазон дій, які агенти можуть виконувати безпосередньо, наразі обмежений. Взаємодія та моделювання інших агентів . • Точне моделювання складних взаємодій між кількома незалежними агентами у спільних середовищах все ще є актуальною дослідницькою проблемою. • Точне відображення реальних місць розташування . Genie 3 наразі не може імітувати реальні місця розташування з ідеальною географічною точністю.• Рендеринг тексту. Чіткий та розбірливий текст часто генерується лише тоді, коли він надається в описі вхідного світу. • Обмежена тривалість взаємодії. Модель наразі може підтримувати кілька хвилин безперервної взаємодії, а не тривалі години.
Головним покликанням Genie, за офіційною версією Google, є створення інтерактивних світів для навчання студентів та покращення роботів та агентів.
У цій моделі є власна пам'ять, тобто дії які були виконані раніше нікуди не зникають, а залишаються у пам’яті середовища. А додати додаткову подію або транспорт можна “на ходу”.
Дякую за увагу!
Stay Hard!