Друкарня від WE.UA

Найпопулярнішій MidJourney про таку функцію мріяти і мріяти.

Ми вже багато розповідали про нейромережі, зокрема для генерації зображень. Одна з великих їхніх проблем - неможливість генерувати нормальний текст на картинці: виходить або абракадабра, або взагалі нечитабельні символи. Але колишні співробітники Google змогли виправити цей недолік - вони запустили сервіс Ideogram, в якому будь-які написи за вашим бажанням генеруються з неймовірною точністю.

Чому у нейромереж погано виходять написи

За останні півтора року (приблизно тоді у світ вийшла перша версія MidJourney) нейромережі для генерації зображень пройшли величезний шлях поліпшень і стали створювати якісні роботи. Проте, все ще трапляються "вади" - неправильна кількість пальців на руках (або ногах), косі обличчя, нерозбірливі написи.

Усі ці дефекти роботи нейромережі, насправді, зумовлені однією і тією ж проблемою: процесом навчання моделі. Річ у тім, що, навчаючи нейромережу, фахівці дають їй певні зображення і створений людиною текст, що описує те, що на цьому зображенні знаходиться. Навчаючись, нейромережа зазвичай аналізує зображення загалом - дуже рідко фахівці описують окремі частини картини, оскільки це дуже трудомістко і складно.

У підсумку, навіть якщо в навчальній вибірці є достатньо зображень із правильним числом пальців на руках або красивими і зрозумілими написами, нейромережа просто не розуміє, яка конкретна деталь на зображенні - напис, а яка - палець. Тому, коли в запиті алгоритм бачить фразу, наприклад, "табличка з текстом I love you", він може видати щось на кшталт "IIu lvooo Youuu".

Надпись нейросети

У навчальній вибірці алгоритму могли бути зображення з такими написами, але ніхто не говорив йому, що єдиний правильний варіант написання цієї фрази - саме "I love you", тому нейромережа просто змішує всі літери, як змішує моделей у Баленсіага і фото Папи Римського.

Папа римский баленсиага

Нейромережа, що створює написи

Але ось у програмістів Ideogram вийшло навчити нейромережу так, щоб написи на згенерованих нею зображеннях були коректними. Представники стартапу, генеральний директор якого Мохаммад Норузі був старшим науковим співробітником Google, не розкривають секретів того, як їм вдалося навчити свою модель.

Наразі кожен може випробувати нову нейромережу і насолодитися результатами її роботи. Досить зайти на сайт ideogram.ai/ і пройти реєстрацію за допомогою акаунта Google. Після цього ви потрапляєте на головну сторінку, де будуть висвічуватися ваші роботи і стрічка із зображеннями, створеними іншими користувачами:

Вводите свій запит у вікні й отримуєте на виході чотири варіанти зображення. Найкраще поки що справляється з англійською мовою - з українською зовсім погано, хоча інтент запиту алгоритм розуміє. Ось кілька прикладів того, на що здатна Ideogram:

Як вводити запит в Ideogram

Загалом, правила формулювання промта (запиту) для Ideogram точно такі самі, як і для Stable Diffusion і MidJourney - про них ми розповідали в окремій статті. Але оскільки тут ми маємо справу з написами, варто відзначити ще одну важливу річ: при введенні запиту текст напису, який ви хочете побачити на зображенні, найкраще вводити всередині лапок - так нейромережа краще зрозуміє, який текст має бути на малюнку.

Статті про вітчизняний бізнес та цікавих людей:

Поділись своїми ідеями в новій публікації.
Ми чекаємо саме на твій довгочит!
Бізнес. Ідеї. Стартапи
Бізнес. Ідеї. Стартапи@businessidea we.ua/businessidea

Підписуйтесь на Телеграм

1498Довгочити
1.3MПрочитання
1.1KПідписники
Підтримати
На Друкарні з 15 квітня

Більше від автора

  • Соло-бізнес з ноутбука: 7 моделей, що дають прибуток

    7 моделей соло-бізнесу: micro-SaaS, медіа+продукт, продуктова послуга, single-SKU e-commerce, “нудні” сервіси з технологіями, ком’юніті для впровадження, fractional-консалтинг.

    Теми цього довгочиту:

    Соло-бізнес
  • Як заробляти на Gumroad пасивно цього року

    Gumroad приносить стабільний дохід не тим, хто “виклав PDF”, а тим, хто збудував петлю довіри: контент → ясність → продукт. У статті — 7 стратегій топ-креаторів і план на 30–90 днів: публічна ітерація, підвищення ціни, апсейли та email.

    Теми цього довгочиту:

    Gumroad

Це також може зацікавити:

Коментарі (0)

Підтримайте автора першим.
Напишіть коментар!

Це також може зацікавити: