Постійно воюю з Gemini 2.5 Flash: то руки криві, то шкіра пластмасова, то взагалі не те, що просив. А ще з Veo 3/3.1 — на одному тарифі звук є, на іншому раптом тиша, хоч персонаж губами рухає.
Знайшов кілька "магічних" прийомів: структуровані JSON-промпти для фото і чіткі вказівки для звуку/діалогів у відео. Ділюсь готовими шаблонами, які працюють стабільно станом на січень 2026.
Спробуйте… різниця величезна!
Частина 1. Gemini 2.5 Flash чому звичайний текст дає посередній результат
Gemini Flash (особливо Nano Banana/Imagen версії) набагато краще розуміє структуровані запити. Звичайний опис типу "молода жінка в кафе на заході сонця" часто видає пластик і артефакти. А от коли розбиваєш на блоки (суб'єкт, освітлення, камера тощо) — отримуєш гіперреалізм: пори шкіри, природні тіні, ідеальні руки.
Найкращий універсальний JSON-шаблон для фото (копіюй і вставляй)
json
{
"subject": {
"type": "young woman",
"age": "25-28",
"appearance": "elegant european features, fair skin with subtle freckles, natural makeup, glowing healthy skin",
"hair": "long wavy chestnut hair, soft strands framing face",
"expression": "gentle confident smile, looking directly at camera",
"pose": "standing three-quarter turn, relaxed shoulders, hands gently crossed"
},
"clothing": {
"outfit": "white linen blouse with subtle lace details, high-waisted beige trousers",
"style": "minimalist chic, soft textures, natural folds"
},
"scene": {
"location": "bright modern cafe interior during golden hour",
"background": "soft bokeh city view through large window, wooden tables, coffee cups",
"atmosphere": "warm cozy, inviting"
},
"lighting": {
"main": "golden hour sunlight from side window",
"quality": "soft diffused, warm tones, gentle shadows, subtle rim light",
"color_temperature": "3200-3800K"
},
"camera": {
"type": "professional portrait",
"lens": "85mm prime",
"aperture": "f/1.8",
"depth_of_field": "shallow, creamy bokeh",
"angle": "eye level",
"framing": "medium close-up, head and shoulders"
},
"style": {
"rendering": "hyperrealistic photograph",
"quality": "8K, ultra detailed skin texture, pores, natural imperfections",
"mood": "elegant, serene, authentic",
"aspect_ratio": "3:4"
}
}Порада: на початку запиту пиши «Generate image using this exact JSON structure:» — модель чітко слідує інструкції.
Частина 2. Veo 3 / 3.1 чому звук зникає і як його гарантовано ввімкнути
На Google AI Pro часто стоїть Veo 3.1 Fast — швидка, але з обмеженим аудіо (тільки ambient, без діалогів). На Ultra — повний Veo 3.1 з native audio, lip-sync і діалогами. Але навіть на топ-тарифі звук не вмикається автоматично модель чекає чіткого сигналу!
Основні секрети для звуку:
Перевір у налаштуваннях: саме Veo 3.1 (не Fast)
У промпті: "says:" / "каже:" + лапки для діалогу
Додай: "with native audio, clear dialogue, perfect lip-sync, no subtitles"
Найстабільніше — JSON-структура
Готовий JSON для відео з діалогом українською (працює на Veo 3.1)
json
{
"request_type": "video_generation",
"model": "Veo 3.1",
"technical_settings": {
"aspect_ratio": "16:9",
"resolution": "1080p",
"framerate": "24fps",
"style": "Cinematic, realistic vlog, high detail"
},
"scene_setup": {
"location": "Сучасний світлий офіс з панорамними вікнами",
"lighting": "М'яке студійне світло + природне денне з вікна",
"camera": "Medium close-up, eye-level, shallow depth of field",
"duration": "8-12 seconds"
},
"character": {
"description": "Молода жінка 25 років, стильний casual бізнес-лук, енергійна та привітна",
"action": "Сидить за столом, дивиться прямо в камеру, жестикулює руками під час розмови",
"emotion": "Упевнена, посміхається, ентузіазм"
},
"audio_layer": {
"ambient_sound": "Тихий офісний фон, легкий гул кондиціонера",
"voice_properties": "Жіночий голос, чітка дикція, енергійний тон блогера",
"lip_sync": true,
"subtitles": false
},
"dialogue_script": [
{
"speaker": "main_character",
"text": "Привіт! Хочеш приборкати штучний інтелект? Gemini — це твоя нова суперсила. Записуйся на уроки — майбутнє вже тут!",
"timing": "whole clip"
}
]
}
Ці прийоми суттєво підвищують якість: фото без "лялькового" вигляду, відео з реальним звуком і синхронізацією губ.
ᴀɪ𝟤𝟦ǫ штучний інтелект https://t.me/ai24q