Введение

VEO3 — это новая версия модели генерации видео от Google DeepMind, которая позволяет создавать реалистичные 8-секундные видеоролики с синхронизированным звуком, включающие диалоги, звуковые эффекты и фоновую музыку. Все это генерируется одним промптом без необходимости знаний программирования или монтажа.

Обзор возможностей VEO3

VEO3 предлагает широкий спектр функций для создания видеоконтента:

  • Генерация видео: Создание видео в разрешении 720p из текстовых промптов
  • Генерация аудио: Автоматическое добавление и синхронизация диалогов, закадрового голоса, музыки и звуковых эффектов с видеорядом
  • Понимание сложных промптов: Улучшенная интерпретация деталей, нюансов и длинных инструкций
  • Кинематографический контроль: Возможность управлять параметрами камеры (панорамирование, зум, ракурсы), освещением, кинематографическими стилями и композицией кадра
  • Согласованность: Поддержание визуальной и стилистической консистентности персонажей и объектов на протяжении нескольких сцен
  • Качественная синхронизация губ (липсинк)
  • Реалистичная мимика и эмоции
  • Поддержка русского языка в диалогах
  • Возможность обхода некоторых ограничений контента

Принципы создания промптов

3.1 Основные принципы

Детализация: Предоставляйте максимально подробные описания. Включайте детали о сценах, персонажах (внешность, одежда, эмоции), действиях, окружении, освещении (например, "золотой час", "мрачное освещение"), цветовой палитре и общей атмосфере.

Структура и ясность: Четко формулируйте желаемый результат. Для сложных сцен можно разбивать описание на логические части или последовательные указания.

Язык: Рекомендуется использовать английский язык для промптов и аудиовставок, так как модель изначально обучалась на больших объемах англоязычных данных. Для генерации речи на конкретном языке, например, на русском, можно использовать уточняющие конструкции в промпте.

Спецификация звука: Явно указывайте желаемые звуковые эффекты, музыку (жанр, настроение, инструменты) или необходимость тишины. Для диалогов четко прописывайте реплики персонажей.

3.2 Базовая структура промпта

Длительность сгенерированного видео: 8 секунд

Формула промпта:

[Персонаж] + [Внешность] + [Действие] + [Речь/Звук] + [Окружение] + [Стиль/Качество]

4. Детальное описание компонентов

4.1 Персонаж + Внешность

Центральный персонаж видео с детальным описанием внешности, возраста, одежды и характерных особенностей. Это основа генерации, которая определяет, кто будет в фокусе внимания и как он выглядит.

Примеры:

  • "A thirty-year-old man with dark beard wearing vintage Soviet uniform"
  • "Young woman with long blonde hair in red evening dress"
  • "Elderly professor with glasses and tweed jacket"
  • "Teenager in bright pink hoodie with curly hair"
  • "Middle-aged woman with short black hair in business suit"

4.2 Действие

Ключевое физическое действие или поведение персонажа

⚠️ КРИТИЧНО: если планируется речь, персонаж может ТОЛЬКО говорить (says/sings), никаких других действий одновременно!

Для речи (только одно действие):

    "says", "sings", "whispers", "shouts", "speaks"

Для действий без речи:

  • "walks slowly", "dances gracefully", "sits contemplatively"
  • "gestures dramatically", "looks around nervously", "smiles warmly"
  • "moves chess piece", "opens door carefully", "writes in notebook"

4.3 Речь/Звук

Диалоги, звуковые эффекты и аудиальная атмосфера. Русская речь обязательно в кавычках после указания языка.

Форматы русской речи:

  • says in Russian: «Привет, как дела?»
  • sings in Russian: «Катюша выходила на берег»
  • speaks with Georgian accent in Russian: «Генацвале, все хорошо»

Звуковые эффекты:

  • "with ticking clock sounds in background"
  • "ambient forest sounds with birds chirping"
  • "dramatic orchestral music swelling"
  • "footsteps echoing in empty corridor"
  • "gentle rain sounds and thunder"

4.4 Окружение

Локация, обстановка и контекст, где разворачивается действие. Создает пространственный и временной контекст для персонажа.

Примеры:

  • "in dark gothic room with wooden furniture and candlelight"
  • "standing in bright modern office with large windows"
  • "sitting in cozy cafe with warm lighting and vintage decor"
  • "walking through snowy forest path with tall pine trees"
  • "in underground bunker with concrete walls and dim lighting"

4.5 Стиль/Качество

Техническое качество, кинематографические приемы, освещение, цветовая палитра и общая эстетика видео.

Технические параметры:

  • "cinematic quality, high resolution"
  • "medium shot", "close-up", "wide angle"
  • "handheld camera movement", "steady cam"

Управление камерой:

  • "close-up shot of a character's face" (крупный план лица персонажа)
  • "wide aerial shot of a landscape" (широкий панорамный снимок пейзажа с воздуха)
  • "drone shot following a car" (кадр с дрона, следующего за машиной)
  • "slow panning shot across the room" (медленное панорамирование по комнате)

Освещение и стиль:

  • "dramatic shadows with noir-style lighting"
  • "warm golden hour lighting with soft shadows"
  • "cold blue moonlight creating mysterious atmosphere"
  • "vintage film grain with muted colors"
  • "sharp contrast between light and dark areas"

Стилизация:

  • "cinematic lighting" (кинематографическое освещение)
  • "vintage film look" (вид старой пленки)
  • "watercolor style" (акварельный стиль)
  • "photorealistic" (фотореалистичный)

Настроение:

  • "melancholic autumn atmosphere"
  • "energetic and vibrant mood"
  • "suspenseful thriller aesthetic"
  • "romantic soft-focus ambiance"
  • "dystopian cyberpunk atmosphere"

5. Примеры готовых промптов

5.1 Классические примеры из русскоязычной тематики

Советский космонавт:

A fifty-year-old Soviet cosmonaut with grey hair wearing white spacesuit with red СССР patches, floating in space station cockpit with blinking control panels and says in Russian: «Земля, я вижу Землю, она прекрасна», with wonder and awe in his voice, surrounded by glowing instrument displays and Earth visible through porthole window, ambient space station humming sounds, retro sci-fi aesthetic with warm orange lighting, cinematic quality, medium shot, high resolution, nostalgic space-age atmosphere.

Грузинский повар:

A thirty-five-year-old Georgian chef with thick black mustache wearing white chef hat and apron, standing in busy restaurant kitchen with steaming pots and says in Russian with Georgian accent: «Генацвале, хачапури готов, пробуйте», with proud smile and welcoming gesture, surrounded by sizzling pans and chopping sounds, warm kitchen lighting with copper pots gleaming, traditional restaurant ambiance with clinking dishes background, medium close-up shot, high resolution, cozy culinary atmosphere.

Балерина:

A twenty-five-year-old prima ballerina with elegant bun hairstyle wearing white classical tutu and pointe shoes, standing center stage of grand opera theater and says in Russian: «Сегодня я танцую для вас всем сердцем», with graceful posture and emotional intensity, surrounded by red velvet seats and golden baroque decorations, soft orchestral music swelling in background, dramatic stage lighting with warm spotlights, cinematic quality, wide shot transitioning to medium, high resolution, romantic theatrical atmosphere.

5.2 Примеры для различных целей

1. Создание короткой сцены с диалогом:

"A dimly lit, old library. An elderly historian with glasses perched on his nose looks up from a large, ancient book and says with a thoughtful expression: 'The secrets of the past are often hidden in plain sight.' Soft rustling paper sounds in the background."

2. Генерация с указанием стиля и движения камеры:

"A hyper-realistic drone fly-through of a lush, alien jungle at twilight. Bioluminescent plants glow faintly. Eerie, atmospheric alien sounds."

3. Создание атмосферной сцены с акцентом на звуки:

"Time-lapse of clouds moving across a stormy sky over a rugged mountain range. The wind howls, and distant thunder rumbles. No music."

4. Промо-ролик продукта для маркетинга:

"A sleek smartphone rotates slowly on a white pedestal, studio lighting creating dramatic reflections on its glass surface. Camera performs a 360-degree orbit. A confident female voice says: 'Innovation meets elegance.' Subtle tech ambient music builds. The phone screen illuminates showing colorful app icons."

5. Образовательная научная визуализация:

"Microscopic view diving into a human cell. Camera zooms through the cell membrane, past floating organelles. Narrator with British accent explains: 'The mitochondria, often called the powerhouse of the cell, produces energy through cellular respiration.' Soft electronic music, subtle bubble sounds."

6. Рекламный ролик для социальных сетей:

"Fast-paced montage: barista pours latte art in slow motion, steam rises dramatically. Cut to: customer's eyes widen with delight. Text overlay appears: 'Morning Magic'. Upbeat acoustic guitar, coffee shop ambiance. 15-second format, vertical aspect ratio."

7. Корпоративная презентация:

"Modern glass office building exterior, sunrise time-lapse. Transition to: diverse team collaborating around holographic display. Professional woman in business suit turns to camera, smiles warmly: 'At TechCorp, we're building tomorrow's solutions today.' Corporate ambient music, subtle keyboard clicks."

5.3 Дополнительные русскоязычные примеры

Сибирский охотник:

A forty-year-old Siberian hunter with thick beard wearing fur hat and leather jacket, sitting by crackling campfire in snowy taiga forest and says in Russian: «Завтра на рассвете идем на медведя, будьте готовы», with serious determination in weathered face, surrounded by tall snow-covered pine trees and dancing flames, wind howling through branches and wood crackling sounds, cold blue moonlight contrasting warm firelight, cinematic quality, medium shot, high resolution, harsh wilderness atmosphere.

Петербургский интеллектуал:

A sixty-year-old St. Petersburg intellectual with silver beard wearing vintage glasses and dark wool coat, walking along Nevsky Prospect in autumn evening and says in Russian: «Этот город всегда вдохновлял великих писателей», with contemplative wisdom in his voice, surrounded by classical architecture and golden street lamps, footsteps echoing on wet cobblestones and distant church bells, warm amber lighting with soft shadows, film noir style, tracking shot following character, high resolution, melancholic literary atmosphere.

Казачий атаман:

A forty-five-year-old Cossack ataman with long mustache wearing traditional papakha hat and red kaftan with golden braids, mounted on black horse in vast steppe landscape and says in Russian: «За веру, царя и отечество, вперед казаки», with commanding authority and pride, surrounded by endless grasslands under dramatic storm clouds, horse snorting and wind whistling across plains, epic orchestral music building, dramatic lighting with sun breaking through clouds, cinematic quality, low angle shot, high resolution, heroic historical atmosphere.

6. Работа с диалогами

6.1 Рекомендации по диалогам

Для монологов (рекомендуется):

  • Один главный герой
  • Одна речь
  • Меньше потенциальных глюков

Для диалогов:

  • Четко разделять прямую речь по персонажам
  • Привязывать каждую реплику к конкретному персонажу
  • Использовать гендерное разделение (мужчина-женщина)
  • Избегать формулировок "первый говорит, второй говорит"

Пример правильного оформления: Фотограф с камерой в руках говорит: "Как дела?"

7. Технические ограничения и советы

7.1 Ограничения по символам в прямой речи

❌ Не использовать:

  • Три восклицательных знака (!!!)
  • Три точки (...)
  • Тире (—)

✅ Использовать:

  • Восклицательный знак (!)
  • Вопросительный знак (?)
  • Запятую (,)
  • Точку (.)

7.2 Соотношение языков в промпте

  • Кириллицы должно быть не более 15-20% от общего объема промпта
  • При ошибке "VEO3 не поддерживает русский язык" — расширить промпт деталями на латинице

7.3 Частые проблемы

  • Фантомные субтитры — могут появляться даже при указании "без субтитров"
  • Смешивание голосов в диалогах между персонажами одного пола
  • Тире озвучивается как отдельное слово

8. Распространенные ошибки

8.1 Основные ошибки, которых следует избегать

Недостаточная детализация промпта: Слишком общие или расплывчатые запросы могут привести к непредсказуемым, нерелевантным или шаблонным результатам. Чем точнее и детальнее промпт, тем лучше модель поймет ваш замысел.

Противоречивые инструкции: Избегайте взаимоисключающих описаний или требований в рамках одного промпта. Например, не стоит одновременно запрашивать "яркий солнечный день" и "мрачную, туманную атмосферу".

Игнорирование возможностей аудио: VEO3 обладает мощными возможностями генерации звука. Не забывайте указывать ваши пожелания по звуковому оформлению (музыка, эффекты, речь), если оно играет важную роль в сцене.

Перегрузка действиями при генерации речи: Если основной фокус на диалоге персонажа, старайтесь не перегружать промпт множеством других сложных одновременных физических действий для этого же персонажа, так как это может повлиять на естественность и синхронизацию речи.

9. Возможности и ограничения

9.1 Возможности

  • Качественная синхронизация губ (липсинк)
  • Реалистичная мимика и эмоции
  • Фоновая музыка и звуковые эффекты
  • Поддержка русского языка в диалогах
  • Возможность обхода некоторых ограничений контента
  • Генерация видео в разрешении 720p
  • Кинематографический контроль камеры
  • Визуальная и стилистическая консистентность

9.2 Ограничения

  • Длительность видео: 8 секунд
  • Периодические ошибки с субтитрами
  • Ограничения на откровенный контент (но мягче чем у конкурентов)

10. Заключение

Освоение инженерии промптов для VEO3 - это итеративный процесс, требующий практики и экспериментов. Используйте представленные здесь рекомендации как отправную точку для создания детализированных, ясных и точных запросов.

Помните ключевые принципы:

  • Максимальная детализация описаний
  • Четкая структура промпта
  • Правильное соотношение английского и русского языков
  • Точное указание звукового оформления
  • Избегание противоречивых инструкций

А если возникнут трудности с составлением промптов для VEO3, воспользуйтесь нашим ассистентом для создания правильных запросов. Просто опишите, что хочешь получить, а он составит детальный промпт с корректным форматированием диалогов и звуковых эффектов!

Поделиться Гайдом
Попробовать в GPTunneL