Введение: Почему ваш персонаж «плывет» и теряет лицо?
Главная боль любого креатора, работающего с нейросетями — катастрофическая нестабильность. Вы генерируете потрясающую девушку в Midjourney, Flux, Nana Banana PRO или Stable Diffusion, она идеальна, но на следующем кадре — это уже совершенно другой человек. Меняется форма носа, разрез глаз, структура скул. Почему так происходит?
Проблема кроется в природе генеративного ИИ. Нейросеть не «знает» и не «помнит» вашего персонажа. Каждый раз, получая промт, она импровизирует, вытаскивая из своего «латентного пространства» усредненные образы. Для неё «красивая девушка с голубыми глазами» — это миллионы разных вариаций, а не одна конкретная личность.
Чтобы создать AI-инфлюенсера (Consistent Character) — цифрового блогера, который будет узнаваем в любом видео, на любом фоне и в любой одежде — нам нужно исключить эту случайную импровизацию. Нам нужен жесткий Референс-Сет (Dataset). Это не просто папка с картинками, это «ДНК» вашего персонажа, его технический паспорт.
Эти эталонные изображения используются для трех ключевых задач:
Face ID / Face Swap (InsightFace, ReActor): Для быстрой замены лица на готовых фото и видео. Чем чище исходник, тем меньше артефактов и «масок» вы получите.
ControlNet (IP-Adapter в Stable Diffusion): Для точной передачи черт лица и композиции кадра без долгого обучения.
Обучение LoRA (Low-Rank Adaptation): Создание персонализированной мини-модели, которую можно подключать к Flux или SDXL, чтобы генерировать вашего героя по ключевому слову.
Gem-бот (хранение эталона в Nana Banana PRO): В память бота можно загрузить все референсы и ракурсы вашего AI-персонажа, и генерация будет происходить почти без особых отклонений.
В этом гайде мы пройдем профессиональный пайплайн подготовки «чистых» исходников. Мы уберем художественный шум, драматичные тени и отвлекающие украшения, чтобы получить идеальный материал для обучения и создадим двух идентичных АИ-моделей, с которыми можно делать разный фото и видео контент.
Комментарий эксперта: Нейросети обучаются на паттернах и связях. Если на всех фото вашего исходного датасета модель будет в крупных серьгах или со сложным вечерним макияжем, нейросеть решит, что эти серьги — такая же неотъемлемая часть лица, как нос или уши. В будущем она будет рисовать эти украшения даже в спортзале или в душе. Именно поэтому мы будем создавать «стерильные» исходники (Clean Face DNA) — чтобы избежать визуального «мусора» при дальнейшей генерации.
ЭТАП 1: Создание «Золотого Исходника» (Face DNA)
Здесь мы добываем «чистое лицо». Наша цель — изображение без макияжа (или с макияжем «nude»), без сложного кинематографического света и без аксессуаров. Это база для Face ID.
Шаг 1. Нормализация исходников
Мы превращаем любительские, случайные или старые фото в строгий студийный стандарт. Нейросети лучше всего считывают черты лица при равномерном освещении, которое не создает жестких теней под носом или глазами.
Alt: нейромодель снепшоты обработка фото Face ID до и после
Сценарий А: У вас есть черно-белое фото Черно-белые снимки часто скрывают недостатки кожи, но для обучения они не подходят — нейросеть «додумает» цвет кожи, глаз и волос случайным образом. Используйте этот промт в режиме Image-to-Image (i2i) или Vary (Region), чтобы восстановить информацию о цвете и текстуре.
нейромодель на базе Сальмы Хайек, обработка чб фото Face ID до и после
×
Преобразуй чёрно-белую фотографию в цветной студийный портрет на нейтральном белом фоне. Модель смотрит прямо в камеру, лицо симметрично. Волосы зачесаны назад и по бокам, сделай полностью открытыми лицо и лоб. Сделай, чтобы на шее не было украшений или элементов одежды. Плечи открыты и на них нет одежды или элементов одежды. На ушах нет сережек или других украшений. Итоговое изображение выглядит как профессиональная студийная фотосъёмка. Композиция кадра - крупный портрет (close up), в кадр входят ключицы и часть плеч, области подмышечных складок не видны, сверху над головой остается небольшой пространство до края изображения.
Transform black and white photo into a color studio portrait on a neutral white background. The model looks directly into the camera, face is symmetrical. Hair is slicked back and to the sides, fully revealing the face and forehead. Ensure no jewelry or clothing elements on the neck. Shoulders are bare, with no clothing straps visible. No earrings or other jewelry on ears. The final image looks like a professional studio shoot. Composition: close-up portrait, clavicles and part of shoulders visible, underarm areas not visible, small headspace above. High definition, realistic skin texture.
Сценарий Б: У вас есть обычное цветное фото Даже если фото цветное, оно может быть «грязным» для AI: сложный фон, волосы, падающие на лицо, одежда с ярким принтом. Наша задача — убрать весь «визуальный шум» и выставить нейтральный свет (softbox), чтобы ничто не отвлекало алгоритмы от анализа геометрии лица.
нейромодель на базе фото Сальмы Хайек в молодости, обработка цветной фото Face ID до и после
×
Преобразуй фотографию в цветной студийный портрет на нейтральном сером фоне. Модель смотрит прямо в камеру, лицо симметрично. Волосы зачесаны назад и по бокам, сделай полностью открытыми лицо и лоб. Сделай, чтобы на шее не было украшений или элементов одежды. Плечи открыты и на них нет одежды или элементов одежды. На ушах нет сережек или других украшений. Итоговое изображение выглядит как профессиональная студийная фотосъёмка. Композиция кадра - крупный портрет (close up), в кадр входят ключицы и часть плеч, области подмышечных складок не видны, сверху над головой остается небольшой пространство до края изображения
Transform the photo into a color studio portrait on a neutral gray background. Model looks directly at camera, symmetrical face. Hair slicked back, forehead and face fully visible. Remove all jewelry, necklaces, and clothing from neck and shoulders. Shoulders are bare. No earrings. Professional studio lighting, softbox style. Close-up composition including clavicles and top of shoulders, no underarms visible. Clean, high-quality reference image for AI training
Шаг 2. Текстовая оцифровка (Reverse Prompting)
Визуального образа недостаточно. Современные модели (Midjourney v6, Flux, Nana Banana PRO) работают на стыке текста и изображения. Вам нужно «перевести» лицо на язык токенов.
Просто использовать команду /describe часто недостаточно — она дает сухие факты. Нам нужен «семантический портрет», описывающий впечатление. Используйте этот промт в мультимодальных чат-ботах (Gemini, ChatGPT), загрузив полученный выше «чистый» портрет.
×
Сделай подробный промпт для описания внешности этой девушки, учти все мелкие детали на лице и индивидуальные особенности, учти пропорции лица, состояние кожи. Максимально детально опиши все параметры лица, чтобы у нас сложилось полное впечатление о внешности девушки. Также опиши эмоцию, которую вызывает это лицо
Analyze this image and generate a detailed text prompt describing the girl's appearance. Focus on micro-details: facial proportions, specific eye shape and color, skin texture, moles, nose shape, lip fullness. Describe the exact skin tone and any unique features. Also, describe the subtle emotion the face conveys. The goal is to recreate this exact face using only text
На выходе он даст подробный промт для следующего шага — генерация вашего уникального Face ID для AI-модели. Ниже приведены фотографии из первого варианта, и из второго. При желании промт можно немного подкорректировать, я указал что моей AI-модели 25 лет, и она напоминает мексиканку, чтобы отойти от жесткой привязки к Сальме Хайек.
Первый вариант:
×
Гиперреалистичный крупный план портрета молодой женщины 25 лет с оливковой кожей и сильной квадратной линией подбородка, напоминающей мексиканскую девушку. Мокрые темные волосы, зачесанные назад. Глубокие карие миндалевидные глаза, смотрящие прямо в камеру, интенсивный взгляд. Естественная текстура кожи, видимые поры, молодая кожа, мелкая родинка на левой щеке. Полные естественные губы. Обнаженные плечи. Белый фон, мягкое студийное освещение. Выражение лица стоическое, суровое, уверенное и красивое. Разрешение 8k, высокая детализация --ar 3:4
Hyperrealistic close-up portrait of a 25-year-old woman with olive skin and a strong square jawline reminiscent of a Mexican girl. Wet dark hair combed back. Deep brown almond-shaped eyes looking straight into the camera, intense gaze. Natural skin texture, visible pores, young skin, small mole on left cheek. Full natural lips. Bare shoulders. White background, soft studio lighting. Stoic, stern, confident, and beautiful facial expression. 8k resolution, high detail --ar 3:4
Новая АИ-модель получила свои уникальные черты, но сохранила природу Сальмы Хайек
Второй вариант:
×
Фотореалистичный крупный план портрета женщины 30 лет с сильной квадратной линией подбородка и высокими скулами. Оливковый оттенок кожи с гиперреалистичной текстурой, видимыми порами и легким блеском. Глубокие карие глаза миндалевидной формы с густыми, темными, ухоженными бровями и прямым, интенсивным взглядом. Прямой нос с изящным кончиком. Полные, естественные губы лилового цвета с четким изгибом в форме лука Купидона. Заметная маленькая родинка на правой щеке (слева от зрителя) и еще одна на шее. Черные волосы, уложенные назад и приглаженные, создают эффект мокрых волос. Видны обнаженные плечи и ключицы. Нейтральный серый фон, мягкое равномерное студийное освещение. Уверенное, серьезное выражение лица. Похожа на мексиканскую жительницу --ar 3:4
A photorealistic close-up portrait of a 30-year-old woman with a strong square jawline and high cheekbones. Olive skin tone with hyperrealistic texture, visible pores, and a slight sheen. Deep brown almond-shaped eyes with thick, dark, well-groomed eyebrows and a straight, intense gaze. Straight nose with an elegant tip. Full, natural lips in a lilac color with a clear Cupid's bow curve. A noticeable small mole on the right cheek (to the left of the viewer) and another on the neck. Black hair, slicked back and smoothed down, creates the effect of wet hair. Bare shoulders and collarbones are visible. Neutral gray background, soft, even studio lighting. Confident, serious expression. Resembles a Mexican woman --ar 3:4
Новая AI-модель получила свои уникальные черты, но сохранила мексиканские корни
ЭТАП 2: Полировка и Детализация (Quality Up)
Сгенерированные нейросетями лица часто страдают от эффекта «пластиковой кожи». Она слишком гладкая, без пор и микроморщин, что сразу выдает AI-происхождение. Чтобы AI-инфлюенсер выглядел дорого и мог рекламировать косметику или одежду, нам нужна гиперреалистичная текстура.
Шаг 3. Апскейл 4K и «Галлюцинация деталей»
Можно использовать не просто увеличение разрешения, а Creative Upscale (творческий апскейл). Инструменты типа Magnific AI или Krea в режиме «Enhance» дорисовывают отсутствующие детали. Они добавляют поры, пушок на лице (peach fuzz), естественную неровность пигментации. Но я пойду простым путём, который также дает классный результат, и сделаю это в Nana Banana PRO.
×
Максимально улучши качество данной фотографии, сделай ее вид современным. Сделай фотографию цветной, сделай цветокоррекцию профессиональной, живой и натуральной, сделай цвет более усредненным, приглушенным и живописным, добавь немного теплых оттенков в кожу, но чтобы они были гармоничными и натуральными. Сделай фото ультра реалистичным, но не добавляй излишние возрастные изменения на кожу, сделай кожу немного чище, сделай морщины менее контрастными. Проработай детализацию фотографии таким образом, будто она снята на профессиональную среднеформатную камеру. Сделай мелкие детали фотографии ультра реалистичными.
Upscale to 4K, maximum quality improvement. Modernize the look. Professional color grading, vibrant yet natural skin tones, muted and painterly color palette. Add subtle warm tones to skin, keeping it harmonious. Ultra-realistic texture, reduce contrast of wrinkles but keep skin pores visible. Clean skin but not plastic. Simulate medium format camera photography depth and detail. Hyper-realistic micro-details.
Для сравнения вариант 1
И вариант 2
ЭТАП 3: Геометрия Лица (Angles)
Одна из самых частых проблем при обучении LoRA — «плоское лицо». Если вы скормите нейросети 20 фото в анфас, она не поймет, какой длины нос у вашего персонажа или какая форма у скул сбоку. При попытке сгенерировать профиль лицо будет искажаться. Используем наш «Золотой исходник» как Reference, чтобы создать недостающие ракурсы.
Шаг 4. Профиль и ракурс 3/4
Эти промты помогают нейросети «повернуть голову» модели, сохраняя черты лица.
Вариант в профиль
×
ПРОФИЛЬ: Плечи видны в кадре. На шее и плечах не видна одежда или элементы одежды. Виден силуэт профиля модели, лицо видно именно с бокового ракурса, при котором виден только один ближний глаз, а дальний глаз скрыт за носом.
PROFILE: Side profile portrait. Shoulders visible, bare skin, no clothing straps. Silhouette of the face clearly visible from the side. Only the near eye is visible, far eye hidden by the nose bridge. Professional studio lighting, neutral background.
Вариант с ракурсом в 3/4
×
Фото в три четверти. Лицо и корпус модели повернуты под 45 градусов вправо, модель смотрит в правую часть от направления камеры. Шея и плечи видны в кадре. На шее и плечах не видна одежда или элементы одежды.
Three-quarter portrait view. Face and body turned 45 degrees to the right. Model looking towards the right side of the frame. Neck and shoulders visible, bare skin, no clothing elements. Neutral background, studio lighting.
ЭТАП 4: Тело и Конституция (Body Reference)
Лицо — это лишь 50% успеха. Инфлюенсер должен носить одежду, позировать в полный рост. Нам нужно зафиксировать тип фигуры (Body ID): рост, пропорции ног, ширину плеч. Для этого мы делаем «снепшоты» — технические фото, которые используют модельные агентства.
Лайфхак: Мы намеренно используем самую простую черно-белую одежду (майка/шорты). Это нужно, чтобы нейросеть запомнила анатомию тела (где находятся колени, талия, плечи), а не привязалась к стилю одежды. Если исходник будет в платье, нейросети будет сложно потом «переодеть» модель в брюки.
Шаг 5. Генерация Снепшотов и Сетки Ракурсов
Alt: цифровая модель снепшоты dataset body reference в полный ростОдиночный фронтальный кадр: Идеально для проверки пропорций тела.
×
Фото в полный рост в белой одежде как для модельных снепшотов. Фото в стиле модельных снепшотов, снятых в студии, один фронтальный ракурс модели в полный рост. Ноги видны полностью, ступни открытые без обуви. Модель стоит посередине кадра. Модель стоит симметрично и смотрит ровно в камеру. Одежда - белая хлопковая майка, короткие белые хлопковые шорты.
Full body studio snapshot. Frontal view. Model standing symmetrically in center, looking at camera. Barefoot, feet fully visible. Wearing plain white cotton tank top and short white cotton shorts. Neutral lighting, technical modeling shot style.
×
Фото в полный рост в черной одежде как для модельных снепшотов. Фото в стиле модельных снепшотов, снятых в студии, один фронтальный ракурс модели в полный рост. Ноги видны полностью, ступни открытые без обуви. Модель стоит посередине кадра. Модель стоит симметрично и смотрит ровно в камеру. Одежда - черная хлопковая майка, короткие черные хлопковые шорты.
Full body studio snapshot. Frontal view. Model standing symmetrically in center, looking at camera. Barefoot, feet fully visible. Wearing plain black cotton tank top and short black cotton shorts. Neutral lighting, technical modeling shot style.
Сетка ракурсов (Turnaround sheet): Критически важно для тех, кто планирует делать 3D-модели, видео с вращением или сложный монтаж. Это позволяет увидеть персонажа со всех сторон одновременно.
В белой одежде:
×
Фото в полный рост в белой одежде как для модельных снепшотов. Фото в стиле модельных снепшотов, снятых в студии, одновременно три основных ракурса модели в полный рост. Ракурсы расположены внутри 3 вертикальных столбцов, которые образованы внутри кадра, столбцы одинаковой ширины. В первом столбце - рукурс ровно спереди. Во втором столбце ракурс в три четверти. В третьем столбце ракурс сбоку, голова смотрит вправо. Одежда - белая хлопковая майка, короткие белые хлопковые шорты. Ноги видны полностью, ступни открытые без обуви.
Model turnaround sheet, white clothing. Full body studio snapshots. Three distinct angles in vertical columns of equal width. Column 1: Front view. Column 2: 3/4 view. Column 3: Side profile view looking right. Wearing white cotton tank top and white shorts. Barefoot. Consistent lighting.
В черной одежде:
×
Фото в полный рост в черной одежде как для модельных снепшотов. Фото в стиле модельных снепшотов, одновременно три основных ракурса модели в полный рост. Ракурсы расположены внутри 3 вертикальных столбцов, которые образованы внутри кадра, столбцы одинаковой ширины. В первом столбце - рукурс ровно спереди. Во втором столбце ракурс в три четверти. В третьем столбце ракурс сбоку, голова смотрит вправо. Одежда - черная хлопковая майка, короткие черные хлопковые шорты. Ноги видны полностью, ступни открытые без обуви.
Model turnaround sheet, black clothing. Full body studio snapshots. Three distinct angles in vertical columns of equal width. Column 1: Front view. Column 2: 3/4 view. Column 3: Side profile view looking right. Wearing black cotton tank top and black shorts. Barefoot. Consistent lighting.
ЭТАП 5: Душа и Характер (Emotion Set)
Если лицо модели всегда «каменное», она выглядит мертвой (эффект «зловещей долины»). Чтобы оживить персонажа, нам нужна карта эмоций. Это набор референсов, где сохраняется архитектура лица, но меняется мимика.
Шаг 6. Карта Эмоций (Expression Sheet)
Alt: карта эмоций AI инфлюенсер consistent character emotions grid
Этот лист используется не только для фото-генераций, но и является золотым стандартом для обучения видео-нейросетей (Hedra, LivePortrait, Kling). Имея такой лист, вы сможете заставить своего персонажа говорить, смеяться или плакать в видео, не теряя узнаваемости.
×
Инструкции для каждого изображения: Большой вес изображения / эталонная прочность: 1,5-2,0. Уровень шумоподавления: 0,55. ВАЖНО: сохраните точные черты лица, структуру костей и сходство с человеком из входных изображений. Не меняйте его личность или внешность, только выражение лицевых мышц и мимики.
Композиция из 8 отдельных портретных рамок, размещенных на одном холсте формата 16:9. На каждой рамке изображен один и тот же человек из входных изображений на простом белом студийном фоне.
Все снимки сделаны в формате портрета, с четким фокусом на лице, чтобы показать различные эмоциональные состояния.
1. Скептицизм: одна бровь высоко поднята, губы слегка поджаты, взгляд искоса с сомнением.
2. Легкая грусть: меланхолия, проваленный взгляд.
3. Страх/Шок: Широко открытые глаза смотрят в камеру, рот слегка приоткрыт от внезапного испуга.
4. Изумление/Вау: Радостная широкая улыбка, демонстрирующая зубы, широко раскрытые блестящие глаза, выражение неподдельного удивления.
5. Ухмылка/уверенность: Понимающая, асимметричная полуулыбка, прямой уверенный взгляд в камеру.
6. Облегчение: Голова слегка откинута назад, глаза закрыты, расслабленный выдох, нежная улыбка облегчения.
7. Задумчивость/сосредоточенность: Глубокий задумчивый взгляд, нахмуренные брови, задумчивый взгляд в сторону от камеры, рука у подбородка.
8. Напряженный взгляд: Очень серьезный, прямой, непоколебимый зрительный контакт с объективом, напряженное сосредоточенное выражение лица.
Instructions for each image: Large image weight / Reference strength: 1.5-2.0. Noise reduction level: 0.55. IMPORTANT: Save the exact facial features, bone structure, and human likeness from the input images. Don't change his personality or appearance, just the expression of his facial muscles and facial expressions.
The composition consists of 8 separate portrait frames placed on a single 16:9 canvas. Each frame depicts the same person from the input images on a simple white studio background.
All the pictures were taken in portrait format, with a clear focus on the face to show different emotional states.
1. Skepticism: one eyebrow is raised high, lips are slightly pursed, a sideways glance with doubt.
2. Slight sadness: melancholy, a sunken look.
3. Fear/Shock: Wide-open eyes staring at the camera, mouth slightly open from sudden fright.
4. Amazement/Wow: A joyful wide smile showing teeth, wide-open sparkling eyes, an expression of genuine surprise.
5. Smirk/confidence: A knowing, asymmetrical half-smile, a direct confident look at the camera.
6. Relief: Head tilted back slightly, eyes closed, relaxed exhale, gentle smile of relief.
7. Thoughtfulness / concentration: Deep thoughtful gaze, furrowed eyebrows, thoughtful gaze away from the camera, hand under the chin.
8. Intense gaze: Very serious, direct, unwavering eye contact with the lens, intense, focused facial expression.
Film grain, uniform studio lighting, clear eye focus, detailed skin texture. --ar 16:9
FAQ: Часто задаваемые вопросы
В: Зачем обязательно убирать украшения на первом этапе? Разве это не часть стиля?О: Стиль — это то, что можно сменить. Лицо — это константа. Нейросеть (особенно при обучении LoRA) жадно ищет закономерности. Если вы скормите ей 15 фото девушки в одних и тех же серьгах, она решит, что эти золотые кольца растут прямо из ушей. В итоге, когда вы попросите сгенерировать девушку в душе или в шлеме космонавта, нейросеть всё равно «пририсует» эти серьги, часто с жуткими искажениями. Добавляйте аксессуары позже через Inpaint или отдельные промты.
В: В какой нейросети лучше всего использовать эти промты?О: Данный пайплайн универсален, но результаты зависят от сильных сторон инструмента:
Nana Banana PRO / Midjourney v6: Короли фотореализма и текстур. Лучше всего понимают «вайб» и естественный язык. Используйте здесь английские версии промтов для максимальной точности.
Flux: Технический гений. Отлично понимает сложные инструкции по анатомии, положению рук и геометрии кадра (профили, ракурсы).
Stable Diffusion (SDXL / Pony): Лучший выбор, если вам нужен полный контроль через ControlNet. Идеально для поз и строгого сохранения пропорций, если у вас уже есть базовый референс.
В: Зачем нужны снепшоты босиком?О: Обувь сильно искажает пропорции ног и рост. Нейросети часто путаются в пальцах ног или месте сочленения стопы с полом. Обучая модель на фото босиком, мы даем ей четкое понимание анатомии «от пятки до макушки». Обувь проще добавить потом, чем исправлять «обрубленные» ноги.
В: Для чего упоминался Gemini?О: Gemini (и другие современные LLM с функцией Vision) необходим для этапа «Reverse Prompting». Глаз человека видит «девушку», а генеративная модель видит набор токенов. Gemini помогает превратить ваше идеальное изображение обратно в текст, описывая такие нюансы (разрез глаз, оттенок кожи, микро-эмоции), которые человек мог бы упустить, но которые критически важны для AI.
Заключение
Создание цифровой модели — это не магия одной кнопки, а технология, требующая инженерной точности. Пройдя этот пайплайн из 5 этапов (Нормализация -> Оцифровка -> Апскейл -> Геометрия -> Эмоции), вы получите не просто набор красивых картинок, а полноценный профессиональный ассет (Dataset).
Этот Dataset станет фундаментом вашего бренда. С ним вы сможете создавать видео, вести соцсети и интегрировать персонажа в любые сценарии, не боясь, что завтра он «потеряет лицо».
Готовы создать свою звезду? Переходите в раздел Инструменты и выберите нейросеть для старта.