

Студии, мастера, аппаратура — всё это без толку. Оказавшись на диване, можно получить профессиональный портрет — нужен только интернет и понимание того, как составить промпт. ИИ-фотосессии перестали быть вымыслом с экрана телевизора — это уже рабочий инструмент для бизнеса, личного бренда или просто игры с образом.
«За два года мы попробовали 27 разных способов генерации — от простых онлайн-зверушек до кастомных моделей на своем железе. Вывод прост — даже элементарный. Технология доступна каждому, но вот результат зависит от того, осознаешь ты как работает генеративный ИИ, но еще и знаешь, какие параметры на что влияют. Не надо быть программистом — надо знать, куда жать и что писать.»
ИИ фотосессия — это когда некая нейросеть делает фотографии людей без всякого фотографа. Загружаешь свои фото, выбираешь стиль (фэшн, деловой портрет, что-то арт), задаешь параметры и через 10–30 секунд получаешь результат.
Отличие в том, что модель учится воспроизводить именно твои уникальные черты, а не просто генерировать случайный портрет. Это, конечно, не «создай портрет девушки в костюме», а «создай портрет меня в костюме, сохрани мои глаза, мой овал лица, мою причёску». Это более персонализированный подход.

Плюсы виртуальной съемки:
Естественно, минусы тоже имеются. Иногда мелкие подробности — руки, бижутерия, текстуры — выглядят странно. Полной замены живой съемке пока еще не удалось, но для аватарок, контента в соцсетях, презентаций — это вполне рабочий способ.
GAN (Генеративно-состязательная сеть) — архитектура, состоящая из двух нейронных сетей, которые соревнуются друг с другом: первая создает изображения, а вторая пытается отличить их от подлинных. Это позволяет получать реалистичные изображения лиц, которых на самом деле нет.
VQGAN (Vector Quantized GAN) — это сочетание GAN и квантования векторов, что позволяет получать более высокую детализацию и скорость генерации. Особенно хорош для художественной стилизации портретов.
CLIP (Contrastive Language–Image Pretraining) — это модель от OpenAI, уясняющая связь текста и изображения. Она интерпретирует текстовые запросы и четко направляет генеративную модель к созданию необходимых изображений.
Latent Diffusion Models применяются в Stable Diffusion и Midjourney. Генерация происходит в скрытом пространстве, что экономит время и облегчает нагрузку на железо. Постепенное устранение шума — и в конечном итоге собирается правдоподобное изображение.
Как именно работают модели? Процесс выглядит следующим образом:
Весь процесс занимает от 5 секунд (для простых задач) до 2 минут.
Midjourney — сервис художественной стилизации и качественной компоновки изображения. Работает в том числе через Discord, подписка стартует от $10 в месяц. Дает возможность задать стиль, пропорции, использовать семена генерации для воспроизводимости.
Подойдет креативщикам, дизайнерам и контент-мейкерам, которые ценят визуальный вайб и художественность выше точного сходства с реальным человеком.
DALL-E 3 (тот, доступный через ChatGPT Plus или API) — модель от OpenAI, которая умеет понимать сложные тексты, а также учитывает безопасность контента. Генерирует сразу финал — без промежуточных вариантов.
Кому будет полезно: новичкам и пользователям бизнеса, нуждающимся в максимально быстром и простом решении без необходимости вникания в настройки.
Stable Diffusion (с помощью DreamStudio, Lexica, Playground AI и других) — это открытая модель, которую можно запускать у себя дома и до обучать. Обеспечивает практически неограниченные возможности управления параметрами, потенциально поддерживает подключение пользовательских моделей, а также LoRA расширений.
Для кого подойдет: для технически образованных людей, готовых к экспериментам с настройками и моделями.
| Платформа | Простота | Художественность | Контроль | Цена |
|---|---|---|---|---|
| Midjourney | Средняя (Discord) | Высокая | Средний | От $10/мес |
| DALL-E 3 | Высокая | Средняя | Низкий | $20/мес (ChatGPT Plus) |
| Stable Diffusion | Низкая (нужна настройка) | Зависит от модели | Полный | Бесплатно (локально) или от $10/мес (облако) |
Хотите быстро приступить к делу — рекомендую DALL-E 3 через ChatGPT Plus. Если нужны художественные образы — Midjourney. Нужен полный контроль и возможность локального обучения? Выбирайте Stable Diffusion.
Photoshop с AI — встроенными инструментами для дорисовки фона, изменения поз и коррекции лица. Алгоритмы работают на базе Firefly и других моделей. Его подписка стоит $31,49 в месяц.
GIMP в сочетании с плагинами Stable Diffusion — это готовое бесплатное решение, аналог Photoshop, поддерживающее генерацию через Stable Diffusion API. У него есть много настроек, но оно гарантирует полную конфиденциальность.
ComfyUI — графический редактор пайплайнов для Stable Diffusion. Предоставляет возможность конструировать запутанные механизмы генерации и стилизации. Предполагает наличие мощной видеокарты и освоение приличного интерфейса.
Основные плюсы локальных субъектов:
Как видно, обойтись без применения специализированных моделей и различных подходов к кастомизации невозможно.
Сначала необходимо задать себе несколько вопросов:
Для начала изучи Pinterest, Behance, сохрани 5–10 понравившихся примеров. Чем более точное при описании, тем более приближенный результат.
Примеры концептов:
Для того чтобы выбрать соответствующее ПО или сервис, надо учесть следующее:
Пример параметров в Stable Diffusion (Stable Diffusion):
Требования к фотоснимкам для обучения модели (fine-tuning) таковы:
Процесс дообучения (DreamBooth, LoRA):
Цена — 5–15 долларов в облачных сервисах или бесплатно, если запускать локально, где нужна как минимум видеокарта с 10 ГБ VRAM.
| Типичная ошибка | Причина | Решения |
|---|---|---|
| Лишние пальцы, неестественные руки | Недостаточное обучение на руке | Добавь negative prompt «дополнительные пальцы», обрежь кадр выше рук |
| Размытое лицо | Недостаточно шагов или небольшое разрешение | Увеличь sampling steps, используй face restoration |
| Нереалистичная кожа | Слишком высокий CFG Scale | Сниж CFG, добавь в промт «natural skin texture» |
| Артефакты на фоне | Конфликтующие элементы в промте | Упрости описание фона, применяй inpainting |
| Несоответствие стилю | Неполное понимание промта моделью | Уточни стиль, добавь ссылки на художников в промте |
В среднем, чтобы получить реалистичный портрет, требуется 3–5 итераций: генерирование, анализ, исправление и повтор.
Стиль задается ключевыми словами в промте или выбором соответствующей модели.
Рекомендации по CFG Scale:
Наиболее популярны следующие методы: Euler ancestral (быстрый), DPM++ 2M Karras (качественный), DDIM (стабильный).
Denoising Strength для img2img: 0.3–0.5 — легкая коррекция, 0.6–0.8 — сильное изменение.
CivitAI — самая крупная библиотека моделей для Stable Diffusion, в которой представлено множество чекпоинтов, а также LoRA и эмбеддингов.
Hugging Face — платформа для open-source моделей, включая базовые и дообученные версии Stable Diffusion.
Конструирование собственных моделей открывает возможность создавать уникальные стили на основе DreamBooth, LoRA или Textual Inversion. Обучение занимает несколько часов на мощной "видеокарте".
Рекламная кампания Levi's (2023): AI-модели разных рас использовались для демонстрации инклюзивности без масштабного кастинга. Это сэкономило более $100,000.
AI-автопортреты для LinkedIn от Aragon.AI: сервис генерирует до 40 деловых портретов из 10 селфи. За время работы им воспользовалось более 500 000 пользователей.
Онлайн образование: делаем обложки курсов и иллюстрации за несколько часов вместо нескольких дней.
«AI-сервисы для быстрого и недорогого создания портретов уже помогают более чем 500 000 пользователей повысить качество их контента.»
Советы:
Рекомендации по этике:
Этика — это осмысленный подход к использованию инструмента, который сам по себе не является добром, не является злом.
Для новичков — DALL-E 3 через ChatGPT Plus, проще и быстрее некуда. Для занятий художественным творчеством и создания художественных образцов — Midjourney. Для тех, кто вообще не против замараться в управлении и настройках — Stable Diffusion, локально или в облачном пространстве. Для бизнеса есть специализированные сервисы, такие как Aragon AI и Facee, со стандартными шаблонами и быстрой генерацией деловых портретов.
Для социальных сетей, как правило достаточно и 70–80 % схожести, а вот для офисной документации одной генерации обычно недостаточно — нужна доработка.
Юридически — да, но этически и с точки зрения права на изображение — нет. Предпочтительнее использовать для своих нужд исключительно собственные или разрешенные фотографии.
На сегодняшний момент ИИ-фотография продолжает напоминать цифровую фотографию начала 2000-х годов — вначале все скептически относились к новой технологии, но потом она стала нормой. Далее идет уже массовое внедрение AI-фотографии, способной изменить сам подход к созданию визуального контента.
Информация в статье носит общий характер и не заменяет инвестиционных, юридических или консультаций по безопасности. Использование AI помощников требует осознанного подхода и понимания функций конкретных платформ.