Технологии·6 июня 2026·7 мин

раздеватор онлайн — как работает инпейнтинг под капотом

Попробуй прямо сейчас

3 бесплатные обработки. Без регистрации.

Почему раздеватор онлайн выдаёт реалистичный результат, а не набор пикселей? Разбираем диффузионные модели, инпейнтинг и весь технический пайплайн RazdevatorFoto — без лишней теории, только то, что важно на практике.

С чего начинается обработка: сегментация

Когда вы отправляете фото в RazdevatorFoto, первый процесс, который запускается на сервере, — это сегментация. Специализированная нейросеть (не та, что генерирует финальный результат) анализирует изображение и создаёт маску: точный контур тела, отделённый от фона и одежды.

Для этого используется модель типа SegFormer или аналогичная архитектура трансформера, обученная на датасетах человеческих силуэтов. Точность сегментации критически важна: если маска захватит лишние пиксели или, наоборот, пропустит часть тела, финальный результат будет содержать артефакты на границах.

Сегментационная сеть RazdevatorFoto прошла тонкую настройку (fine-tuning) на задаче именно такого типа, что значительно повышает точность по сравнению с универсальными моделями. Особенно хорошо она справляется с краями — волосами, пальцами, складками одежды.

Что такое инпейнтинг и почему он лучше прямой генерации

Попробуй прямо сейчас

3 бесплатные обработки. Без регистрации.

Открыть →

Инпейнтинг (inpainting) — это метод, при котором нейросеть заполняет выделенную область изображения новым контентом, при этом сохраняя всё остальное нетронутым. В отличие от подхода «сгенерировать новое фото целиком», инпейнтинг работает только с той частью изображения, которую нужно изменить.

Это даёт несколько важных преимуществ. Во-первых, фон, освещение и перспектива остаются идентичными оригиналу — нейросеть не придумывает их заново. Во-вторых, лицо и другие незамаскированные части тела сохраняются без изменений. В-третьих, переход между оригинальными и сгенерированными пикселями получается плавным, без резких границ.

Технически инпейнтинг реализуется через специальный conditioning: диффузионная модель получает на вход исходное изображение, маску и текстовый промпт. Маска указывает, какие пиксели нужно заменить, исходное изображение задаёт контекст, а промпт — направление генерации.

Диффузионный процесс: от шума к изображению

Stable Diffusion v3.4, используемый в RazdevatorFoto, работает по принципу обратной диффузии. Если объяснить максимально просто: модель обучена на задаче «убирания шума» из изображения. В процессе обучения к реальным фотографиям добавлялся постепенно нарастающий гауссовский шум, и модель училась восстанавливать оригинал на каждом шаге.

При генерации процесс идёт в обратном направлении: модель начинает с чистого шума (или зашумлённой версии замаскированной области) и шаг за шагом убирает шум, ориентируясь на текстовый промпт и контекст исходного изображения. Каждый шаг — это итерация нейросети U-Net с механизмом cross-attention.

Стандартное количество шагов для качественного результата — 30–50. Каждый шаг уточняет детали: сначала формируется общая форма, затем освещение и цвет, наконец — мелкие текстуры. Именно поэтому при 50 шагах детализация кожи заметно выше, чем при 20.

Латентное пространство и VAE

Важная деталь: диффузия происходит не в пространстве пикселей напрямую, а в латентном пространстве — сжатом числовом представлении изображения. Это делает процесс в 16 раз быстрее и требует значительно меньше памяти GPU.

Для перехода между пиксельным и латентным пространством используется вариационный автоэнкодер (VAE). Encoder «сжимает» изображение в латентное представление, диффузионная модель работает с ним, после чего Decoder «разворачивает» результат обратно в пиксели.

Качество VAE напрямую влияет на чёткость деталей в финальном результате. RazdevatorFoto использует модифицированный декодер с повышенной частотой деталей — это особенно заметно на текстурах кожи при высоком разрешении.

Текстовый промпт и его роль

Пользователь не пишет промпт вручную — это делает автоматическая система на основе анализа входного фото. Нейросеть оценивает освещение, позу, тип кожи и формирует технический промпт, который направляет генерацию в нужную сторону.

Промпт включает несколько блоков: описание качества («high quality, photorealistic, detailed skin»), описание освещения (согласованное с исходным фото), анатомические ориентиры и негативный промпт — список того, что нейросеть должна избегать (артефакты, деформации, нереалистичные пропорции).

Это один из ключевых элементов, который отличает специализированные сервисы от простых инструментов: автоматический промпт учитывает конкретное фото, а не применяет одинаковые параметры ко всем изображениям.

Постобработка: апскейлинг и коррекция

После того как диффузионная модель завершила генерацию в латентном пространстве и VAE перевёл результат в пиксели, начинается этап постобработки. Он включает несколько шагов.

Апскейлинг. Базовая генерация происходит в разрешении 512×512 или 768×768 пикселей. Для финального результата применяется нейросетевой апскейлер (Real-ESRGAN или аналог), который увеличивает изображение до исходного разрешения с восстановлением деталей. Именно поэтому важно загружать фото с высоким разрешением — апскейлер работает лучше, когда ему есть от чего отталкиваться.

Гармонизация цвета. Автоматический цветовой баланс выравнивает тона сгенерированной области так, чтобы они точно совпадали с освещением оригинального фото. Без этого шага граница между оригинальной и сгенерированной частями была бы заметна.

Сглаживание маски. Края маски сегментации слегка размываются (feathering), что делает переход между оригиналом и сгенерированной областью незаметным для глаза.

Аппаратная база и скорость

RazdevatorFoto работает на кластере видеокарт с тензорными ядрами (архитектура, оптимизированная для матричных вычислений). Каждый запрос на обработку занимает в очереди не более нескольких секунд — система автоматически распределяет задачи по свободным GPU.

Среднее время одной обработки — 45–60 секунд. Из них примерно 5 секунд уходит на сегментацию, 30–40 секунд на диффузию и 5–10 секунд на постобработку. При нагрузке очередь может добавить ещё 1–2 минуты ожидания.

Оптимизация с помощью xFormers и Flash Attention 2 снижает потребление памяти GPU примерно вдвое, что позволяет обрабатывать несколько запросов параллельно на одной карте.

Почему результаты всегда разные

Каждый раз, когда вы отправляете одно и то же фото, результат будет немного отличаться. Это не баг, а намеренная особенность. Начальный шум, с которого стартует диффузионный процесс, генерируется случайно — если только вы не указали конкретный seed.

Случайность добавляет разнообразие и означает, что при повторной обработке можно получить более удачный результат. Если вы хотите воспроизводимость, система позволяет указать seed в настройках бота.

Ограничения текущей архитектуры

Честный технический обзор невозможен без упоминания ограничений. Диффузионные модели периодически генерируют анатомические ошибки — лишние пальцы, асимметрию или нереалистичные пропорции. Это наследие обучения: модель видела миллиарды изображений, но статистически редкие позы и ракурсы всё ещё вызывают затруднения.

Сложные одежды с плотными узорами (клетка, мелкая полоска) затрудняют сегментацию на границах — маска может немного «уплыть». В таких случаях рекомендуется выбирать фото с однотонной одеждой.

Также модель хуже справляется с крайними ракурсами — снимками сзади или под острым углом сбоку. Фронтальные и трёхчетвертные ракурсы стабильно дают наилучший результат. Команда RazdevatorFoto продолжает дообучение модели, последовательно устраняя эти ограничения.