Технологии·16 июня 2026·9 мин

раздеть девушку нейросетью: controlnet и диффузия

Попробуй прямо сейчас

3 бесплатные обработки. Без регистрации.

Как нейросеть «знает», где одежда и что под ней? Объясняем технологию изнутри: от маски сегментации до финального шага денойзинга — без лишнего упрощения.

Архитектура системы: три ключевых компонента

Современный AI-раздеватор — это не одна нейросеть, а конвейер из нескольких специализированных моделей, работающих последовательно. Понимание этой архитектуры объясняет, почему качество результата так сильно зависит от входного изображения и почему некоторые снимки обрабатываются лучше других.

Три основных компонента системы RazdevatorFoto:

Модель сегментации — определяет, где на снимке находится одежда
ControlNet — сохраняет позу и структуру тела при генерации
Diffusion v3.4 + Inpainting — генерирует новое содержимое в зоне маски

Шаг 1: сегментация — поиск маски одежды

Попробуй прямо сейчас

3 бесплатные обработки. Без регистрации.

Открыть →

Первый этап обработки — автоматическое выделение области одежды на фотографии. Для этого используется модель семантической сегментации, обученная на миллионах аннотированных снимков с разметкой типов одежды.

Модель сегментации работает на уровне пикселей: каждому пикселю присваивается метка класса — «кожа», «одежда», «волосы», «фон» и так далее. На выходе формируется бинарная маска: белые пиксели — зона для обработки (одежда), чёрные — зона, которую нельзя изменять.

Точность сегментации критически влияет на конечный результат. Современные модели на базе архитектуры Segment Anything (SAM) достигают точности IoU (Intersection over Union) около 92–95% на стандартных тестовых наборах. Практически это означает, что граница между одеждой и кожей определяется с точностью до нескольких пикселей на снимке разрешением 1K.

Сложности сегментации:

Полупрозрачные ткани — граница размыта и алгоритм колеблется
Одежда в тон кожи — нейросеть может ошибиться
Сложные узоры — геометрические принты затрудняют распознавание текстуры ткани
Плохое освещение — низкий контраст снижает точность до 80–85%

Шаг 2: ControlNet — скелет позы

После сегментации система переходит к извлечению структурной информации о позе тела. Именно здесь появляется ControlNet — архитектура, разработанная в 2023 году и ставшая прорывом в управляемой генерации.

ControlNet извлекает из исходного изображения карту ключевых точек тела (OpenPose skeleton) — 18–25 точек, описывающих положение суставов, плеч, бёдер, колен и других ориентиров. Дополнительно может строиться карта глубины (depth map) и карта нормалей (normal map).

Эти карты подаются в диффузионную модель как «условие» генерации. Диффузионная модель обязана соблюдать заданную структуру при создании нового изображения — именно поэтому поза человека сохраняется даже при полной замене содержимого в зоне маски.

Технически ControlNet реализован как параллельная ветка к основной архитектуре UNet (или трансформера в v3.4): условные данные вводятся через механизм cross-attention на нескольких уровнях декодера. Это позволяет мягко «направлять» генерацию, не ломая общую структуру сцены.

Шаг 3: инпейнтинг — заполнение маски

Ключевой этап — диффузионный инпейнтинг. Это процесс заполнения замаскированной области (там, где была одежда) новым содержимым, согласованным с остальным изображением.

Диффузионный процесс работает итеративно. Начиная с чистого шума в области маски, модель постепенно «убирает» шум за T шагов (обычно 20–50), на каждом шаге делая изображение немного более структурированным. Этот процесс управляется несколькими параметрами:

Guidance scale (CFG) — насколько строго модель следует текстовому или структурному условию. Значения 7–12 дают баланс между свободой и управляемостью
Denoise strength — сколько шума добавить в маску перед началом. Значение 1.0 — чистый шум, 0.5 — половина оригинала. Для раздеватора обычно 0.9–1.0
Число шагов — больше шагов = лучше качество, но дольше. Диффузия v3.4 эффективна уже за 20 шагов
Sampler — алгоритм шагового обратного диффузионного процесса. DPM++ 2M Karras обеспечивает лучший баланс скорости и качества

Как модель «знает», что генерировать

Ключевой вопрос: откуда нейросеть знает, что именно нарисовать под одеждой? Ответ — из двух источников одновременно.

Первый источник — статистические знания модели. В ходе обучения на миллионах изображений Diffusion v3.4 изучила нормальную анатомию человеческого тела: типичные пропорции, текстуры кожи, распределение теней и бликов. Когда модель видит открытый плечевой пояс, она «знает», как выглядят плечи и грудная клетка под ними.

Второй источник — контекст изображения. Незамаскированные области снимка дают мощные подсказки: тон кожи шеи и рук используется для генерации кожи в зоне маски, структура тела за пределами одежды определяет пропорции в закрытой зоне, освещение окружения задаёт направление теней.

Именно поэтому снимки с хорошо видимыми «опорными точками» — шеей, руками, голенями — дают лучший результат, чем снимки, где всё тело закрыто одеждой от шеи до пят.

Постобработка и upscaling

После основной генерации система применяет постобработку для повышения качества. В RazdevatorFoto это включает:

Upscaling через ESRGAN или аналогичный апскейлер — повышение разрешения до 2K без потери деталей
Face restoration через GFPGAN/CodeFormer — восстановление деталей лица, которое может пострадать при инпейнтинге
Бесшовное смешивание (seamless blending) на границе маски — устранение заметных границ между сгенерированной и оригинальной областями

Весь конвейер от получения входного изображения до отправки результата занимает 2–4 секунды на серверной GPU-инфраструктуре. Это результат агрессивной оптимизации: использование TensorRT, квантизации INT8 для некритичных компонентов и параллельного исполнения независимых шагов конвейера.

Почему это лучше, чем GAN

Для сравнения: ранние GAN-раздеваторы 2020–2021 года пытались решить задачу «в лоб» — обучить сеть напрямую предсказывать пиксели тела по пикселям одежды. Это порождало размытые, нереалистичные результаты с характерными артефактами «шахматки».

Диффузионный подход принципиально иной: вместо прямого предсказания — итеративное уточнение. Это означает, что модель имеет возможность многократно «обдумать» каждую деталь, проверяя согласованность с контекстом. Отсюда значительно более высокое качество и реалистичность.

Разрыв в качестве между GAN 2021 года и Diffusion v3.4 2026 года — это примерно как разница между телефонной фотографией 2010 года и современной камерой. Технология прошла огромный путь за короткое время.