Технологии·17 мая 2026·7 мин

ии-раздеватор фото: как работает diffusion-пайплайн

Попробуй прямо сейчас

3 бесплатные обработки. Без регистрации.

Подробный технический разбор всех этапов обработки изображения — от первичной сегментации тела до финальной доводки пикселей с помощью DPM++ и LoRA-адаптеров.

Почему диффузионные модели победили все остальные подходы

До появления диффузионных моделей задачу изменения одежды на фотографии пытались решать разными способами: GAN-сети (генеративно-состязательные), автоэнкодеры, методы image-to-image на основе нейросетей предыдущего поколения. Все они давали неудовлетворительные результаты на сложных случаях — нестандартные позы, необычные ракурсы, сложное освещение превращались в артефакты.

Диффузионный подход, появившийся в виде практических систем в 2022 году и достигший зрелости к 2024–2026 годам, принципиально отличается от предшественников. Модель обучается не генерировать изображение напрямую, а итеративно убирать случайный шум из зашумлённого изображения. Этот процесс называется денойзингом, и именно он обеспечивает исключительное качество деталей и фотореализм финального результата.

Архитектурно современный ии-раздеватор фото в RazdevatorFoto построен на базе SDXL (Stable Diffusion XL) с доработками, специфичными для задачи inpainting — заполнения маскированных зон изображения. К базовой архитектуре добавлены ControlNet-кондиционеры и специализированные LoRA-адаптеры, обученные на профильных датасетах.

Этап первый: предобработка и анализ изображения

Попробуй прямо сейчас

3 бесплатные обработки. Без регистрации.

Открыть →

Когда вы отправляете фотографию боту, первым делом происходит предобработка. Изображение нормализуется по размеру — приводится к рабочему разрешению модели, как правило, кратному 64 пикселям (требование архитектуры трансформеров). Оригинальные пропорции при этом сохраняются через padding или умное кадрирование.

Параллельно запускаются несколько аналитических модулей:

Детектор поз. Специализированная сеть анализирует положение тела и определяет ключевые точки скелета — плечи, локти, запястья, бёдра, колени, лодыжки. Полученная поза кодируется как skeleton-map и будет использована ControlNet-кондиционером на этапе генерации.
Детектор глубины. Карта глубины сцены позволяет модели понять трёхмерную структуру — что находится ближе к камере, что дальше. Это критически важно для корректной генерации перекрытий и теней.
Сегментация одежды. Семантическая сегментационная сеть (обычно на базе ViT или аналогичной архитектуры) размечает каждый пиксель изображения, определяя, к какому классу он принадлежит: кожа, волосы, одежда, фон, аксессуары.

Этап второй: построение маски

По результатам сегментации формируется маска inpainting — бинарная карта, где белые пиксели обозначают зоны, которые нужно перегенерировать, а чёрные — зоны, которые должны остаться неизменными. Маска строится с мягкими краями (feathering) для плавного перехода между оригинальными и сгенерированными зонами.

Качество маски напрямую определяет качество финального результата. Слишком грубая маска даёт жёсткие края и заметные артефакты на границах. Слишком мягкая маска захватывает часть оригинальной текстуры одежды, которая просачивается в генерацию. Поэтому алгоритм построения маски постоянно совершенствуется — в текущей версии системы используется многоуровневое построение с контуром высокой точности вдоль силуэта тела.

Этап третий: ControlNet-кондиционирование

ControlNet — это дополнительный модуль, который встраивается в архитектуру диффузионной модели и позволяет направлять генерацию через дополнительные карты-условия. В ии-раздеваторе фото используется несколько ControlNet-кондиционеров одновременно:

Pose ControlNet получает на вход skeleton-map из этапа анализа и гарантирует, что сгенерированное тело будет иметь ту же позу, что и на исходном снимке. Без этого кондиционера диффузионная модель могла бы произвольно изменять положение конечностей при генерации.

Depth ControlNet использует карту глубины для сохранения пространственных отношений в сцене. Это обеспечивает реалистичные тени и корректную перспективу.

Reference ControlNet получает несмаскированные части оригинального изображения — лицо, руки, фон — и сохраняет их характеристики в генерируемых зонах. Это позволяет результату выглядеть органично как единое целое, а не как коллаж из разных источников.

Этап четвёртый: диффузионный процесс с DPM++ solver

Собственно генерация происходит через итеративный диффузионный процесс. Маскированные зоны изображения заполняются случайным гауссовским шумом, после чего модель пошагово убирает этот шум, добавляя осмысленные детали на каждой итерации.

В качестве решателя (solver) используется DPM++ 2M Karras — один из наиболее эффективных на сегодняшний день численных методов для диффузионных моделей. Он обеспечивает высокое качество результата при относительно небольшом числе шагов (20–30 vs 50–100 у устаревших DDIM-солверов), что напрямую влияет на скорость обработки.

Параметр CFG Scale (classifier-free guidance) определяет, насколько жёстко модель следует текстовому или структурному промпту. Слишком низкое значение даёт размытые, неопределённые результаты; слишком высокое — пересвеченные, артефактные. Оптимальный диапазон для данной задачи — 5–8, и система выбирает значение автоматически в зависимости от характеристик исходного снимка.

Этап пятый: LoRA-адаптеры и тонкая настройка

LoRA (Low-Rank Adaptation) — метод дообучения больших нейросетей на специфических задачах без полной переобучения всех весов модели. Он позволяет добавлять "надстройки" к базовой SDXL-модели, которые специализируют её для конкретных визуальных стилей или задач.

В пайплайне RazdevatorFoto применяется пакет специализированных LoRA-адаптеров:

Адаптер реализма кожи — улучшает фотореалистичность текстуры, делает результат более близким к настоящей фотографии, а не к компьютерной графике.
Адаптер анатомии тела — корректирует типичные ошибки базовой модели в пропорциях тела при нестандартных позах.
Адаптер освещения — помогает генерируемым зонам соответствовать световому рисунку оригинального снимка.

Все LoRA работают одновременно с разными весами, баланс которых подобран экспериментально на валидационном датасете.

Этап шестой: post-processing и финальная сборка

После диффузионного процесса результат проходит несколько этапов постобработки. Апскейлинг через ESRGAN или аналогичный алгоритм увеличивает разрешение до HD (как минимум 1024 пикселей по короткой стороне). Цветокоррекция подстраивает гамму и баланс белого сгенерированных зон под оригинальный снимок. Финальная сборка соединяет немаскированные зоны оригинала с синтезированными зонами через маску с мягкими краями.

Весь пайплайн от получения изображения до отправки результата занимает 15–60 секунд в зависимости от разрешения входного фото и текущей загруженности GPU-кластера.

Версия модели Diffusion v3.4

Текущая версия пайплайна RazdevatorFoto — Diffusion v3.4. По сравнению с предыдущими версиями она обеспечивает более точную сегментацию при сложных условиях освещения, лучше сохраняет черты лица и идентичность человека на снимке, а также показывает значительно меньше анатомических артефактов при нестандартных позах. Работа над версией 3.5 ведётся в направлении улучшения обработки многослойной одежды и повышения точности на смартфонных снимках с ночным режимом.

Аппаратная база

Для запуска пайплайна такого класса в продуктиве требуется серьёзная аппаратная база. Система работает на GPU-кластере с картами NVIDIA A100 или аналогичными. Модель SDXL в полном виде занимает около 6–8 ГБ видеопамяти; с учётом ControlNet-кондиционеров и буферов обработки требования вырастают до 14–16 ГБ. Именно поэтому запустить полноценный аналог этого сервиса на потребительском железе затруднительно — системы с потребительскими GPU дают заметно худший результат из-за необходимости агрессивного квантования весов.

Заключение

Современный ии-раздеватор фото — это не одна нейросеть, а сложный многоэтапный пайплайн из нескольких специализированных систем, работающих в связке. Сегментация, ControlNet-кондиционирование, диффузионный процесс с DPM++-солвером, LoRA-адаптеры и постобработка — каждый этап вносит свой вклад в финальное качество. Именно эта многоуровневая архитектура обеспечивает результаты, которые выглядят реалистично и органично.