Технологии·6 июля 2026·9 мин

razdevatorfoto: diffusion v3.4 под капотом

Попробуй прямо сейчас

3 бесплатные обработки. Без регистрации.

Почему razdevatorfoto даёт HD-результат там, где другие инструменты размывают? Разбираем архитектуру Diffusion v3.4 — от входящего пикселя до финального изображения.

Почему диффузионные модели изменили всё

До появления диффузионных моделей инструменты для AI-обработки фото работали на основе GAN (Generative Adversarial Networks). GAN-архитектуры обучали два нейронных сети играть друг против друга: генератор создавал изображение, дискриминатор его оценивал. Эта гонка давала результаты, но с характерными артефактами — «водяными» текстурами, деформацией лиц и нереалистичными тонами кожи.

Диффузионные модели работают иначе. Они обучаются на процессе постепенного зашумления изображения, а затем учатся восстанавливать его из шума шаг за шагом. Это позволяет генерировать изображения со значительно более высокой детализацией и реализмом.

Diffusion v3.4 в razdevatorfoto — это специализированная версия диффузионной архитектуры, дообученная на задаче инпейнтинга тела. Она не просто генерирует произвольные изображения — она понимает анатомию, освещение, перспективу и текстуру кожи.

Этап 1: Сегментация одежды

Попробуй прямо сейчас

3 бесплатные обработки. Без регистрации.

Открыть →

Прежде чем что-либо генерировать, модель должна точно понять, где заканчивается одежда и начинается тело. Для этого используется модуль семантической сегментации.

Сегментация работает на уровне пикселей: каждый пиксель входящего изображения классифицируется по категориям — кожа, волосы, ткань, фон, аксессуары. Эта классификация строится на нескольких признаках одновременно: цвет, текстура, контекст (соседние пиксели), а также геометрия (форма предмета).

В Diffusion v3.4 сегментационный модуль обучен на расширенном датасете, включающем разнообразные типы одежды: от тонкого трикотажа до плотных джинсов, от летних платьев до зимних курток. Это позволяет точно определять границы одежды даже в сложных случаях — например, при частичном перекрытии рукой или сидячей позе.

Этап 2: Построение маски

После сегментации формируется маска — бинарная карта, где белые пиксели обозначают область, которую нужно заменить (одежда), а чёрные — область, которую нужно сохранить (лицо, руки, фон).

Качество маски критически влияет на итоговый результат. Грубая маска с зубчатыми краями приведёт к заметным швам на границе. Поэтому в v3.4 используется алгоритм мягкого краёвого сглаживания (soft edge feathering): граница маски не бинарная, а градиентная — переход от «заменять» к «сохранять» происходит постепенно, через несколько пикселей.

Дополнительно применяется расширение маски (mask dilation) — маска немного увеличивается относительно видимых границ одежды. Это нужно для того, чтобы захватить ткань, скрытую под телесными складками, и избежать «просвечивающих» краёв одежды на итоговом изображении.

Этап 3: Инпейнтинг с диффузионной моделью

Инпейнтинг — это процесс заполнения замаскированной области новым содержимым. В razdevatorfoto используется метод latent diffusion inpainting: работа происходит не на уровне пикселей, а в пространстве латентных представлений (latent space).

Что такое latent space

VAE (Variational Autoencoder) сначала кодирует входное изображение в сжатое латентное представление — своего рода «математическую суть» изображения в пространстве меньшей размерности. Диффузионная модель работает именно в этом пространстве, что делает вычисления значительно эффективнее без потери качества.

Процесс диффузии

Диффузионная модель начинает с чистого шума в области маски и итеративно «очищает» его, добавляя семантически корректный контент. Каждый шаг делает изображение чуть более чётким и осмысленным. В v3.4 используется 40–50 шагов денойзинга — это баланс между качеством и скоростью генерации.

На каждом шаге модель «видит» и сохраняемую часть изображения, и генерируемую область. Это позволяет сохранять когерентность: тени падают в нужном направлении, тон кожи соответствует тому, что видно на руках и лице, перспектива остаётся правильной.

Этап 4: Генерация реалистичной кожи

Одна из сложнейших задач в AI-обработке фото — генерация убедительной кожи. Кожа имеет сложную многоуровневую структуру: подповерхностное рассеивание (SSS), микротекстуру пор, неравномерную пигментацию, рефлексы от окружающих объектов.

В Diffusion v3.4 реализован специализированный кондиционирующий сигнал для генерации кожи. Модель извлекает из незамаскированных участков кожи (руки, шея, лицо) «профиль кожи» — характеристики тона, текстуры и отражающих свойств конкретного человека. Затем этот профиль используется как дополнительное условие при генерации замаскированной области.

Результат — кожа в сгенерированной зоне перцептуально соответствует коже в оригинальном фото. Это то, что отличает razdevatorfoto от инструментов, использующих универсальную генерацию без учёта индивидуальных характеристик субъекта.

Этап 5: Постобработка и апскейл

После генерации изображение проходит несколько этапов постобработки:

Блендинг краёв — финальное сглаживание границы между оригинальной и сгенерированной областью с учётом Пуассоновского смешивания.
Коррекция цвета — автоматическое выравнивание яркости и насыщенности сгенерированной зоны относительно оригинала.
Апскейл — в HD-режиме применяется Real-ESRGAN для повышения разрешения до 2× без потери детализации.
Шарпенинг — лёгкое повышение резкости краёв для компенсации лёгкой размытости, которую вносит диффузионный процесс.

Почему v3.4 лучше предыдущих версий

Каждая версия модели разdevatorfoto улучшала какой-либо аспект пайплайна. В v3.4 ключевые улучшения относятся к четырём областям:

Точность сегментации (+34%) — новый сегментационный модуль значительно лучше справляется со сложной одеждой и нестандартными позами.
Реализм кожи — введён профиль кожи субъекта, описанный выше.
Скорость — оптимизированный DDIM-сэмплер сократил время генерации на 40% при том же качестве.
Стабильность — уменьшено количество артефактов при сложном освещении и низком разрешении входного фото.

Результат — стабильное HD-качество на широком диапазоне входных фотографий, что и делает razdevatorfoto лидером среди Telegram-ботов данного класса.