Технологии·27 мая 2026·7 мин

раздеть по фото онлайн: серверный пайплайн

Попробуй прямо сейчас

3 бесплатные обработки. Без регистрации.

Что реально происходит на серверах RazdevatorFoto за те 15–40 секунд, пока вы ждёте результат? Разбираем каждый этап пайплайна: от приёма файла до выдачи готового HD-изображения.

Архитектура системы: общий взгляд

Когда пользователь отправляет фото через Telegram-бот, запрос проходит через несколько независимых сервисов, прежде чем вернуться готовым изображением. RazdevatorFoto построен на микросервисной архитектуре: каждый этап обработки выполняется специализированным модулем. Это позволяет масштабировать наиболее нагруженные участки пайплайна, не затрагивая остальные.

Серверная инфраструктура развёрнута в нескольких дата-центрах с балансировкой нагрузки. Это означает, что в пиковые часы запросы автоматически распределяются между узлами — время ожидания остаётся предсказуемым даже при одновременной работе тысяч пользователей.

Этап 1. Приём и валидация входного файла

Попробуй прямо сейчас

3 бесплатные обработки. Без регистрации.

Открыть →

Первый шаг — получение файла от API Telegram и его первичная проверка. Система проверяет формат (JPEG, PNG, WebP), размер файла, целостность данных и EXIF-метаданные. На этом же этапе выполняется детекция NSFW-контента с помощью классификатора на базе CLIP. Если содержимое файла не соответствует допустимым категориям, запрос отклоняется ещё до начала генерации.

Разрешение входного изображения фиксируется для последующего апскейлинга. Если исходник меньше 512×512, пользователь получает предупреждение о низком входном разрешении. Если больше 4096 пикселей по длинной стороне, изображение масштабируется до этого порога перед передачей в основной пайплайн.

Этап 2. Сегментация и маскирование одежды

Это один из ключевых этапов, от которого напрямую зависит качество итогового результата. Модуль сегментации использует архитектуру на базе SegFormer, дообученную на специализированном датасете одежды и тела человека. Задача модуля — создать маску: точно очертить области, занятые одеждой, и разделить их от открытых участков кожи и фона.

Сегментация выполняется в несколько проходов. Первый проход — грубая сегментация: выделение общего силуэта фигуры. Второй проход — детальная сегментация отдельных предметов одежды: верх, низ, обувь, аксессуары. Третий проход — уточнение границ маски по краям с субпиксельной точностью. Итоговая маска передаётся в инпейнтинг-модуль.

Этап 3. Извлечение контекстных признаков

Прежде чем приступить к генерации, система собирает контекстные признаки изображения. Это необходимо для того, чтобы результат был органично вписан в исходный снимок. Анализируются: цветовая температура и тональность освещения, направление и интенсивность теней, текстура кожи на открытых участках, общий контраст и насыщенность.

Эти параметры передаются в диффузионную модель в виде условных векторов, которые «направляют» генерацию в сторону максимальной реалистичности. Именно этот шаг отличает профессиональный инструмент от простых фильтров: свет и тени в сгенерированной области будут соответствовать реальному освещению фотографии.

Этап 4. Диффузионная генерация (инпейнтинг)

Сердце пайплайна — диффузионная модель Diffusion v3.4. Это латентная диффузионная архитектура (LDM), работающая в компрессированном латентном пространстве. Генерация выполняется не в пространстве пикселей напрямую, а в пространстве сжатых представлений, что на порядок ускоряет процесс без потери качества.

Процесс генерации начинается с зашумлённого тензора, который шаг за шагом «очищается» под управлением U-Net-сети с механизмом перекрёстного внимания. Количество шагов денойзинга — 30 в стандартном режиме и 50 в режиме «Высокая детализация». Каждый шаг уточняет детали сгенерированной области, опираясь как на контекстные признаки исходного фото, так и на текстовый промпт, формируемый автоматически на основе параметров, выбранных пользователем.

Область инпейнтинга — только маскированная зона одежды. Остальные части изображения (лицо, фон, незакрытые участки) не модифицируются. Это гарантирует, что лицо человека, окружение и общая композиция снимка останутся нетронутыми.

Этап 5. Постобработка и сглаживание границ

После генерации на стыке исходного изображения и сгенерированной области часто возникают заметные переходы. Модуль постобработки решает эту проблему с помощью метода «мягкого смешения» (feathered blending): граница маски размывается на несколько пикселей, и на этой переходной зоне применяется взвешенное усреднение пикселей из обоих источников.

Дополнительно применяется корректировка цветового баланса сгенерированной области: гистограмма цветов приводится в соответствие с тональностью исходника. Этот шаг устраняет характерные для диффузионных моделей «цветовые пятна» и делает переходы незаметными.

Этап 6. Апскейлинг до HD и 4K

Последний необязательный этап — увеличение разрешения. Diffusion v3.4 оптимально работает с разрешением 1024×1024. Для выдачи результата в HD (1920×1920 и выше) применяется суперразрешение на базе Real-ESRGAN, адаптированного под специфику задачи. Модель апскейлинга обучена на датасете реалистичных изображений тела человека и особенно хорошо восстанавливает мелкие детали кожи, волос и теней.

В режиме 4K (до 3840×3840) дополнительно используется тайловое увеличение: изображение делится на перекрывающиеся фрагменты, каждый обрабатывается отдельно, затем фрагменты сшиваются обратно с устранением швов. Это позволяет достигать сверхвысокого разрешения, не превышая допустимую нагрузку на GPU-память.

Этап 7. Упаковка и доставка результата

Готовое изображение сжимается в JPEG с качеством 95 (для HD) или передаётся как PNG без потерь (для 4K). Файл временно сохраняется в зашифрованном объектном хранилище с TTL 60 минут и передаётся пользователю через API Telegram. После истечения TTL файл автоматически удаляется — на серверах RazdevatorFoto не остаётся никаких копий.

Производительность и время ответа

Средние показатели времени обработки по этапам (на одном GPU A100, разрешение входника 1024×1024):

Валидация и сегментация — около 2–4 секунд. Извлечение контекстных признаков — 1–2 секунды. Диффузионная генерация (30 шагов) — 8–15 секунд. Постобработка и сглаживание — 1–2 секунды. Апскейлинг до HD — 3–8 секунд. Итого — 15–31 секунда в среднем.

В режиме «Высокая детализация» (50 шагов) время генерации возрастает примерно до 20–30 секунд, итоговое время обработки — 30–50 секунд. Апскейлинг до 4K добавляет ещё 15–30 секунд в зависимости от итогового разрешения.

Масштабируемость и отказоустойчивость

Инфраструктура RazdevatorFoto рассчитана на горизонтальное масштабирование. При росте очереди запросов оркестратор автоматически запускает дополнительные GPU-инстансы. Это позволяет поддерживать стабильное время ответа в пиковые периоды без деградации качества.

Каждый этап пайплайна имеет механизм повторных попыток: если один из микросервисов вернул ошибку, система автоматически повторяет запрос до трёх раз. Если все три попытки завершились неудачей, пользователь получает сообщение об ошибке и его бесплатная попытка не списывается.

Мониторинг инфраструктуры ведётся в режиме реального времени. Системы алертинга отслеживают задержки на каждом этапе и автоматически уведомляют инженерную команду при отклонении от нормы. Целевой показатель доступности сервиса — 99,5% в месяц.