ии-раздеватор фото: тест 5 типов снимков
Мы протестировали систему на пяти принципиально разных типах исходников — и готовы честно рассказать, где алгоритм отработал на отлично, а где ещё есть над чем работать.
Методология тестирования
Для каждого типа снимков мы провели серию из пяти обработок, выбирали лучший результат и оценивали его по трём критериям: реалистичность текстур, анатомическая корректность и соответствие общему световому рисунку оригинального снимка. Все тесты проводились на одной и той же версии пайплайна — Diffusion v3.4. Оценки выставлялись по шкале от 1 до 10.
Важное предупреждение: все тесты проводились исключительно с фотографиями взрослых людей, специально предоставленными для целей тестирования. Использование сервиса допустимо только в соответствии с правилами платформы.
Тип 1. Студийная фотография с мягким светом
Описание исходника: профессиональное студийное фото, равномерный рассеянный свет из двух источников, нейтральный серый фон, человек в анфас, одежда — облегающее платье. Разрешение 3000 x 4500 пикселей, формат JPEG с минимальным сжатием.
Это идеальный сценарий для нейросети. Равномерное освещение позволяет алгоритму точно определить направление источников света и синтезировать корректные тени и блики на генерируемых зонах. Нейтральный фон не создаёт ложных ориентиров для сегментационной сети. Облегающая одежда позволяет точно определить контуры тела и построить качественную маску.
Результат оказался впечатляющим. Текстуры кожи выглядят реалистично, переходы между оригинальными зонами (лицо, руки) и синтезированными плавные и незаметные. Анатомия корректная, пропорции тела соответствуют оригиналу. Оценка по всем трём критериям: 9/10, 9/10, 9/10.
Тип 2. Смартфонное фото в обычных условиях
Описание исходника: снято на современный флагманский смартфон в режиме портрета, дневное освещение у окна, лёгкое размытие фона от алгоритма боке. Разрешение 2448 x 3264 пикселя. Одежда — джинсы и футболка.
Это, пожалуй, самый частый тип снимков, с которым работает сервис. Алгоритмическое боке смартфона — первый вызов для системы: оно размывает часть информации о контурах фигуры. Тем не менее сегментация справилась хорошо — дневной свет из окна создаёт мягкий, направленный источник освещения, который алгоритм успешно распознал и воспроизвёл.
Небольшие артефакты возникли в зоне перехода между джинсами и футболкой — сложный двухслойный переход с разными текстурами. В одной из пяти попыток граница прошла чуть не там, где нужно. Но лучший из пяти результатов выглядел очень убедительно. Оценки: 8/10, 8/10, 7/10.
Тип 3. Объёмная зимняя одежда
Описание исходника: фото на улице, зимний день, облачное освещение. Человек в объёмном пальто с меховым воротником. Фигура значительно увеличена объёмом одежды относительно реального телосложения.
Это наиболее сложный сценарий для алгоритма. Объёмная одежда скрывает форму тела полностью — нейросеть вынуждена генерировать тело, опираясь преимущественно на данные из детектора поз (виден силуэт) и на статистические знания о телосложении людей из обучающего датасета. Это принципиально отличается от случаев, когда одежда облегающая и контуры тела угадываются.
Анатомический результат оказался приемлемым — грубых артефактов не было. Пропорции тела выглядят реалистично. Однако лёгкие несоответствия в освещении на генерируемых зонах были заметны — зимнее облачное освещение с его специфической мягкостью оказалось более сложным для воспроизведения, чем студийный или оконный свет. Оценки: 7/10, 7/10, 6/10.
Тип 4. Снимок с несколькими людьми на кадре
Описание исходника: фото двух людей рядом, съёмка в помещении с естественным светом. Оба в лёгкой летней одежде. Задача — обработка только одного из двух людей на снимке.
Это заведомо сложный сценарий, с которым алгоритм справляется хуже, чем с одиночными снимками. Проблема в том, что сегментационная сеть и ControlNet-кондиционеры оптимизированы для работы с одним субъектом на переднем плане. При наличии двух людей система выбирает для обработки наиболее крупного (ближайшего к камере) или первого, обнаруженного детектором поз.
В нашем тесте система корректно обработала основного субъекта, но второй человек в кадре привёл к нескольким дополнительным артефактам в зоне перекрытия фигур. В попытках, где фигуры не перекрывались, результат был значительно лучше. Вывод: для групповых снимков рекомендуется предварительно кадрировать нужного человека отдельно. Оценки: 6/10, 7/10, 5/10.
Тип 5. Сложный перегруженный фон
Описание исходника: фото на фоне книжного стеллажа, множество объектов разных форм и цветов за спиной. Человек в белой рубашке. Освещение — смешанное: дневной свет из окна и искусственный свет лампы.
Сложный фон создаёт трудности для сегментационного этапа — алгоритм должен чётко отделить фигуру человека от плотного контрастного фона. Смешанное освещение добавляет сложности для воспроизведения светового рисунка. Белая рубашка, напротив, облегчает задачу — светлые однородные цвета хорошо сегментируются.
Сегментация отработала корректно — граница маски вдоль силуэта была чёткой. Но в нескольких точках, где тёмные части фона оказались близки по яркости к тёмным элементам одежды, алгоритм ошибся в маске. Светло-тёмный контраст на рубашке относительно фона помог системе. Воспроизведение смешанного освещения оказалось самым слабым местом этого теста. Оценки: 7/10, 8/10, 6/10.
Сводная таблица результатов
Если подвести итог в числах, студийные снимки дают наилучший результат по всем трём критериям. Смартфонные снимки в хороших условиях освещения — уверенный второй результат. Объёмная одежда и сложный фон снижают качество, но не критически. Групповые снимки — наиболее проблемный сценарий, решение которого лежит в предварительном кадрировании нужного субъекта.
Практический вывод для пользователей: качество результата напрямую зависит от качества и простоты исходника. Чем проще и яснее условия съёмки, тем лучше отработает нейросеть. Это не ограничение конкретного сервиса — это фундаментальная особенность любой системы компьютерного зрения.
Дополнительные наблюдения
В процессе тестирования мы заметили несколько интересных паттернов, которые могут быть полезны пользователям.
Повторные попытки часто дают лучший результат. Диффузионная модель использует случайный стартовый шум (seed), и разные seed дают заметно отличающиеся результаты при одном и том же входном изображении. Если первая попытка разочаровала — стоит попробовать ещё 2-3 раза.
Время суток и нагрузка на серверы влияют на скорость, но не на качество. Алгоритм детерминирован относительно seed при одинаковом входе — нагрузка не меняет сам результат, только время его получения.
Разрешение на выходе всегда HD. Даже если исходник имел относительно невысокое разрешение — скажем, 1200 x 1600 пикселей — на выходе система апскейлит результат до не менее 1024 пикселей по короткой стороне с сохранением деталей. Это делает результаты пригодными для печати или публикации в высоком разрешении.
Итог
ии-раздеватор фото RazdevatorFoto демонстрирует уверенное качество на типичных сценариях использования. Студийные и смартфонные снимки в хорошем освещении дают фотореалистичные результаты с корректной анатомией и плавными переходами. Сложные случаи — объёмная одежда, сложный фон, групповые снимки — поддаются обработке с немного сниженным качеством, но и здесь результаты значительно превосходят то, что могли предложить системы прошлого поколения.
Проверьте своё фото прямо сейчас
3 бесплатные HD-обработки. Без регистрации, без карты.
Открыть @DreamNeuroPhoto_Bot