ИИ обучили раскрашивать скетчи по тегам
Исследовательская группа Сеульского национального университета представила проект Tag2Pix для раскрашивания черно-белых набросков по текстовым атрибутам на основе генеративной состязательной нейросети (GAN). Используя текстовые атрибуты типа «blue_hair» или «brown_eyes», Tag2Pix может преобразовывать однотонные скетчи в цветные иллюстрации.
Существующие нейросети, которые умеют автоматически раскрашивать изображения, либо требуют участия художника, который должен отметить цветными штрихами нужные области скетча, как например в PaintsChainer, либо для них нужны иллюстрации-доноры стиля, как в нейросети Style2Paints.
В отличие от первых двух для Tag2Pix не требуются дополнительные трудозатраты и вычислительные ресурсы. В Tag2Pix используется набор данных, который на входе содержит однотонные скетчи, теги инвариантных цветов (Color Invariant Tag, CIT) и теги варьируемых цветов (Color Variable Tag, CVT), а на выходе — цветные иллюстрации. Порождающая и различающая модели обрабатывают входные скетчи, извлекают теги СIT, кодируют теги CVT и на выходе получается итоговая иллюстрация. Новизна нейросети в архитектуре Squeeze and Excitation with Concatenation (SECat), которая позволяет сегментировать исходник по нескольким тегам и применять соответствующие цвета. С ее помощью достигается раскрашивание даже небольших участков, например глаз.
В примере ниже каждый ряд раскрашивался, используя два общих тега CIT и один варьируемый CVT на входе, что позволило добиться естественности раскрашивания при использовании разных комбинаций тегов.
Сравнение трех нейросетей по критерию детальности сегментирования, естественности, точности и качеству также показало превосходство нового подхода.
Исходный код и предварительно обученная нейросеть доступны на Github.
Также по теме: с помощью ИИ энтузиасты возвращают классический облик "Королю льву".