ИИ раскрашивает ч/б кино без участия человека
Новые исследования Гонконгского университета науки и технологии (Hong Kong University of Science and Technology) позволяют полностью автоматизировать процесс перевода черно-белых фильмов в цвет без участия человека и референсов. Оригинал работы приводится на arXiv.org.
Технология перевода кино/видео в цвет существует достаточно давно. Небольшое количество фильмов начала 20-го века, таких как «Путешествие на Луну» (A Trip to the Moon, 1902) и «В царстве фей» (The Kingdom of the Fairies, 1903), кропотливо, кадр за кадром, раскрашивались вручную людьми. Компьютеризированная колоризация была изобретена в 1970-х годах и с тех пор широко используется и постоянно совершенствуется.
Как правило, для колоризации видео сначала необходимо использовать методы раскрашивания изображения отдельных видеокадров, а затем монтирования их вместе. И тут-то возникают проблемы:
- восстановление истинных цветов в кино/видео сцене по изображению в градациях серого;
- обеспечение постоянства и согласованности цвета на протяжении пости 150 тыс. кадров в 90-минутном фильме.
Для преодоления этих проблем в стандартных методах используются эталонные изображения или эскизы, полностью повторяющие изображение в градациях серого. И если автоматическое раскрашивание изображений уже не ново в сообществе исследователей, автоматический перевод видео в цвет оставался проблемой до недавнего времени.
Разработчики из Гонконского университета предложили структуру, состоящую из нейросети колоризации на основе методов саморегуляции (colourization network with self-regularization techniques) для улучшения качества путем распределения цвета между аналогичными пикселями видеокадра; и нейросети уточнения (refinement network), предназначенную для временной согласованности цветных пикселей между различными кадрами. Ниже приведено сравнение цветных видео с саморегуляцией и без нее.
Авторы также предлагают оптимальное решение для перевода видео в цвет должно быть в состоянии генерировать разнообразный набор цветных версий. Поэтому они реализовали функцию ранжирования потери разнообразия (ranked diversity loss function) для дифференциации различных режимов. Ниже представлены четыре кадра из трех разных видео, обработанных с учетом метода разнообразия.
Разработчики полагают, что в будущем алгоритмы саморегуляции и разнообразия можно применять не только для автоматического добавления цвета в ч/б фильмы, но и в системах технического зрения для понимания и отслеживания объектов. Их коллеги из Сеульского университета обучили нейросеть раскрашивать комиксы по текстовым тегам. А разработчики из Германии собирают инвестиции на проект, который позволит создавать 3D-окружение по фотографии.
Однако, как считают эксперты, несмотря на достижения в области машинного обучения и хайп вокруг таких новостей, не стоит спешить со сменой профессии. Ведь ИИ, который по нажатию одной кнопки сможет "сделать красиво", еще даже нет на горизонте событий, так как если для обучения сравнительно узкоспециальных алгоритмов требуются петафлопсы суперкомпьютерных мощностей, что уже сделало эту индустрию одной из самых ресурсоемких, то для тренировки мало-мальски комплексного цифрового "мозга", который сможет хотя бы Майнкрафт, нужны совсем иные технологии.