"Сбер" запустил нейросеть Kandinsky 2.1, генерирующую изображения по текстовому описанию
Команда разработчиков из "Сбера" представила новую версию своей нейросети Kandinsky, которая является отечественным аналогом популярного алгоритма Midjourney. Новая генеративная модель Kandinsky 2.1 может использоваться для создания высококачественных изображений на основе текстового описания, а также для дорисовки картинок и других целей. Нейросеть доступна для использования всем желающим.
Сгенерировано по запросу: "Фотореалистичная девушка со злым лицом"
С помощью новой модели Kandinsky 2.1 можно создавать высококачественные изображения всего за несколько секунд по текстовому описанию на русском языке. Она также может смешивать несколько рисунков, изменять их в соответствии с текстовым описанием, генерировать изображения, которые похожи на заданное, дорисовывать недостающие части картинки и формировать изображения в режиме бесконечного полотна (inpainting/outpainting). Модель понимает запросы на 101 языке, включая русский и английский, и умеет рисовать в различных стилях.
Сгенерировано по запросу: "Фотореалистичный старик", при изменении запроса,
например нового головного убора, нейросеть не смогла предложить варианты и оставила это же изображение.
Модель Kandinsky 2.1 является значительно улучшенной версией, по сравнению с предыдущим алгоритмом и была обучена на объединенном датасете Sber AI и SberDevices, который содержит 170 млн пар "текст-изображение" высокого разрешения, а также на дополнительном датасете из двух миллионов пар качественных изображений, включающих сложные для нейросетей области.
Новый алгоритм основан на новой модели автоэнкодера, которая используется как декодер векторных представлений изображений. Это значительно повысило качество генерации изображений в высоком разрешении. Модель Kandinsky 2.1 содержит 3,3 млрд параметров, что на 1,3 млрд больше, чем модель Kandinsky 2.0. Алгоритм использует закодированное текстовое описание и специальное представление изображения моделью CLIP. Это позволяет ему визуализировать любой контент и применяться в различных отраслях. В обучении новой модели принимали участие специалисты Sber AI и ученые из Института искусственного интеллекта AIRI.
По запросу "Мужчина в юбке", мы ожидали увидеть шотландца, но нейросеть испорченная современным интернетом предложила нам азиатскую девушку, причем с иероглифом в правом нижнем углу.
Но мы собрались с силами и скорректировали запрос на: "Мужчина с усами в юбке" и наконец получили нашего шотландца.
Вы можете оценить возможности Kandinsky 2.1 на промо-странице, а также запустить её на устройствах Sber, в мобильном приложении "Салют" и на платформе ML Space с помощью команды "Запусти художника".
Кроме того, нейросеть доступна через Telegram-бота, но нужно учитывать, что многие пользователи столкнулись с ошибкой "Произошла ошибка при работе модели:( Попробуй, пожалуйста, еще раз".
Если у вас получились забавные изображения, прикладывайте ссылки на них + текстовый запрос в комментариях к новости.