Tencent выпустила HunyuanVideo 1.5 - модель для создания видео
Китайская компания Tencent представила новую версию открытой модели HunyuanVideo 1.5, которая позволяет генерировать видео на стандартной видеокарте с относительно небольшой мощностью. Согласно официальным данным, HunyuanVideo 1.5 является первым open-source решением с подобным уровнем качества и доступности.
Основой HunyuanVideo 1.5 является архитектура Diffusion Transformer (DiT), позволяющая генерировать видео в сжатом латентном пространстве. Специальный механизм 3D Variational Autoencoder (VAE) уменьшает объем данных, а новая технология Self-Supervised Temporal Attention (SSTA) ускоряет расчеты на длинных видео практически вдвое.
Генерация коротких видео в разрешении 480p или 720p выполняется базовой моделью, после чего включается дополнительный модуль супервысокой чёткости, доводящий качество до 1080p и устраняющий артефакты. Для повышения качества модель может автоматически перерабатывать описания через внешнюю языковую модель.
Основным преимуществом HunyuanVideo 1.5 является малый вес и быстрая работа. Имея всего 8,3 млрд параметров, модель работает значительно быстрее предшественниц и требует меньше ресурсов. Ее можно запустить на домашней видеокарте, не прибегая к мощному серверному оборудованию. При формировании запросов важную роль играет грамотное составление промптов. Документировано, что детальные и длинные запросы значительно влияют на качество видео. Для удобства имеется отдельное руководство по формированию запросов, объясняющее, как правильно описать стиль, камеру и динамику сцены.
HunyuanVideo 1.5 также предлагает ускорение внимания, встроенное суперразрешение, набор специальных моделей и полную интеграцию с инструментами ComfyUI, что делает её полноценной рабочей станцией для видеогенерации.
HunyuanVideo 1.5 делает продвинутую видеогенерацию доступной. Чтобы опробовать её, достаточно загрузить модель с Hugging Face, выбрав конфигурацию под свои нужды: от базового качества 480p до HD 1080p в режимах T2V или I2V. После быстрой настройки окружения можно приступать к созданию видео — либо кодом на Python, либо через удобные GUI, такие как ComfyUI.
Ключевое преимущество модели - это оптимальное сочетание качества, разрешения и способности работать на персональном компьютере. В отличие от закрытых коммерческих решений (Sora, Veo), HunyuanVideo 1.5 фокусируется на демократизации технологии для широкого круга пользователей: разработчиков, небольших студий и энтузиастов.
Этот шаг в эволюции открытых моделей стал возможен благодаря усилиям Tencent, которые с 2023 года развивают линейку Hunyuan, начав с генерации изображений и придя к доступной видеогенерации, совместимой с популярными инструментами.