ИИ анимация на музыку Вени Д'ркина

Меня зовут Журавлев Савва и я попробовал сделать эксперимент по созданию 2D анимации в процессе изучения Comfy UI, вот и делюсь результатом тут.Всё началось с того, что я с 15 лет мечтал стать режиссёром покадровой анимации и в своё время пошёл в художественное училище. Как и многие, в нейросетях я увидел вариант для личной реализации идей и постепенно начал осваивать Comfy. Для реализации я решил взять абстрактную историю знакомого, хотя на выходе и получилась немного непонятная чернуха.

О чем клип?

Сюжет получился намеренно фрагментарным, поэтому дам контекст. Клип о юродивой душе, как я ее увидел в истории одного моего знакомого. В работе я хотел показать полную отрешенность, помешательство и собственно ночные страдания человека. Видео ряд скачками должен был показать то как герой попадает в больницу, что переживал и выход из этого состояния к семье.

Все-таки, я думаю, тут людям скорее будет интересно читать про чуть более технический процесс создания, так что я расскажу чуть больше о нем и своих впечатлениях. Почему Comfy? Не считая чисто учебного вопроса, для меня он оказался, пожалуй, самым удобным инструментом — даже при использовании чисто API-нод, например Seedance. В сравнении с тем же Higgsfield, где по кредитам и себестоимости выходит примерно столько же, сколько и на Runway, в Comfy гораздо больше свободы.

Говоря именно про данное видео – после локальных попыток с моими 8 GB VRAM я плюнул и начал генерировать в Comfy Cloud, потому что там даётся видеокарта аж на 96 GB. Правда, стоит быть готовым к тому, что многие кастомные ноды из локального Comfy там будут урезаны. Заморачиваться с арендой
сервера я на тот момент не хотел.

Ролик сделан полностью при помощи ИИ, не считая монтажа. Но из-за каши из разных моделей в нём страдает консистентность стиля. Фоны сделаны преимущественно на Flux 1 Dev. Различные ракурсы одной и той же локации я делал при помощи Qwen Image и иногда Nano Banana. Сам персонаж — через Nano Banana, из-за меньшего количества артефактов и более удачного попадания в стиль под задачу. Оказалось, что Flux 1 делает жутко артефактные, но при удаче — невероятно иллюстративные фоны. Тем не менее нормально заставить его генерировать по моим эскизам, через IP-Adapter или по референсу я так и не смог. Пришлось прогонять через различные другие модели.

Лучше всего с сохранением чужого стиля справлялся Gemini 3 Pro. Я использовал его для создания первого и последнего кадра, чтобы потом превращать их в анимацию. За ним замечено меньше всего спонтанных изменений. Но если давать ему сложную позу в каком-то иллюстративном фоне, ИИ всё же начинает навешивать объём и собственный стиль — пусть и такими «пастозными мазками». Впрочем, это я тоже использовал.

Наиболее толково движения анимировал Seedance. Хотя «пластик» часто присутствовал, он всё равно значительно упрощал работу по
сравнению с другими моделями. Время подсчитать затраченное сложно, потому что я скорее осваивал сам процесс создания подобного контента. Но могу сказать, что в следующий раз я бы попробовал тренировку LoRA для персонажа на базе Flux или гибкого SDXL, а также попробовал бы сделать анимацию на базе Wan. В процессе тестов Wan показывал себя отлично и быстро, если не давать ему задачу на сложное длительное движение, а использовать именно как
«фазовщика». Но тут, вероятно, уже мне не хватило усидчивости разобраться детальнее.

Однозначно пока что для создания качественного и контролируемого ИИ контента, лучше собирать болванки в 3д или даже черновые аниматики, переводя их в карты глубины или движения. В процессе работы я и сам прибегал местами к ручной работе и не только в плане редакции полученного изображения, но и рисунком обозначая требуемый мне кадр, ну а монтировал классически в After Effect. Кому интересно сколько я потратил денег на все это дело, то
вышло примерно 12 000 р.

По всем вопросам, для возможного сотрудничества, писать в ТГ: @Savva_Zh