Как я делаю мультфильм с помощью нейросетей

Screenshot_31.jpg

Всё началось с идеи, которая не давала покоя. Знаете это чувство, когда история крутится в голове и требует выхода? Так у меня появился "Вне Сети" - короткометражка в духе Black Mirror.
Сюжет такой: 2275 год, астронавт Марк работает с порталами. Рутинная миссия, очередной прыжок на край Солнечной системы. Но что-то идёт не так, он теряет связь и обнаруживает нечто необычное...


Сценарий писался примерно четыре месяца, я обдумывал и дописывал идею. Раскадровку я набросал с помощью нейросети, 18 кадров в чёрно-белой графике. А вот как превратить это в анимацию - вопрос. Я же не аниматор по рисованной анимации, в классическом смысле. Я анимирую персонажей для игр, пишу скрипты для Maya, делаю инструменты для других аниматоров. Но создать полноценный мультфильм с нуля в одиночку - это совсем другая история.
Первое, что я сделал - начал разбираться, какие нейросети вообще существуют для такого. У меня были поверхностные знания, и здесь пришлось копать глубже: Runway, Kling, Pika, LTX Studio, Veo... Голова шла кругом от названий и чтения мануалов.

Screenshot_35.jpg


В итоге логика создания, подход к производству своего мультика оказалась простой: сначала создать статичные референсы персонажей и локаций, добиться консистентного стиля, а потом уже генерировать видео. Для картинок я выбрал одну из доступных нейросетей с приличным качеством и удобным интерфейсом. Выбор нейросети для видео еще не окончательный - нужно чтобы она могла делать плавные переходы между кадрами, работать консистентно. Для озвучки традиционно - Eleven Labs. Для музыки - Suno AI.

Screenshot_32.jpg
Отдельная история - выбор визуального стиля. Я понимал, что хочу что-то между реализмом и мультяшностью, но не знал, как это называется. Протестировал несколько вариантов: аниме в духе Ghost in the Shell, пиксаровскую стилистику, Spider-Verse с его графичностью, даже Ghibli с акварельными текстурами. Но победил Arcane - тот самый сериал от Fortiche по League of Legends. Живописные текстуры с видимыми мазками кисти, драматичное освещение кьяроскуро. Не фотореализм, но и не мультяшность. Для мрачной sci-fi истории с философским подтекстом - идеально.
Дальше началась кропотливая работа. Нейросети не запоминают контекст между генерациями, поэтому чтобы Марк выглядел одинаково во всех сценах, нужно было создать раскладку персонажа с видами спереди, сбоку и сзади. Первый результат получился слишком "чистым" - Марк выглядел как модель с обложки, а не как бывалый исследователь космоса. Пришлось дописать в промпт про обветренную кожу, морщины у глаз, щетину, усталый серьёзный взгляд. Так появился Марк - ветеран, который повидал слишком много.


Потом был модуль - его телепортационная капсула. Важная деталь: он не летает, он телепортируется. Никаких двигателей и крыльев, просто компактная станция на ножках, как научный трейлер. Отдельно сделал интерьер кокпита без персонажа - это важный трюк, чтобы нейросеть не "придумывала" свой интерьер каждый раз.
В оригинальном сценарии действие начиналось сразу в кокпите. Но для зрителя это слишком резко - непонятно, где мы, что происходит. Поэтому я добавил вступительные сцены: панорама футуристического города, холл исследовательского центра, коридор, где Марк перекидывается парой слов с коллегой. Эти кадры занимают может быть 10-20 секунд, но они создают мир.


Знаете, что меня поразило больше всего? Насколько точно нейросеть может выполнять сложные задачи, если правильно сформулировать запрос. Нужен был кадр: торговец вешает маску на витрину, справа он, слева витрина, на заднем плане рыночная улица. И маска должна попасть точно на пустое место между другими масками. С первого раза - попадание. Или другой пример: была картинка маски без волос с хорошим ракурсом и картинка с волосами, но ракурс хуже. Попросил взять волосы со второй и добавить на первую - сработало идеально.
Но есть и сложности. Главная проблема - консистентность. Нейросеть может нарисовать красивый кадр, но персонаж будет выглядеть немного иначе, чем в предыдущей сцене. Решение простое - всегда использовать референсы и очень точно описывать детали. Вторая проблема - нейросеть иногда делает ровно наоборот. Просишь "торговец слева" - рисует справа. Просишь "маска без ушей" - добавляет уши. Приходится итерировать.
Каждую сцену пришлось прорабатывать отдельно. Направление движения надо указывать явно: "toward", "away from", иначе нейросеть сделает по-своему. Ракурс камеры - отдельная строка. Эмоции тоже надо калибровать: "tense" - это не то же самое, что "calm but focused". Масштаб лучше указывать в метрах, потому что "far away" для нейросети может быть и 10 и 20 метров.

Screenshot_33.jpg


В короткометражке не нужны длинные диалоги. Я оставил минимум реплик - каждая бьёт в цель. Весь диалог в магазине - это три реплики: "Желаете маску, господин?" - "Эту." - "Отличный выбор, господин." Душа продана за четыре монеты.
Для музыки ориентир - Ханс Циммер, "Интерстеллар". Минималистичное пианино, струнные, космическая тоска. Для египетских сцен - другая тональность: восточные ноты, дудук, ритуальная атмосфера.
Сейчас у меня готовы референсы всех персонажей, промпты для всех двадцати с лишним сцен, тексты реплик и закадрового голоса на двух языках, музыкальные темы. Следующий этап - генерация всех видео, потом сборка в видео, озвучка и финальный монтаж.
Весь проект занимает гораздо больше времени, чем я думал изначально. Но это не потому что инструменты плохие - это потому что нужно разобраться, как с ними работать. Каждая итерация учит чему-то новому.


Это эксперимент. Я не знаю, что получится. Может быть, это будет выглядеть как дорогой фан-проект, может - как что-то по-настоящему цельное. Но сам процесс - создание полноценного мультфильма, когда у тебя нет команды, нет бюджета, только идея и упрямство - это уже круто. Один человек делает то, что раньше потребовало бы целой студии. Технологии изменили всё.

Всем добра. Спасибо за внимание.

721 0 850 1
0
RENDER.RU