The treasure hunter #2

Доброго времени суток!

На днях решил сделать небольшой сториборд, чтобы скомпоновать все маленькие идеи в одну историю.

Все кадры были визуализированы с помощью нейронок MidJourney и DALL-E-2 от OpenAI.(кроме 12 кадра)

Итак, использовал я две нейронные сети в целях увеличения попыток генерации изображений, так как пользовался я бесплатными версиями.

Dall-e:первый пробный раз даёт 50 пробных кредитов, что соответствует примерно 200 изображениям, каждый месяц кредиты обновляются, но в количестве 15 штук, что даёт 60 изображений в месяц. Платный план стоит 15$ и даёт 460 изображений в месяц.

MidJourney: подписка работает немного по-другому. Пробный период даёт возможность генерации изображений в количестве 0.4 часа за весь период использования. То-есть тут учитывается время на генерацию изображения, а не сама сгенерированная картинка. Когда закончится время, закончится и возможность создания "искусства". Пока вы не потратите хотя бы 10$ на обычный план с 3.3 часами в месяц.

Непосредственно моя доска истории:

Для генерации использовал английский язык, хоть и заявлено, что обе сети понимают русский. Говорят, что результат чище, но сам не проверял, так как не хотел тратить попытки на не такую уж важную вещь.

Пример запроса для 4 кадра звучал так:

Top view of traveler in cloak walking by desert with crow flying over his head.

В конце всегда добавлял in sketch style, дабы получить, что-то типо наброска или концепта.

Некоторых результатов не получилось добиться, на 12 кадре запрос был:

ancient shiny sphere artefact which flying between two semiarcs and over the crown shape rock formation in ancient temple

получалась непонятная мешанина, поэтому было решено сделать быстрый набросок, чтобы идея не вылетела из головы.

Возможно проблемы в самом запросе и нужно корректировать его, но ради одной картиночки не стал заморачиваться. Думаю купить подписку в будущем на MidJourney для создания концептов и, возможно, для коррекции и дополнения сториборда.

1-5,9,10 и 13 кадры были сгенерированы в DALL-e

6,7,11,15,16 соответственно в MidJourney.

Итог: на мое, сугубо личное, мнение

DALL-E даёт более стабильный результат в совокупности описаний по одному стилю. Большая часть сгенерированых кадров от OpenAI выглядит, как работа одного художника в одном стиле. Она более "живая".

MidJourney же создаёт более разнообразные и интересные идеи в разных стилях, чтобы подобрать одну базу нужно точное описание, обычного in sketch style недостаточно.

Также заметил, что при написании в запрос "cinematographiс, cinematic, atmoshperic" это придаёт эпичности кадру. Последние 2 кадра сделаны с добавлением этого слова. Картинка становится интереснее. К сожалению, не сохранял неудачные запросы. Можно было бы посмотреть, как одно слово или порядок слов может поменять всю суть.

Это мой первый опыт работы с нейронками, думаю в будущем я поглубже окунусь в эту тему и смогу детально разобраться в процессе генерации изображений. В данной работе я, определенно, еще буду прибегать к помощи искусственного интеллекта.

Так выглядит история моих запросов в DALL-E. Да я делал неоновую капибару.

Для себя я открыл интересный инструмент, советую всем попробовать поработать с AI. Даже если вы не сможете найти ему применение в работе, вы все равно получите удовольствие и интересный опыт.