AI создаёт анимации персонажей по записям речи

Исследователи из Института интеллектуальных систем Макса Планка, участника программы NVAIA NVIDIA, разработали комплексный алгоритм глубокого обучения, который может принимать любой речевой сигнал в качестве источника и реалистично анимировать 3D-модели лица.

"Есть множество исследований по оценке трёхмерной формы лица, выражений лица и мимике по изображениям и видео. Гораздо меньше внимания уделялось оценке трёхмерных свойств лиц по звуку", — заявили исследователи в своей статье. "Понимание корреляции между речью и движением лица даёт дополнительную ценную информацию для анализа людей, особенно если визуальные данные зашумлены, отсутствуют или неоднозначны".

Команда сначала собрала новый набор данных 4D сканов лица вместе с речью. Набор данных состоит из 12 субъектов и 480 последовательностей по 3-4 секунды каждая. После того, как данные были собраны, команда обучила модели глубинной нейронной сети на графических процессорах NVIDIA Tesla с помощью фреймворка глубокого обучения TensorFlow с ускорением cuDNN, называемым голосовой анимацией персонажей (VOCA — Voice Operated Character Animation).

"Наша цель для VOCA состоит в том, чтобы хорошо обобщать произвольные предметы, не замеченные во время обучения", — заявили исследователи. "Обобщение по предметам включает в себя как обобщение для разных говорящих с точки зрения звука (изменения в акценте, скорости, источнике звука, шуме, окружении и т.д.), так и обобщение для разных форм лица и движения".

VOCA получает шаблон для конкретного предмета и необработанный аудиосигнал, который извлекается с помощью Mozilla DeepSpeech, опенсорс движка преобразования речи в текст, который для быстрого вывода полагается на зависимости от CUDA и NVIDIA GPU.

Желаемый результат модели — требуемый 3D меш.

7QgsO_geuaR_U9HI9TiMdh_fKdxCrqYgOD84rbalZD5y3XC70Uvj1WXR_0NmNu5t3XM9VwhexHBZiuavIE__SszQgXSKdtwR8ZW2rW9hLNWu-o0IO5zeZDuAEAtwWs8J-rLOh4un

Во время тестирования исследователи создали широкий спектр лиц с предметными метками, которые позволили команде синтезировать разные стили говорящих. Алгоритм также хорошо обобщает различные источники речи, невидимые во время обучения, языки и трёхмерные шаблоны лиц.

Работа была представлена на конференции Computer Vision and Pattern Recognition в Лонг-Бич, штат Калифорния в этом месяце.
Набор данных и обученная модель доступны для всех любознательных на GitHub.

Adobe в свою очередь учат AI отличать отфотошопленные фотографии от оригиналов.

63 0 850 3
18
2019-06-28
в играх будет изи липсинк
2019-06-28
Онлайн сервис будет?
2019-06-28
Не все сразу. Но можно сделать.
2019-06-29
Профессия выниматора скоро вымрет , будут одни операторы ПК
2019-06-29
программисты нейронок убивают аниматоров!
2019-06-29
Никто никого не убивает).
Электронная музыка уже полвека существует - "живые" музыканты только дороже стали.
Фотография с 19 века существует - художники благоденствуют.
Станки изобрели практически для всего - ручная работа стала только дороже.
3д печати уже много лет, скульпторы благоденствуют.
Конвейеры есть для многих вещей. Однако авторское ценится выше.
2019-06-30
simon310Никто никого не убивает
Т.е. вы сами признали что всё-таки убивает, если что-то стало дорогим и штучным, значит основная масса была вытеснена технологиями, портретисты были вытеснены фотографией, фотография была вытеснена цифрой. Люди интегрированы в эти технологии потому что их интеллектуальная мощность пока что превосходит ИИ, во многих производствах люди просто уже не нужны т.к. роботы делают в десятки раз быстрее и эффективнее. Людям стоит надеяться лишь на то, что в будущем продвинутый ИИ будет дорог для использования в обычных видах деятельности, иначе они вообще перестанут быть нужны как таковые.
2019-06-30
Andrew Feoktistov (fruit_cake) вы сами признали что всё-таки убивает,

Как то вы странно интерпретировали. Я привел примеры, которые по аналогии должны были бы "убить", однако этого не произошло. Нет ни одного примера высокоинтеллектуальной деятельности, которая бы стала ненужной. Музыканты, художники, архитекторы, инженеры, ученые, писатели и т.д. Появились просто новые виды услуг для масс, фотография к примеру. Но это никак на художниках не отразилось. Нанять художника для росписи фресками гостиной в сотни раз дороже любых фотообоев. Закажите сейчас свой портрет маслом - он вам обойдется намного дороже, чем обывателю вашего достатка в 19 веке, например. Вариант "сделать фото" только повысил стоимость работы художника, а не "убил". Появление аудиозаписи сыграл только на руку "живым" музыкантам. В дешевых кафе играет "магнитофон", а в приличных ресторанах - настоящие музыканты, и они получают больше чем их коллеги в 19 веке. Спецы только в выигрыше от появления ширпотреба.

MoCap существует уже много лет. И? Какую нишу он занял? Его используют как 3д референс для серьезных проектов. В чистом виде его юзают только в дешевых играх. Хороший аниматор в любой студии на вес золота. Потому что он индивидуален и вносит своё, он не копирует движения "один в один", а художественно "искажает" их для большей выразительности. И каждый аниматор неповторим, поэтому и ценен.

3д скан существует много лет. Что-то только вот потребность в моделерах только растет. Потому как очень ограничены его возможности (дело не в топологии), по сравнению с потребностями.Хотя он совсем недорогой.

"перестанут быть нужны как таковые." - ну это вы зря. Эти идеи сродни утопиям, вроде "всеобщее равенство и братство", "мир без болезней и нищеты". Утопия. Прогресс вещь хорошая, но не стоит из него религию делать, придавать слишком большое значение. Оглянитесь. За полвека жизнь обычных людей по базовым критериям нисколько не изменилась. Единственно отличие "смартфон с инетом" (собирательное понятие). В остальном жизнедеятельность обычных людей по ключевым позициям точно такая же. Иллюзий стало больше, причем по всем параметрам. Иллюзия знания, иллюзия выбора и т.д. В этом смысле изменилось что-то. Но в базе своей - ничего нового.
2019-06-30
simon310Но это никак на художниках не отразилось.
я вроде бы уже писал что портретисты исчезли почти полностью после развития фотографии, вы опять повторяете одно и тоже и даже не пытались понять что я написал в последних предложениях, человек это биологический объект с вполне ограниченными способностями которые в итоге можно заменить полностью, для бизнеса неважно есть люди или машины, вопрос в том, чем людям придётся заниматься после того как их интеллектуальную работу заменит ИИ, идти в портретисты и делать заказы для состоятельных лиц, вытачивать фигурки из дерева
2019-06-30
Andrew Feoktistov (fruit_cake)чем людям придётся заниматься после того как их интеллектуальную работу заменит ИИ

Те, кто "вырезает фигурки" - всегда будут в шоколаде. Потому что есть цена (себестоимость), а есть ценность (она субъективна). И за последнее люди всегда платили, платят и будут платить сколько скажут.
А остальные - не знаю)...восхищаться ИИ наверное).
На данный момент ИИ ничего прорывного не делает. Только очень примитивные узкоспециализированные вещи. Или всякий шлак по цене МКС, вроде "липсинка по звуку" (просто самообучающаяся программа). Сейчас это больше грантоедство. Выхлоп пока ни о чем. Но очень привлекает, ибо деньги. В любому стартапу достаточно приписать заветное ИИ , и интерес в разы больше, хотя никакого ИИ там зачастую и нет, финансирование есть
2019-06-30
simon310На данный момент ИИ ничего прорывного не делает.
а видео сверху в заголовке темы к чему? технологии развиваются по нарастающей и когда кто-то начнёт предлагать услуги ИИ по вменяемой цене и с нормальным интерфейсом, людей можно будет просто увольнять потому что они сжирают огромные деньги на создание контента, оставят парочку самых продвинутых, просто этот процесс может развернуться на десятилетия как это было с компьютерами, Греф вон у нас уже решил внедрять ИИ в Сбербанк, позакрывал огромное количество отделений, чем правда закончилось внедрение новых технологий ещё вопрос
2019-06-30
"Греф вон у нас уже решил внедрять ИИ в Сбербанк, позакрывал огромное количество отделений" - тут я с вами согласен. Но, заметьте, сократили то сотрудников с примитивным функционалом. Безусловно, такая тенденция будет во всех сферах. И в CG тоже. Рутинные должности автоматизируют. Но это никак 3дшников не "убъет". Это ликвидирует некоторые примитивные должности.
Хотя кое где даже в 3д они как ни странно начали появляться. В том же архивизе раньше даже не слышали о "сборщик сцен". Сейчас толпы желающих заработать на доширак в этой, и без того, нехитрой сфере.
Появились должности "чистить мокап" и т.п.
Т.е именно то, что давно уже следовало бы автоматизировать сейчас растёт.
"увольнять потому что они сжирают огромные деньги на создание контента," - да, с этим тоже согласен. Но и тут есть нюанс. Это должности на продакшене конвейерного типа. И, конечно, примитивные функции автоматизируют.
Хотя, как сказать. На нашем веку, мы даже этого не увидим. Элементарной автоматизации. Не говоря о бОльшем.
2019-07-01
Andrew Feoktistov (fruit_cake) а видео сверху в заголовке темы к чему? технологии развиваются по нарастающей
Хороший вопрос. Ведь можно только гадать как оно на самом деле.
Субъективно, то, что показано на видео, пока дотягивает до анимации уровня "школьник", но никак не до замены ручной работы аниматора.
2019-07-01
)
2019-07-01
simon310Никто никого не убивает).
Электронная музыка уже полвека существует - "живые" музыканты только дороже стали.
Фотография с 19 века существует - художники благоденствуют.
Станки изобрели практически для всего - ручная работа стала только дороже.
3д печати уже много лет, скульпторы благоденствуют.
Конвейеры есть для многих вещей. Однако авторское ценится выше.

Уже объяснял, что убивают и то что вы говорите является даже не полуправдой. Живых музыкантов это убило, десятки стали дороже, тысячи остались без работы, художники не благоденствуют, учиться на классического художника сейчас не выгодно как никогда, заработать на этот очень трудно, фотография в свое время нанесла страшный удар, станки оставили без работы миллионы людей, а ручная работа дороже стала у мизерного процента, скульпторы не благоденствуют, скульптуру убрали из очень многих художественных школ, как предмет, понятно что художки это ерунда для детей, первые шаги, но выпиливание "скульптуры" как предмета, пусть и началось оно в периферии и вероятно из-за нехватки преподавательского состава, уже о многом говорит. В РФ идти на скульптора дело сомнительное, где искать работу непонятно. Замечу, что 3д печать пока не составила конкуренцию в этом плане, как только технология подрастет, классическую скульптуру это убьет, останутся единичные мастера.

> Конвейеры есть для многих вещей. Однако авторское ценится выше.

Как можно иметь настолько недалекие взгляды? Конвейер отбирает работу у миллионов, авторство ценится выше у единиц, это ничего не значит для обычных людей, это ничтожно мало в рамках статистики.

Прекратите обманывать себя и людей.
2019-07-01
kuirpХороший вопрос. Ведь можно только гадать как оно на самом деле.
Субъективно, то, что показано на видео, пока дотягивает до анимации уровня "школьник", но никак не до замены ручной работы аниматора.
включил посмотреть какая была анимация в масс эффект андромеда, потом включил видео из этой темы, угадайте где анимация лучше?
2019-07-01
Я не увидел никакой магии из видео. Нейронка просто анализирует аудио-поток (хотя, это заслуга движка Мазиллы) и подбирает морф с нужной мимикой и блендит с нужной задержкой? На видео есть 3Д-сканы людей с дефектами лицевой мимики (например 4:26, мужик в пол-рта говорит, правая сторона рта еле открывается), в то время как 3Д модель открывает рот полностью...
2019-07-02
А разве всего этого не было в том же халф лайфе 2, в далеком 2004 году? Там тоже была синхронизация губ с аудиозаписью речи.
RENDER.RU