Google учит AI предсказывать глубину в движении
Команда Google AI продемонстрировала свой новый подход, основанный на глубоком обучении, который может оценивать глубину (Depth) по видео, в которых движутся и камера, и объект.
Люди довольно хорошо воспринимаем трехмерный мир с помощью 2D-проекций, но всё это не так просто, когда речь идёт о машинах. Целью проекта Google является разработка механизма, способного достичь понимания 3D-мира путем изучения геометрии и глубины из 2D-изображений с помощью вычислений.
Проблема здесь заключается в том, что подобные операции трудновыполнимы, когда камера и объекты в сцене находятся в движении. Свободно движущаяся камера и объекты могут сбивать с толку алгоритмы, поскольку традиционный подход предполагает, что один и тот же объект можно наблюдать с более чем одной точки зрения одновременно, запуская процесс триангуляции. Для максимально точных вычислений машине требуется либо множество камер, либо чтобы все объекты были неподвижны, пока одна камера движется по сцене.
Команда Google AI использовала 2,000 видеороликов Mannequin Challenge на YouTube для обучения модели AI. В этих видео группы людей прикидываются "замороженными" персонажами из "Матрицы", в то время как оператор снимает сцену, перемещаясь вокруг них. Изучив невероятное множество поз и форм человеческого тела, обученная модель теперь может предсказывать глубину объекта даже на видео с движением и камеры, и объекта без традиционной прямой 3D-триангуляции.
Ниже приведены примеры результатов прогнозирования глубины моделью Google AI, основанной на видео, в сравнении с современными методами, основанными на изучении по статичным изображениям.
Использование AI для самых разных целей продолжает набирать обороты. Организуется всё больше и больше проектов по его изучению, улучшению и обучению. Некоторые предприниматели стремятся использовать это в своих целях, привлекая инвесторов тем, что применяют AI в своих разработках. Однако почти половина европейских стартапов, которые утверждают, что используют AI, лгут.