Гугл натренировал ИИ на сурдоперевод
В блоге Google, посвященном разработке ИИ, исследователи Валентин Базаревский (Valentin Bazarevsky) и Фэнь Чжан (Fan Zhang) опубликовали статью, в которой поделились последними наработками в области распознавания положения рук с применением алгоритмов машинного обучения для смартфонов. Проект уже получил положительные отзывы среди сообщества людей с нарушением слуха. Однако, технология не лишена ограничений, которые могут привести к искажению смысла.
Распознавание положения кистей рук и пальцев с мобильного телефона
До сих пор подобные технологии были доступны только для десктопных приложений. Теперь благодаря работе, которая проводится совместно с компанией MediaPipe, занимающейся разработками в области кроссплатформенного распознавания образов, Гугл хотят перенести алгоритм на мобильную платформу. Предложенный метод позволяет считывать с высокой точностью положение рук и пальцев с помощью машинного обучения путем распознавания и интерпретации 21 ключевого 3D-узла, соответствующих тому или иному положению кисти всего по одному кадру.
Существующие технологии задействуют огромный вычислительный ресурс, тогда как гугловский алгоритм работает на смартфоне в реальном времени и может отслеживать и интерпретировать положение нескольких кистей. В компании надеются, что разработчики смогут воспользоваться наработками и применить алгоритм в других приложениях, где необходим трекинг рук, например в VR-проектах.
Пайплайн на основе машинного обучения для трекинга рук и распознавания жестов
В основе алгоритма заложены три модели:
- модель распознавания кисти BlazePalm (palm detector model), которая обрабатывает изображение целиком и выдает строб обрамления того или иного положения кисти
- модель распознавания ключевых точек кисти (hand landmark model) для обработки изображения по участкам и возврата точной 3D модели кисти из ключевых узлов
- модель распознавания жестов (gesture recognizer), позволяющая соотнести полученную конфигурацию узлов с определенным набором жестов.
Предложенная архитектура аналогична той, что применяется Гугл для распознавания лиц и положений тела, и значительно снижает необходимость дополнительных данных на входе (т.е. вращения, перемещения и масштаб) и сконцентрировать вычисления на точности распознавания координат узлов.
“Нас порадовали достигнутые результаты. Теперь приложим усилия, чтобы повысить надежность распознавания и трекинга, увеличив количество жестов, которые можно с уверенностью интерпретировать", — сообщил представитель ИТ-гиганта СМИ.
Следующим шагом, надеются разработчики, станет комбинированный трекинг жестов и выражений лица, а также учет скорости изменения жестов, так как на данный момент внезапное изменение данных параметров приводит к неверному толкованию. Возможно, Гугл могли бы обратить внимание на проект разработчиков из Dinamixyz, которые научили ИИ создавать лицевую анимацию на основе снимков.