Гугл натренировал ИИ на сурдоперевод

В блоге Google, посвященном разработке ИИ, исследователи Валентин Базаревский (Valentin Bazarevsky) и Фэнь Чжан (Fan Zhang) опубликовали статью, в которой поделились последними наработками в области распознавания положения рук с применением алгоритмов машинного обучения для смартфонов. Проект уже получил положительные отзывы среди сообщества людей с нарушением слуха. Однако, технология не лишена ограничений, которые могут привести к искажению смысла.

Screenshot%2B2019-08-19%2Bat%2B9.51.25%2BAM.png

Распознавание положения кистей рук и пальцев с мобильного телефона

До сих пор подобные технологии были доступны только для десктопных приложений. Теперь благодаря работе, которая проводится совместно с компанией MediaPipe, занимающейся разработками в области кроссплатформенного распознавания образов, Гугл хотят перенести алгоритм на мобильную платформу. Предложенный метод позволяет считывать с высокой точностью положение рук и пальцев с помощью машинного обучения путем распознавания и интерпретации 21 ключевого 3D-узла, соответствующих тому или иному положению кисти всего по одному кадру.

Существующие технологии задействуют огромный вычислительный ресурс, тогда как гугловский алгоритм работает на смартфоне в реальном времени и может отслеживать и интерпретировать положение нескольких кистей. В компании надеются, что разработчики смогут воспользоваться наработками и применить алгоритм в других приложениях, где необходим трекинг рук, например в VR-проектах.

image2.gif

Пайплайн на основе машинного обучения для трекинга рук и распознавания жестов

В основе алгоритма заложены три модели:

  • модель распознавания кисти BlazePalm (palm detector model), которая обрабатывает изображение целиком и выдает строб обрамления того или иного положения кисти
  • модель распознавания ключевых точек кисти (hand landmark model) для обработки изображения по участкам и возврата точной 3D модели кисти из ключевых узлов
  • модель распознавания жестов (gesture recognizer), позволяющая соотнести полученную конфигурацию узлов с определенным набором жестов.

Предложенная архитектура аналогична той, что применяется Гугл для распознавания лиц и положений тела, и значительно снижает необходимость дополнительных данных на входе (т.е. вращения, перемещения и масштаб) и сконцентрировать вычисления на точности распознавания координат узлов.


image1.png


“Нас порадовали достигнутые результаты. Теперь приложим усилия, чтобы повысить надежность распознавания и трекинга, увеличив количество жестов, которые можно с уверенностью интерпретировать", — сообщил представитель ИТ-гиганта СМИ.

Следующим шагом, надеются разработчики, станет комбинированный трекинг жестов и выражений лица, а также учет скорости изменения жестов, так как на данный момент внезапное изменение данных параметров приводит к неверному толкованию. Возможно, Гугл могли бы обратить внимание на проект разработчиков из Dinamixyz, которые научили ИИ создавать лицевую анимацию на основе снимков.

518 0 850 2
6
2019-08-21
Вау, это удивительно. Пару лет назад студенты Томас Прайор и Навид Азоди создали прототип перчаток для языка жестов SignAloud, который позволяет переводить "жестовую" речь в устную.
2019-08-21
Есть библиотеки жестов. Распознавание их не проблема. Посмотрите Hololens как управляеться. В sdk есть инструкции по распознаванию. Привязать жест к озвучке не проблема. Зачем ИИ мучить?
2019-08-22
Алексей, трекинг по простой камере без датчиков глубины
2019-08-22
Джен, была и такая библиотека... Для одной камеры... Причем opensorse. Всмысле библиотека жестов и прога их распознающая.
2019-08-22
Алексей, на картинках показаны очень сложные позиции рук в сочетании с енвайронментом слабообученная сетка или алгоритм без доп устройств не смогут распознать жест
2019-08-23
заригали фотку😳
RENDER.RU