Распознавание жестов

Признание жеста — это тема в области информатики и языковых технологий с целью интерпретации человеческих жестов посредством математических алгоритмов. Жесты могут происходить из любого телесного движения или состояния, но обычно происходят от лица или руки. В настоящее время фокус в области включает распознавание эмоций от распознавания лица и рук. Пользователи могут использовать простые жесты для управления или взаимодействия с устройствами без физического прикосновения к ним. Многие подходы были сделаны с использованием камер и алгоритмов компьютерного зрения для интерпретации языка жестов. Однако идентификация и распознавание позы, походки, проксимики и поведения человека также является предметом методов распознавания жестов. Признание жеста можно рассматривать как способ для компьютеров начать понимать язык человеческого тела, тем самым создавая более богатый мост между машинами и людьми, чем примитивные текстовые пользовательские интерфейсы или даже графические интерфейсы (графические пользовательские интерфейсы), которые все еще ограничивают большую часть ввода на клавиатуру и мышь.

Распознавание жеста позволяет людям общаться с машиной (HMI) и естественно взаимодействовать без каких-либо механических устройств. Используя концепцию распознавания жестов, можно указать пальцем на экран компьютера, чтобы курсор двигался соответствующим образом. Это может привести к избыточности обычных устройств ввода, таких как мышь, клавиатура и даже сенсорные экраны.

Определение
Что касается взаимодействия человека и компьютера, Куртенбах и Халтун определяют жест следующим образом: «Жест — это движение тела, которое содержит информацию. Размахивание рукой — это жест. Нажатие клавиши на клавиатуре не является жестом, потому что движение по палец не наблюдается и не имеет значения. Все, что имеет значение, это то, какой ключ был нажат. Напротив, Харлинг и Эдвардс отказываются от требования движения и понимания жестом и статическими позами рук. Можно различать системы, в которых датчики, необходимые для обнаружение расположено непосредственно на теле пользователя, и те, в которых пользователь наблюдает внешние датчики.

Особенности распознавания жеста:

Более точным
Высокая стабильность
Экономия времени для разблокировки устройства

Основными областями применения распознавания жестов в текущем сценарии являются:

Автомобильный сектор
Сектор потребительской электроники
Транзитный сектор
Игровой сектор
Чтобы разблокировать смартфоны
Защита
Домашняя автоматизация
Интерпретация языка жестов

Технология распознавания жеста считается очень успешной технологией, поскольку она экономит время, чтобы разблокировать любое устройство.

Распознавание жеста может быть проведено с помощью методов компьютерного зрения и обработки изображений.

Литература включает в себя текущую работу в области компьютерного зрения при захвате жестов или более общих позах и движениях человека камерами, подключенными к компьютеру.

Распознавание жестов и обработка пером: вычисления в ручке уменьшают аппаратное воздействие системы, а также увеличивают диапазон физических объектов мира, используемых для контроля за пределами традиционных цифровых объектов, таких как клавиатуры и мыши. Такие реализации могут позволить использовать новый набор аппаратных средств, который не требует мониторов. Эта идея может привести к созданию голографического дисплея. Термин распознавание жестов был использован для более узкого обращения к символам рукописного ввода без ввода текста, таким как краска на графическом планшете, жесты с несколькими касаниями и распознавание жестов мыши. Это компьютерное взаимодействие посредством рисования символов с помощью курсора указательного устройства.

Типы жестов
В компьютерных интерфейсах различают два типа жестов: мы рассматриваем онлайн-жесты, которые также можно рассматривать как прямые манипуляции, такие как масштабирование и вращение. Напротив, автономные жесты обычно обрабатываются после завершения взаимодействия; например, для привлечения контекстного меню используется кружок.

Offline gestures: те жесты, которые обрабатываются после взаимодействия пользователя с объектом. Примером является жест, который активирует меню.
Жесты в Интернете: жесты прямого манипулирования. Они используются для масштабирования или поворота осязаемого объекта.
Бесконтактный интерфейс
Бесконтактный пользовательский интерфейс является новым типом технологии в отношении контроля жестов. Бесконтактный пользовательский интерфейс (TUI) — это процесс управления компьютером посредством движения тела и жестов, не касаясь клавиатуры, мыши или экрана. Например, Microsoft Kinect — бесконтактный игровой интерфейс; однако такие продукты, как Wii, не считаются полностью бесконтактными, поскольку они привязаны к контроллерам. Бесконечный интерфейс в дополнение к управлению жестов становится широко популярным, поскольку они обеспечивают возможность взаимодействия с устройствами, не физически трогая их.

Распознавание жестов на устройствах
Большинство систем, основанных на корпусе или управляемых ручным датчиком, используют в перчатках данных встроенные датчики ускорения или положения. Недостатком систем на основе перчаток данных является то, что пользователь должен носить перчатку для использования системы.

Ручные системы, такие как контроллер Nintendo Wii и BlueWand, выпускаемые BeeCon, также могут использоваться для ввода жестов. Обе системы могут обрабатываться пользователем и иметь датчики ускорения для обнаружения движения каждого устройства.

Для более новых устройств, таких как смартфоны и планшетные компьютеры, особенно используются сенсорные экраны, которые можно использовать с помощью «жестов салфетки». В частности, мультитач-экраны предлагают одновременное обнаружение нескольких независимых отпечатков пальцев, так что, например, с двумя диагонально прикрепленными кончиками пальцев окна могут быть сделаны большими или меньшими.

Распознавание жестов на основе камеры
Системы с внешними датчиками — это в основном камеры. Камеры используются для фотографирования пользователя. Существуют как системы с камерой, так и с несколькими камерами, более новые системы часто работают с 3D-данными, которые работают либо на камерах с пролетом, либо на так называемых структурированных легких камерах. Методы, основанные на камерах, основаны на методах анализа 2D и 3D изображений для определения положения пользователя. Распознавание жестов на основе камеры используется, например, в играх для EyeToy, подключаемых к игровым консолям. Совершенно новым подходом является контроль жестов через стереоскопию. Преимущество этого заключается в том, что он работает без инфракрасного света и, таким образом, работает на открытом воздухе.

В техническом анализе изображений в основном есть несколько подходов: либо создается база данных с соответствующими жестами, созданная на основе меридиана более 1000 видеоанализов на жест. Записанные жесты управления затем сравниваются с базой данных и определяются соответственно. Например, это решение используется Microsoft с Xbox совместно с камерой Kinect 3D. Анализ может быть выполнен в двумерном пространстве с использованием изображения и видеоинформации. В трехмерном пространстве говорят о объемном расчете, например, тела представлены NURBS или многоугольниками. В настоящее время ведется расчет 3D-данных в реальном времени. Недостатком этого основанного на базе данных анализа является то, что он требует большой вычислительной мощности из базы данных. В качестве альтернативы программное обеспечение работает с истинным скелетным идентификатором, т.е. H. Из тела данных камеры руки и / или пальцы распознаются и назначаются предварительно определенным жесты с помощью упрощенной модели скелета. Это решение обещает гораздо большее разнообразие жестов и точности, но технически намного более требовательно.

Целью исследований и разработок в ближайшие годы является внедрение распознавания жестов в контексте встроенного программного обеспечения, которое не зависит от платформы и камеры и требует небольшой энергии, и поэтому может также использоваться, например, в мобильных телефонах, планшетах или навигации системы.

В 2012 году ряд коммерческих вендоров объявил, что они хотят выйти на рынок с помощью устройств распознавания жестов, которые должны быть значительно лучше, чем имеющиеся в настоящее время устройства (особенно Kinect для Xbox). Например, Samsung представила Smart TV на выставке CES 2012 в Лас-Вегасе. Другая компания — LeapMotion, где рекламное видео для The Leap было подвергнуто критике в сообществе, так как были записаны некоторые очевидные сцены. В Германии контроль жестов является особой темой в автомобильной промышленности, где требуются особенно стабильные и мобильные системы, такие как те, которые изготовлены gestigon, которые также работают над встроенным решением. 3D распознавание жеста также популярно в области цифровых вывесок, медиатехнологий, медиа-искусства и производительности. Простой способ использования распознавания жестов в этих областях и z. Например, управление другим программным обеспечением — это Kinetic Space. Другие производители включают Omek, Softkinetic и Myestro Interactive.

Типы бесконтактной технологии
Существует несколько устройств, использующих такой тип интерфейса, как смартфоны, ноутбуки, игры и телевидение. Хотя бесшумная технология в основном проявляется в игровом программном обеспечении, интерес теперь распространяется на другие области, в том числе на автомобильную и медицинскую промышленность. В скором будущем бесшумная технология и контроль жестов будут реализованы в автомобилях на уровнях, отличных от распознавания голоса. См. BMW Series 7.

Будущее бесконтактной технологии
Уже существует огромное количество компаний по всему миру, которые производят технологию распознавания жестов, например:

Корпорация Intel
«Белая книга». Изучите исследования пользователей Intel, в которых показано, как бесконтактная многофакторная аутентификация (MFA) может помочь организациям здравоохранения снизить риски безопасности при одновременном повышении эффективности, удобства и ухода за клиентом. Это бесконтактное решение MFA сочетает распознавание лиц и возможности распознавания устройств для двухфакторной аутентификации пользователей.

Microsoft Corp. в США
Целью проекта является изучение использования бесконтактного взаимодействия в хирургических условиях, позволяющее просматривать изображения, управлять ими и манипулировать ими без контакта с использованием технологии распознавания жестов на основе камеры. В частности, проект стремится понять проблемы этих сред для разработки и внедрения таких систем, а также сформулировать способы, которыми эти технологии могут изменить хирургическую практику. Хотя наши основные проблемы здесь связаны с поддержанием условий асептики, использование этих бесшумных технологий на основе жестов предлагает другие потенциальные возможности.

Эллиптические лаборатории
Программный пакет Elliptic Labs обеспечивает функции жестов и близости, повторно используя существующий динамик и микрофон, ранее использовавшийся только для аудио. Ультразвуковые сигналы, посылаемые по воздуху из динамиков, встроенных в смартфоны и планшеты, отскакивают от руки / объекта / головы и записываются микрофонами, также встроенными в эти устройства. Таким образом, технология Elliptic Labs распознает ваши жесты и использует их для перемещения объектов на экране, подобно тому, как летучие мыши используют эхолокацию для навигации.

В то время как эти компании стоят на переднем крае бесконтактной технологии на будущее в это время, есть много других компаний и продуктов, которые в настоящее время также имеют тенденцию, а также могут повысить ценность этой новой области. Вот несколько примеров:

Tobii Rex: устройство отслеживания глаз из Швеции

Airwriting: технология, позволяющая писать сообщения и тексты в воздухе

eyeSight: позволяет осуществлять навигацию по экрану без физического касания устройства

Leap Motion: устройство датчика движения

Myoelectric Armband: позволяет общаться с Bluetooth-устройствами

Устройства ввода
Возможность отслеживать движения человека и определять, какие жесты они могут выполнять, могут быть достигнуты с помощью различных инструментов. Кинетические пользовательские интерфейсы (KUI) — это новый тип пользовательских интерфейсов, которые позволяют пользователям взаимодействовать с вычислительными устройствами посредством движения объектов и тел. Примеры KUI включают материальные пользовательские интерфейсы и игры с поддержкой движения, такие как Wii и Microsoft Kinect, и другие интерактивные проекты.

Несмотря на то, что в распознавании жестов на основе изображений / видео проводится большое количество исследований, в инструментах и ​​средах, используемых между реализациями, есть некоторые различия.

Проводные перчатки. Они могут обеспечить ввод информации о положении и вращении рук с помощью магнитных или инерционных устройств слежения. Кроме того, некоторые перчатки могут обнаруживать изгиб пальцев с высокой степенью точности (5-10 градусов) или даже обеспечивать тактильную обратную связь с пользователем, которая является симуляцией ощущения осязания. Первым коммерчески доступным устройством для перчаток для рук было устройство DataGlove, перчаточное устройство, которое могло обнаруживать положение рук, движение и изгиб пальцев. Это использует волоконно-оптические кабели, идущие по задней части руки. Световые импульсы создаются, и когда пальцы согнуты, свет просачивается через небольшие трещины и регистрируется потеря, что дает приблизительную оценку руки.
Глубокочувствительные камеры. Используя специализированные камеры, такие как структурированные световые или временные камеры, можно создать карту глубины того, что видно через камеру на небольшом расстоянии, и использовать эти данные для приближения трехмерного представления того, что видно. Они могут быть эффективны для обнаружения ручных жестов из-за их коротких возможностей.
Стереокамеры. Используя две камеры, отношения которых друг с другом известны, трехмерное представление может быть аппроксимировано выходом камер. Чтобы получить отношения с камерами, можно использовать ссылку на позиционирование, такую ​​как лексические или инфракрасные излучатели. В сочетании с прямым измерением движения (6D-Vision) жесты могут быть непосредственно обнаружены.
Контроллеры на основе жестов. Эти контроллеры действуют как расширение тела, так что при выполнении жеста некоторые из их движений могут быть удобно захвачены программным обеспечением. Примером нового движения движения на основе жестов является скелетное ручное отслеживание, которое разрабатывается для виртуальной реальности и приложений с дополненной реальностью. Примером этой технологии являются отслеживающие компании uSens и Gestigon, которые позволяют пользователям взаимодействовать со своим окружением без контроллеров.

Другим примером этого является отслеживание жестов мыши, когда движение мыши коррелирует с символом, нарисованным рукой человека, как и Wii Remote, или Myo armband, или wristband мастера mForce, который может изучать изменения в ускорении с течением времени для представления жестов. Такие устройства, как «Волшебная палочка» LG Electronics, Loop и Scoop, используют технологию Freespace Hillcrest Labs, в которой используются акселерометры MEMS, гироскопы и другие датчики для перевода жестов в движение курсора. Программное обеспечение также компенсирует человеческий тремор и непреднамеренное движение. AudioCubes — еще один пример. Датчики этих умных светоизлучающих кубов могут использоваться для обнаружения рук и пальцев, а также других объектов поблизости и могут использоваться для обработки данных. Большинство приложений основаны на синтезе музыки и звука, но могут применяться к другим областям.

Одиночная камера. Стандартная 2D-камера может использоваться для распознавания жестов, когда ресурсы / среда не будут удобны для других форм распознавания на основе изображений. Раньше считалось, что одиночная камера может быть не такой эффективной, как стерео или камеры с глубоким наблюдением, но некоторые компании бросают вызов этой теории. Технология распознавания жестов на основе программного обеспечения, использующая стандартную 2D-камеру, которая может обнаруживать надежные жесты.
Radar. См. «Проект Соли», опубликованный в Google I / O 2015. Начиная с 13:30, Google I / O 2015 — немного задиры. Красивая. Технология и человек. Работа и любовь. КРАН. — YouTube и краткое введение в видео, Добро пожаловать в Project Soli — YouTube

Алгоритмы
В зависимости от типа входных данных подход к интерпретации жестов может быть выполнен по-разному. Однако большинство методов основаны на указателях клавиш, представленных в трехмерной системе координат. Основываясь на их относительном движении, жест может быть обнаружен с высокой точностью, в зависимости от качества ввода и подхода алгоритма.
Чтобы интерпретировать движения тела, нужно классифицировать их в соответствии с общими свойствами и сообщением, которое могут выражать движения. Например, на языке жестов каждый жест представляет слово или фразу. Таксономия, которая кажется очень подходящей для взаимодействия между человеком и компьютером, была предложена Квеком в «На пути к интерфейсу жестов на основе зрения». Он представляет несколько интерактивных систем жестов, чтобы захватить все пространство жестов:

манипулятивный
Semaphoric
диалоговый

В некоторой литературе различаются два разных подхода к распознаванию жестов: трехмерная модель и внешний вид. В основном методе используется трехмерная информация о ключевых элементах частей тела, чтобы получить несколько важных параметров, таких как положение ладони или углы соединения. С другой стороны, системы на основе внешнего вида используют изображения или видео для прямой интерпретации.

3D-моделирующие алгоритмы
Подход 3D-модели может использовать объемные или скелетные модели или даже комбинацию из двух. Объемные подходы были широко использованы в индустрии компьютерной анимации и для целей компьютерного зрения. Модели обычно создаются из сложных 3D-поверхностей, таких как NURBS или многоугольные сетки.

Недостатком этого метода является интенсивность вычислений, и системы для анализа в реальном времени еще предстоит разработать. На данный момент более интересным подходом было бы сопоставление простых примитивных объектов с наиболее важными частями тела человека (например, цилиндры для рук и шеи, сфера для головы) и анализ того, как они взаимодействуют друг с другом. Кроме того, некоторые абстрактные структуры, такие как суперкадрики и обобщенные цилиндры, могут быть еще более подходящими для аппроксимации частей тела. Увлекательная вещь в этом подходе заключается в том, что параметры для этих объектов довольно просты. Чтобы лучше моделировать связь между ними, мы используем ограничения и иерархии между нашими объектами.

Скелетные алгоритмы
Вместо интенсивной обработки 3D-моделей и обработки множества параметров можно просто использовать упрощенную версию параметров углового угла вместе с длинами сегментов. Это известно как скелетное представление тела, где вычисляется виртуальный скелет человека, а части тела отображаются на определенные сегменты. Анализ здесь выполняется с использованием положения и ориентации этих сегментов и соотношения между каждым из них (например, угол между соединениями и относительное положение или ориентация)

Преимущества использования скелетных моделей:

Алгоритмы быстрее, потому что анализируются только ключевые параметры.
Возможно сопоставление шаблонов с базой шаблонов
Использование ключевых точек позволяет программе обнаружения фокусироваться на значительных частях тела

Модели на основе внешнего вида
Эти модели больше не используют пространственное представление тела, поскольку они выводят параметры непосредственно из изображений или видео с использованием базы данных шаблонов. Некоторые из них основаны на деформируемых 2D-шаблонах человеческих частей тела, особенно на руках. Деформируемые шаблоны представляют собой наборы точек на контуре объекта, используемые в качестве узлов интерполяции для приближения схемы объекта. Одна из простейших функций интерполяции является линейной, которая выполняет среднюю форму от точечных множеств, параметров изменчивости точки и внешних деформаторов. Эти шаблонные модели в основном используются для ручного отслеживания, но могут также использоваться для простой классификации жестов.

Второй подход при обнаружении жестов с использованием моделей на основе внешнего вида использует последовательности изображений в качестве шаблонов жестов. Параметры для этого метода — это либо сами изображения, либо определенные функции, полученные из них. В большинстве случаев используется только один (моноскопический) или два (стереоскопический) вид.

проблемы
Существует множество проблем, связанных с точностью и полезностью программного обеспечения распознавания жестов. Для распознавания жестов на основе изображений существуют ограничения на используемое оборудование и шум изображения. Изображения или видео могут не находиться под постоянным освещением или в том же месте. Элементы в фоновом режиме или отдельные функции пользователей могут усложнить распознавание.

Разнообразие реализаций для распознавания жестов на основе изображений также может вызывать проблемы для жизнеспособности технологии для общего использования. Например, алгоритм, откалиброванный для одной камеры, может не работать для другой камеры. Количество фоновых шумов также вызывает трудности в отслеживании и распознавании, особенно когда происходят окклюзии (частичные и полные). Кроме того, расстояние от камеры, а также разрешение и качество камеры также вызывают отклонения в точности распознавания.

Для захвата человеческих жестов визуальными датчиками также требуются надежные методы компьютерного зрения, например, для отслеживания рук и распознавания руки или для захвата движений головы, мимики или взгляда.

«Горилла рука»
«Горилла рука» была побочным эффектом вертикально ориентированного сенсорного экрана или использования светового пера. В периоды длительного использования, руки пользователей начали чувствовать усталость и / или дискомфорт. Этот эффект способствовал сокращению ввода сенсорного экрана, несмотря на первоначальную популярность в 1980-х годах.

Чтобы измерить усталость рук и побочный эффект руки гориллы, исследователи разработали метод под названием «Потребляемая выносливость».