몸짓 인식

제스처 인식은 수학적 알고리즘을 통해 인간 제스처를 해석하는 것을 목표로 컴퓨터 과학 및 언어 기술의 주제입니다. 제스처는 신체 동작이나 상태에서 비롯 될 수 있지만 일반적으로 얼굴이나 손에서 발생합니다. 현장에서 현재 초점은 얼굴 및 손 제스처 인식에서 감정 인식을 포함합니다. 사용자는 간단한 제스처를 사용하여 물리적으로 손대지 않고 장치를 제어하거나 상호 작용할 수 있습니다. 수화를 해석하기 위해 카메라와 컴퓨터 비전 알고리즘을 사용하여 많은 접근법이 만들어졌습니다. 그러나 자세, 보행, proxemics 및 인간 행동의 식별 및 인식은 제스처 인식 기술의 주제이기도합니다. 제스처 인식은 컴퓨터가 인체 언어를 이해하기 시작하는 방법으로 볼 수 있으므로 기본 텍스트 사용자 인터페이스 또는 GUI (그래픽 사용자 인터페이스)보다 기계와 인간 사이에 더 가교 역할을합니다. 그래도 대부분의 입력을 키보드로 제한합니다 및 마우스.

몸짓 인식은 사람이 기계 (HMI)와 통신하고 기계 장치없이 자연스럽게 상호 작용할 수있게 해줍니다. 제스처 인식이라는 개념을 사용하면 컴퓨터 화면에서 손가락을 가리켜 커서가 적절하게 움직일 수 있습니다. 이로 인해 마우스, 키보드 및 터치 스크린과 같은 기존 입력 장치가 중복 될 수 있습니다.

정의
인간 – 컴퓨터 상호 작용과 관련하여 Kurtenbach와 Hulteen은 제스처를 다음과 같이 정의합니다. “몸짓은 정보가 포함 된 몸의 움직임입니다. 작별 인사를하는 것은 제스처입니다. 키보드의 키를 누르는 것은 제스처가 아닙니다. 대조적으로, Harling과 Edwards는 동작 요구 사항을 포기하고 제스처와 정적 손 자세로 이해합니다. 센서에 필요한 센서가 시스템 내에서 구별 될 수 있습니다. 검출은 사용자의 몸에 직접적으로 위치하며, 사용자는 외부 센서에 의해 관찰된다.

제스처 인식 기능 :

더 정확한
높은 안정성
기기 잠금 해제시 시간 절약

현재 시나리오에서 동작 인식의 주요 적용 영역은 다음과 같습니다.

자동차 부문
가전 ​​부문
대중 교통 구간
게임 분야
스마트 폰을 잠금 해제하려면
방어
홈 오토메이션
수화 통역

제스처 인식 기술은 모든 장치의 잠금을 해제하는 시간을 절약 해 주므로 매우 성공적인 기술로 간주되었습니다.

몸짓 인식은 컴퓨터 비전 및 이미지 처리 기술로 수행 할 수 있습니다.

이 문헌에는 컴퓨터에 연결된 카메라로 제스처 캡처 또는 더 일반적인 인간의 포즈 및 움직임에 관한 컴퓨터 비전 분야의 지속적인 작업이 포함됩니다.

제스처 인식 및 펜 컴퓨팅 : 펜 컴퓨팅은 시스템의 하드웨어 영향을 줄이고 키보드 및 마우스와 같은 전통적인 디지털 객체를 넘어 제어에 사용할 수있는 실제 세계 객체의 범위를 늘립니다. 이러한 구현을 통해 모니터가 필요없는 새로운 범위의 하드웨어를 구현할 수 있습니다. 이 아이디어는 홀로그램 디스플레이를 만들 수 있습니다. 제스처 인식이라는 용어는 그래픽 태블릿에 잉크를 묻히거나 멀티 터치 제스처 및 마우스 제스처 인식과 같은 텍스트가 아닌 필체 기호를 더 좁게 참조하는 데 사용되었습니다. 이는 포인팅 장치 커서로 기호 그리기를 통한 컴퓨터 상호 작용입니다.

제스처 유형
컴퓨터 인터페이스에서 두 가지 유형의 제스처가 구분됩니다. 온라인 제스처는 스케일링 및 회전과 같은 직접 조작으로 간주 할 수 있습니다. 대조적으로, 오프라인 제스처는 대개 상호 작용이 끝난 후에 처리됩니다. 컨텍스트 메뉴를 활성화하려면 원이 그려집니다.

오프라인 제스처 : 사용자가 객체와 상호 작용 한 후에 처리되는 제스처. 예를 들어 메뉴를 활성화하는 제스처가 있습니다.
온라인 제스처 : 직접 조작 제스처. 유형 객체를 크기 조정하거나 회전하는 데 사용됩니다.
터치리스 인터페이스
터치리스 사용자 인터페이스는 제스처 제어와 관련하여 새로운 기술 유형입니다. 터치리스 사용자 인터페이스 (TUI)는 키보드, 마우스 또는 화면을 건드리지 않고 몸 동작 및 제스처를 통해 컴퓨터를 명령하는 프로세스입니다. 예를 들어 Microsoft의 Kinect는 터치리스 게임 인터페이스입니다. 그러나 Wii와 같은 제품은 컨트롤러에 묶여 있기 때문에 완전히 무 접촉으로 간주되지 않습니다. 제스처 컨트롤과 더불어 터치리스 인터페이스는 물리적으로 손대지 않고도 장치와 상호 작용할 수있는 기능을 제공하므로 널리 사용되고 있습니다.

장치 기반 제스처 인식
대부분의 시스템은 데이터 장갑 통합 가속 또는 위치 센서에서 몸에 착용하거나 손 센서로 인도합니다. 데이터 장갑 기반 시스템의 단점은 사용자가 시스템을 사용하기 위해 장갑을 착용해야한다는 것입니다.

BeeCon에서 제조 한 Nintendo Wii 컨트롤러 및 BlueWand와 같은 손으로 조작하는 시스템도 제스처 입력 용으로 사용할 수 있습니다. 두 시스템 모두 사용자가 처리 할 수 ​​있으며 가속 센서를 통해 각 장치의 움직임을 감지 할 수 있습니다.

스마트 폰 및 태블릿 컴퓨터와 같은 최신 장치의 경우 특히 “스 와이프 제스처”로 사용할 수있는 터치 스크린이 사용됩니다. 특히, 멀티 터치 스크린은 여러 개의 독립적 인 지문을 동시에 감지 할 수 있으므로 손가락이 대각선으로 부착 된 두 개로 창을 더 크게 또는 더 작게 만들 수 있습니다.

카메라 기반 제스처 인식
외부 센서가있는 시스템은 대부분 카메라 기반 시스템입니다. 카메라는 사용자의 사진을 찍는 데 사용됩니다. 카메라가있는 시스템과 여러 대의 카메라가있는 최신 시스템은 종종 비행 시간대 카메라 또는 소위 구조화 된 조명 카메라에서 작동하는 3D 데이터로 작동합니다. 카메라 기반 기술은 2D 및 3D 이미지 분석 기술을 사용하여 사용자의 자세를 감지합니다. 카메라 기반 제스처 인식은 예를 들어 게임 콘솔에 연결할 수있는 EyeToy 용 게임에서 사용됩니다. 완전히 새로운 접근 방식은 입체경을 통한 제스처 컨트롤입니다.이 기능은 적외선이 없어도 작동하므로 실외에서 작동합니다.

기술 이미지 분석에는 기본적으로 몇 가지 방법이 있습니다. 즉, 제스처 당 1,000 개가 넘는 비디오 분석의 자오선을 기반으로 만들어진 관련 제스처로 데이터베이스가 만들어집니다. 기록 된 제어 제스처는 데이터베이스와 비교되어 그에 따라 결정됩니다. 예를 들어이 솔루션은 Kinect 3D 카메라와 함께 Xbox에서 Microsoft와 함께 사용됩니다. 이미지 및 비디오 정보를 사용하여 2 차원 공간에서 분석을 수행 할 수 있습니다. 3 차원 공간에서 체적 계산을 말하는데, 예를 들어 몸체는 NURBS 또는 다각형으로 표현됩니다. 실시간 3D 데이터의 계산은 현재 개발 중입니다. 이 데이터베이스 기반 분석의 단점은 데이터베이스에서 많은 컴퓨팅 성능이 필요하다는 것입니다. 또는 소프트웨어는 실제 스켈레톤 식별자, 즉 H. 카메라 데이터 바디에서 손 및 / 또는 손가락이 인식되고 단순화 된 뼈대 모델에 의해 미리 정의 된 제스처에 지정됩니다. 이 솔루션은 훨씬 더 다양한 제스처 및 정밀도를 약속하지만 기술적으로 훨씬 더 까다 롭습니다.

향후 연구 및 개발 목표는 플랫폼 및 카메라에 독립적이며 에너지가 거의 필요없는 내장형 소프트웨어의 맥락에서 제스처 인식을 구현하는 것입니다. 따라서 휴대 전화, 태블릿 또는 탐색 용으로도 사용할 수 있습니다 시스템.

2012 년에는 여러 상용 업체가 현재 사용 가능한 장치 (특히 Xbox 용 Kinect)보다 훨씬 뛰어난 제스처 인식 장치로 시장에 진출하려고한다고 발표했습니다. 예를 들어, 삼성은 라스베가스 CES 2012에서 스마트 TV를 발표했습니다. 또 다른 회사 인 LeapMotion이 있습니다. LeapMotion에서는 뚜렷한 장면이 기록 된대로 The Leap의 홍보 비디오가 커뮤니티에서 비판을 받았습니다. 독일에서 제스처 제어는 특히 안정적인 모바일 시스템이 요구되는 자동차 업계의 특정 주제입니다. 예를 들어 gestigon이 제조 한 제품은 임베디드 솔루션에서도 작동합니다. 3D 제스처 인식은 디지털 간판, 미디어 기술, 미디어 아트 및 성능 분야에서도 널리 사용되고 있습니다. 이 영역과 z에서 동작 인식을 사용하는 쉬운 방법. 예를 들어 다른 소프트웨어를 제어하는 ​​것은 Kinetic Space입니다. 다른 제조업체에는 Omek, Softkinetic 및 Myestro Interactive가 포함됩니다.

무 접촉 기술의 유형
스마트 폰, 랩톱, 게임 및 TV와 같은 유형의 인터페이스를 사용하는 여러 장치가 있습니다. 터치리스 기술은 게임 소프트웨어에서 주로 볼 수 있지만 자동차 및 의료 산업을 비롯한 다른 분야로 관심이 확산되고 있습니다. 차후에는 음성 인식을 넘어서는 수준에서 자동차에 터치리스 기술과 제스처 제어가 구현 될 것입니다. BMW Series 7을 참조하십시오.

무 접촉 기술의 미래
제스처 인식 기술을 생산하는 전세계의 수많은 회사가 이미 있습니다.

인텔
백서 : 인텔의 사용자 경험 조사를 살펴보십시오. MFA (touchless multifactor authentication)를 사용하면 건강 관리 조직이 보안 위험을 완화하고 임상의 효율성, 편의성 및 환자 치료를 향상시키는 방법을 알 수 있습니다. 이 무 접촉 MFA 솔루션은 2 요소 사용자 인증을위한 얼굴 인식 및 장치 인식 기능을 결합합니다.

미국의 Microsoft Corp.
이 프로젝트의 목적은 카메라 기반 제스쳐 인식 기술을 사용하여 접촉없이 이미지를보고, 제어하고 조작 할 수 있도록 외과 수술 환경에서 무 접촉 상호 작용의 사용을 탐구하는 것입니다. 특히이 프로젝트는 이러한 시스템의 설계 및 배치에 대한 이러한 환경의 어려움을 이해하고 이러한 기술로 인해 수술 실습이 변경 될 수있는 방법을 분명히하고자합니다. 여기에 우리의 주요 관심사는 무균 상태를 유지하는 것이지만, 이러한 무 접촉 제스처 기반 기술을 사용하면 다른 잠재적 인 용도가 될 수 있습니다.

타원 실험실
Elliptic Labs 소프트웨어 제품군은 이전에는 오디오 용으로 만 사용되었던 기존 수화기 및 마이크를 다시 사용하여 제스처 및 근접 식 기능을 제공합니다. 스마트 폰과 태블릿에 내장 된 스피커에서 공기를 통해 보내지는 초음파 신호는 손 / 물체 / 머리에 반사되어 마이크로 기록되며이 장치에도 통합되어 있습니다. 이 방법으로 Elliptic Labs의 기술은 손짓을 인식하고 박쥐가 반향 위치를 사용하여 탐색하는 방식과 마찬가지로 화면에서 개체를 움직이는 데 사용합니다.

이 회사들은이시기에 미래를위한 무 접촉 기술의 최전선에 서 있지만 현재 다른 회사와 제품도 현재의 추세이며이 새로운 분야에도 가치를 더할 수 있습니다. 다음은 몇 가지 예입니다.

Tobii Rex : 스웨덴의 안구 추적 장치

에어 라이팅 (Airwriting) : 메시지와 텍스트를 무선으로 작성하는 기술

eyeSight : 물리적으로 장치를 건드리지 않고도 화면을 탐색 할 수 있습니다.

도약 모션 : 모션 센서 디바이스

근전 팔 밴드 : 블루투스 장치의 통신 가능

입력 장치
다양한 도구를 사용하여 사람의 동작을 추적하고 수행 할 동작을 결정할 수 있습니다. KUI (kinetic user interface)는 사용자가 객체 및 바디의 동작을 통해 컴퓨팅 장치와 상호 작용할 수있게하는 새롭게 부상하는 유형의 사용자 인터페이스입니다. KUI의 예로는 Wii 및 Microsoft의 Kinect와 같은 유형의 사용자 인터페이스 및 동작 인식 게임 및 기타 대화 형 프로젝트가 있습니다.

이미지 / 비디오 기반 제스처 인식에는 많은 연구가 이루어졌지만 구현간에 사용되는 도구 및 환경에는 약간의 차이가 있습니다.

유선 장갑. 이들은 자기 또는 관성 추적 장치를 사용하여 손의 위치와 회전에 대한 컴퓨터 입력을 제공 할 수 있습니다. 또한, 일부 장갑은 고도의 정확성 (5 ~ 10도)으로 손가락을 구부리거나 터치 감각의 시뮬레이션 인 사용자에게 햅틱 피드백을 제공 할 수 있습니다. 손으로 추적 할 수있는 최초의 장갑 형 장치는 손의 위치, 움직임 및 손가락 굴곡을 감지 할 수있는 장갑 형 장치 인 DataGlove입니다. 이것은 손등을 따라 움직이는 광섬유 케이블을 사용합니다. 빛의 펄스가 만들어지며 손가락이 구부러지면 작은 균열을 통해 빛이 누출되고 손실이 등록되어 손의 자세를 대략적으로 표시합니다.
깊이 인식 카메라. 구조화 된 빛이나 비행 시간의 카메라와 같은 특수한 카메라를 사용하면 짧은 거리에서 카메라를 통해 보이는 것들에 대한 깊이 맵을 생성 할 수 있으며,이 데이터를 사용하여 보이는 내용을 3D로 표현할 수 있습니다. 이것들은 짧은 범위 능력으로 인해 손 제스처를 탐지하는데 효과적 일 수 있습니다.
스테레오 카메라. 서로 관계가 알려진 두 대의 카메라를 사용하면 카메라의 출력으로 3D 표현을 근사 할 수 있습니다. 카메라 관계를 얻으려면 lexian-stripe 또는 infrared emitters와 같은 위치 지정 참조를 사용할 수 있습니다. 직접 운동 측정 (6D-Vision)과 함께 제스처를 직접 감지 할 수 있습니다.
제스처 기반 컨트롤러. 이 컨트롤러는 몸의 연장으로 동작하므로 제스처가 수행 될 때 모션에 대한 일부를 소프트웨어로 편리하게 캡처 할 수 있습니다. 신흥 제스처 기반 모션 캡쳐의 예로는 가상 현실 및 증강 현실 애플리케이션을 위해 개발 된 골격 손 추적을들 수 있습니다. 이 기술의 예는 사용자가 컨트롤러없이 주변 환경과 상호 작용할 수 있도록하는 uSens 및 Gestigon 추적 회사에 의해 표시됩니다.

또 다른 예는 마우스 제스쳐 추적입니다. 마우스의 움직임은 Wii 리모트, Myo 암밴드 또는 mForce Wizard 손목띠와 같이 시간이 지남에 따라 가속도 변화를 연구 할 수있는 것처럼 사람의 손에 의해 그려지는 심볼과 상호 관련됩니다 제스처를 나타냅니다. LG Electronics Magic Wand, Loop 및 Scoop과 같은 장치는 MEMS 가속도계, 자이로 스코프 및 기타 센서를 사용하여 제스처를 커서 이동으로 변환하는 Hillcrest Labs의 Freespace 기술을 사용합니다. 소프트웨어는 또한 인간의 떨림과 부주의 한 움직임을 보상합니다. AudioCubes는 또 다른 예입니다. 이러한 스마트 발광 큐브의 센서는 손과 손가락뿐만 아니라 주변의 다른 물체를 감지하는 데 사용할 수 있으며 데이터 처리에 사용할 수 있습니다. 대부분의 응용 프로그램은 음악 및 사운드 합성에 있지만 다른 필드에도 적용 할 수 있습니다.

단일 카메라. 표준 2D 카메라는 리소스 / 환경이 다른 형태의 이미지 기반 인식에 편리하지 않은 제스처 인식에 사용될 수 있습니다. 이전에는 단일 카메라가 스테레오 카메라 또는 깊이 인식 카메라만큼 효과적이지 않을 수도 있지만 일부 회사는이 이론에 도전하고 있다고 생각했습니다. 견고한 손 제스처를 감지 할 수있는 표준 2D 카메라를 사용하는 소프트웨어 기반 제스처 인식 기술.
레이다. Google I / O 2015에 공개 된 Project Soli를 참조하십시오. 13:30, Google I / O 2015부터 – 다소 불쾌합니다. 아름다운. 기술과 인간. 일과 사랑. 손가락으로하는 가벼운 터치. – YouTube 및 짧은 소개 비디오, Project Soli에 오신 것을 환영합니다. – YouTube

알고리즘
입력 데이터의 유형에 따라 제스처 해석 방식이 다른 방식으로 수행 될 수 있습니다. 그러나, 대부분의 기술은 3D 좌표계로 표현 된 키 포인터에 의존합니다. 이들의 상대적인 움직임에 기초하여, 제스처는 입력의 품질 및 알고리즘의 접근에 따라 높은 정확도로 검출 될 수있다.
몸의 움직임을 해석하기 위해서는 공통 속성과 움직임이 표현할 수있는 메시지에 따라 몸을 분류해야합니다. 예를 들어, 수화에서는 각 제스처가 단어 또는 구를 나타냅니다. 인간 – 컴퓨터 상호 작용에 매우 적합한 분류법은 Quek에 의해 “비전 기반 손 제스처 인터페이스를 향하여”제안되었습니다. 그는 제스처의 전체 공간을 포착하기 위해 몇 가지 대화 형 제스처 시스템을 제시합니다.

조작의
세마포어
이야기 잘하는

일부 문학은 제스처 인식에서 두 가지 접근 방식을 차별화합니다. 3D 모델 기반과 외형 기반입니다. 가장 중요한 방법은 손바닥 위치 또는 관절 각도와 같은 몇 가지 중요한 매개 변수를 얻기 위해 신체 부위의 주요 요소에 대한 3D 정보를 사용합니다. 한편, Appearance 기반 시스템은 직접 해석을 위해 이미지 나 비디오를 사용합니다.

3D 모델 기반 알고리즘
3D 모델 접근법은 체적 모델 또는 골격 모델을 사용하거나이 둘의 조합을 사용할 수 있습니다. 체적 접근법은 컴퓨터 애니메이션 산업 및 컴퓨터 비전 목적에 많이 사용되었습니다. 모델은 일반적으로 NURBS 또는 다각형 메쉬와 같이 복잡한 3D 표면으로 작성됩니다.

이 방법의 단점은 매우 계산 집약적이며 실시간 분석을위한 시스템이 여전히 개발되어야한다는 것입니다. 순간적으로,보다 흥미로운 접근 방법은 사람의 가장 중요한 신체 부위 (예 : 팔 및 목의 실린더, 머리의 구체, 구체)에 간단한 기본 객체를 매핑하고 이들이 서로 상호 작용하는 방식을 분석하는 것입니다. 또한 수퍼 쿼드 러지 (super-quadrics) 및 일반화 된 실린더와 같은 일부 추상 구조는 신체 부위를 근사화하는 데 더욱 적합 할 수 있습니다. 이 접근 방식에 대한 흥미로운 점은 이러한 객체의 매개 변수가 매우 간단하다는 것입니다. 이들 간의 관계를 더 잘 모델링하기 위해 객체간에 제약 조건과 계층 구조를 사용합니다.

골격 기반 알고리즘
3D 모델을 집중적으로 처리하고 많은 매개 변수를 처리하는 대신 세그먼트 길이와 함께 관절 각도 매개 변수의 단순화 된 버전을 사용할 수 있습니다. 이것은 사람의 가상 골격이 계산되고 신체의 일부가 특정 세그먼트에 매핑되는 신체의 골격 표현으로 알려져 있습니다. 여기에서 분석은이 세그먼트의 위치와 방향 및 각 세그먼트 간의 관계 (예 : 접합부와 상대 위치 또는 방향 간의 각도)를 사용하여 수행됩니다.

스켈 레탈 모델 사용의 장점 :

핵심 매개 변수 만 분석되므로 알고리즘이 빠릅니다.
템플릿 데이터베이스와 패턴 매칭이 가능합니다.
핵심 포인트를 사용하면 탐지 프로그램이 신체의 중요한 부위에 집중할 수 있습니다

모양 기반 모델
이 모델은 템플릿 데이터베이스를 사용하여 이미지 또는 비디오에서 매개 변수를 직접 파생하기 때문에 더 이상 본문의 공간 표현을 사용하지 않습니다. 일부는 신체의 인간 부분의 변형 가능한 2D 템플릿, 특히 손을 기반으로합니다. 변형 가능한 템플릿은 객체 윤곽선 근사를위한 보간 노드로 사용되는 객체 윤곽선상의 점 집합입니다. 가장 간단한 보간 함수 중 하나는 점 집합, 점 변동 매개 변수 및 외부 변형 자에서 평균 모양을 수행하는 선형입니다. 이러한 템플릿 기반 모델은 주로 손 추적에 사용되지만 간단한 제스처 분류에도 사용할 수 있습니다.

모양 기반 모델을 사용하는 제스처 검출의 두 번째 접근법은 이미지 시퀀스를 제스처 템플릿으로 사용합니다. 이 메소드의 매개 변수는 이미지 그 자체이거나 이미지에서 파생 된 특정 기능입니다. 대부분의 경우 단 하나 (모노 스코픽) 또는 두 (입체) 뷰가 사용됩니다.

도전 과제
제스처 인식 소프트웨어의 정확성과 유용성과 관련된 많은 문제가 있습니다. 이미지 기반 제스처 인식을 위해서는 사용되는 장비 및 이미지 노이즈에 제한이 있습니다. 이미지 또는 비디오가 일관된 조명이나 동일한 위치에 있지 않을 수 있습니다. 배경의 항목이나 사용자의 고유 한 기능으로 인해 인식이 어려워 질 수 있습니다.

이미지 기반 제스처 인식을위한 다양한 구현은이 기술의 일반적인 사용에 대한 생존 가능성에 문제를 일으킬 수 있습니다. 예를 들어, 한 카메라에 대해 보정 된 알고리즘이 다른 카메라에서는 작동하지 않을 수 있습니다. 배경 잡음의 양은 또한 특히 오 클루 전 (부분 및 완전)이 발생할 때 추적 및 인식 어려움을 유발합니다. 또한 카메라와의 거리 및 카메라의 해상도와 품질 또한 인식 정확도에 변화를 일으 킵니다.

시각 센서에 의한 인간 제스처를 포착하기 위해서는 손 추적, 손 자세 인식, 머리, 표정 또는 시선 방향의 움직임을 포착하는 등 강력한 컴퓨터 비전 방법이 필요합니다.

“고릴라 팔”
“고릴라 팔”은 수직 지향성 터치 스크린 또는 라이트 펜 사용의 부작용이었습니다. 장기간 사용하는 동안 사용자의 팔에 피로감이나 불쾌감이 들기 시작했습니다. 이 효과는 1980 년대 초기 인기에도 불구하고 터치 스크린 입력 감소에 기여했습니다.

팔의 피로와 고릴라 팔의 부작용을 측정하기 위해 연구자들은 소비 지구력 (Consumed Endurance)이라는 기술을 개발했습니다.