ジェスチャ認識

ジェスチャー認識は、数学的アルゴリズムを介して人間のジェスチャーを解釈するという目的で、コンピューターサイエンスと言語技術のトピックです。 ジェスチャーは、身体の動きや状態から発生することができますが、通常は顔や手から発生します。 この分野における現在の焦点は、顔と手のジェスチャ認識からの感情認識を含む。 ユーザーは簡単なジェスチャーを使用して、デバイスに物理的に触れることなくデバイスを制御または操作できます。 手話を解釈するために、カメラおよびコンピュータビジョンアルゴリズムを使用して多くのアプローチがなされてきた。 しかしながら、姿勢、歩行、プロキシミクス、および人間の行動の識別および認識は、ジェスチャ認識技術の主題でもある。 ジェスチャ認識は、コンピュータが人間の身体言語を理解し始め、基本的なテキストユーザインタフェースやGUI(グラフィカルユーザインタフェース)よりも機械と人間との間のより橋渡しをする方法と見ることができます。マウス。

ジェスチャ認識は、人間が機械(HMI)と通信し、機械的装置なしで自然に相互作用することを可能にする。 ジェスチャ認識の概念を使用して、コンピュータ画面に指を指して、カーソルがそれに従って動くようにすることが可能である。 これにより、マウス、キーボード、タッチスクリーンなどの従来の入力デバイスを冗長化することができます。

定義
人間とコンピュータのインタラクションに関しては、KurtenbachとHulteenはジェスチャーを次のように定義しています。「ジェスチャーは情報を含む身体の動きです。さようならを身に付けていることはジェスチャーです。キーボードのキーを押すことはジェスチャーではありません。対照的に、HarlingとEdwardsは動きの要求を放棄し、ジェスチャーと静的な手の姿勢で理解しています。検出はユーザの身体の上に直接位置し、ユーザが外部センサによって観察されるものである。

ジェスチャー認識機能:

より正確な
高い安定性
デバイスのロックを解除するための時間の節約

現在のシナリオにおけるジェスチャ認識の主なアプリケーション領域は次のとおりです。

自動車分野
家電分野
乗り継ぎセクター
ゲームセクター
スマートフォンをロック解除するには
防衛
ホームオートメーション
手話通訳

ジェスチャー認識技術は、あらゆるデバイスのロックを解除する時間を節約するので、非常に成功した技術と考えられています。

ジェスチャ認識は、コンピュータビジョンおよび画像処理の技術を用いて行うことができる。

文献には、コンピュータに接続されたカメラによるジェスチャーまたはより一般的な人間の姿勢および動きのキャプチャに関するコンピュータビジョンフィールドにおける進行中の作業が含まれる。

ジェスチャ認識とペンコンピューティング:ペンコンピューティングは、システムのハードウェアへの影響を軽減し、キーボードやマウスなどの従来のデジタルオブジェクトを超えて、制御に使用できる物理的世界オブジェクトの範囲を広げます。 このような実装により、モニターを必要としない新しい範囲のハードウェアが可能になります。 このアイデアは、ホログラフィック表示の作成につながる可能性があります。 ジェスチャ認識という用語は、グラフィックスタブレットへのインキング、マルチタッチジェスチャ、およびマウスジェスチャ認識など、テキスト入力以外の手書きシンボルをより狭く参照するために使用されています。 これは、ポインティングデバイスのカーソルを用いてシンボルを描くことによるコンピュータの相互作用である。

ジェスチャータイプ
コンピュータインタフェースでは、2つのタイプのジェスチャが区別されます。オンラインジェスチャを考慮します。これは、スケーリングや回転などの直接的操作と見なすこともできます。 対照的に、オフラインジェスチャは通常、対話が終了した後に処理されます。 コンテキストメニューをアクティブにするために円が描かれます。

オフラインジェスチャー:ユーザーがオブジェクトと対話した後に処理されるジェスチャー。 例として、メニューをアクティブにするジェスチャーがあります。
オンラインジェスチャー:直接操作ジェスチャー。 それらは、有形のオブジェクトを拡大縮小または回転させるために使用されます。
タッチレスインターフェイス
タッチレスユーザインタフェースは、ジェスチャー制御に関連して新たに登場する技術の1つです。 タッチレスユーザーインターフェイス(TUI)は、キーボード、マウス、または画面に触れることなく、身体の動きとジェスチャを介してコンピュータに命令するプロセスです。 たとえば、MicrosoftのKinectはタッチレスゲームインターフェイスです。 しかし、Wiiのような製品はコントローラーに繋がれているため完全に無接触であるとはみなされません。 ジェスチャーコントロールに加えて、タッチレスインターフェイスは、デバイスに物理的に触れることなくデバイスとやりとりする能力を提供するため、広く普及しています。

デバイスベースのジェスチャ認識
ほとんどのシステムは、身体に装着されているか、またはデータグローブ内蔵の加速度センサまたは位置センサでハンドセンサの使用に基づいています。 データグローブベースのシステムの欠点は、ユーザがシステムを使用するために手袋を着用しなければならないことである。

BeeCon社製の任天堂WiiコントローラやBlueWandなどのハンドガイドシステムも、ジェスチャ入力に使用できます。 両方のシステムは、ユーザによって処理され、各デバイスの動きを検出するための加速度センサを有することができる。

スマートフォンやタブレットコンピュータなどの新しいデバイスでは、特に「スワイプジェスチャー」で使用できるタッチスクリーンが使用されます。 特に、マルチタッチスクリーンは、いくつかの独立した指紋の検出を同時に提供するので、例えば、指先が斜めに取り付けられた2つのウィンドウを使用すると、ウィンドウを大きくまたは小さくすることができます。

カメラベースのジェスチャ認識
外部センサを備えたシステムは主にカメラベースのシステムです。 カメラは、ユーザの写真を撮るために使用される。 カメラと複数のカメラの両方のシステムがあり、新しいシステムは、飛行時間型カメラまたはいわゆる構造化ライトカメラのいずれかで動作する3Dデータで動作することが多い。 カメラベースの技術は、ユーザの姿勢を検出するために2Dおよび3D画像解析技術に依存している。 カメラベースのジェスチャ認識は、例えば、ゲームコンソールに接続可能なEyeToyのゲームで使用される。 完全に新しいアプローチは、立体視によるジェスチャーコントロールです。これは、赤外光がなくても動作し、屋外で動作するという利点があります。

技術的イメージ分析では、基本的にいくつかの方法があります。ジェスチャーごとに1000以上のビデオ分析の子午線に基づいて作成された関連ジェスチャーを使用してデータベースを作成するか、 記録された制御ジェスチャは、データベースと比較され、それに応じて決定される。 たとえば、このソリューションは、Kinect 3Dカメラと組み合わせてMicrosoftとXboxで使用されます。 解析は、画像情報と映像情報を用いて2次元空間で行うことができる。 3次元空間では、体積計算のことを言います。たとえば、物体はNURBSやポリゴンで表現されます。 リアルタイムの3Dデータの計算が現在開発中です。 このデータベースベースの分析の欠点は、データベースから多くのコンピューティング能力が必要であることです。 あるいは、ソフトウェアは、真のスケルトン識別子、すなわち、 H.カメラのデータ本体から、手および/または指が認識され、単純化されたスケルトンモデルによって所定のジェスチャに割り当てられる。 このソリューションは、より多様なジェスチャーと精度を約束しますが、技術的にははるかに厳しいものです。

今後の研究開発の目標は、プラットフォームやカメラに依存せず、エネルギーをほとんど必要としない組み込みソフトウェアのコンテキストでジェスチャ認識を実装することです。したがって、携帯電話、タブレット、ナビゲーションなどでも使用できますシステム。

2012年に、多くの商用ベンダーが、現在入手可能なデバイス(特にXbox用のKinect)よりもはるかに優れたジェスチャー認識デバイスを市場に投入したいと発表しました。 たとえば、サムスンはラスベガスのCES 2012でスマートテレビを発表しました。 もう1つの会社はLeapMotionです。そこでは、いくつかの明白なシーンが記録されているため、The Leapのプロモーションビデオがコミュニティで批判されました。 ドイツではジェスチャーコントロールは、組み込みソリューションでも動作するgestigon製のものなど、特に安定したモバイルシステムが必要とされる自動車業界の特定のトピックです。 3Dジェスチャー認識は、デジタルサイネージ、メディア技術、メディアアート、パフォーマンスの分野でも人気があります。 これらの領域とzでジェスチャー認識を使用する簡単な方法。 たとえば、他のソフトウェアの制御はKinetic Spaceです。 他のメーカーには、Omek、Softkinetic、Myestro Interactiveなどがあります。

タッチレス技術の種類
スマートフォン、ラップトップ、ゲーム、テレビなど、このタイプのインターフェイスを利用する多くのデバイスがあります。 タッチレス技術はゲームソフトウェアで主に見られますが、自動車やヘルスケア産業などの他の分野への関心が高まっています。 まもなく、タッチレス技術とジェスチャーコントロールは、音声認識以外のレベルで車に実装されます。 BMW Series 7を参照してください。

タッチレス技術の未来
ジェスチャー認識技術を開発している世界各地の企業は、すでに次のように多数存在します。

インテルコーポレーション
ホワイトペーパー:インテリジェントなマルチファクター認証(MFA)が医療機関がセキュリティリスクを軽減し、臨床家の効率、利便性、患者ケアを改善するのに役立つインテルのユーザーエクスペリエンスに関する調査をご覧ください。 このタッチレスMFAソリューションは、2要素ユーザー認証のための顔認識とデバイス認識機能を組み合わせています。

米国Microsoft Corp.
このプロジェクトの目的は、カメラベースのジェスチャー認識技術を使用して、画像を視覚化し、制御し、操作することを可能にし、外科手術環境内でのタッチレスな相互作用の使用を探究することである。 特に、このようなシステムの設計と展開のためのこれらの環境の課題を理解し、これらの技術が外科手術を変える方法を明確にすることを目的としています。 ここでの主な懸念事項は、腐食の状態を維持することですが、これらのタッチレスジェスチャーベースのテクノロジーを使用すると、他の潜在的な用途が提供されます。

楕円研究所
Elliptic Labsのソフトウェアスイートは、以前はオーディオ用にのみ使用されていた既存のイヤホンとマイクを再利用することで、ジェスチャーと近接機能を提供します。 スマートフォンとタブレットに内蔵されたスピーカーからの空気を介して送信される超音波信号は、ハンド/オブジェクト/ヘッドに跳ね返り、マイクロフォンによって記録され、これらのデバイスにも統合されます。 このように、Elliptic Labsの技術は、あなたの手のジェスチャーを認識し、バットがエコーロケーションを使ってナビゲートする方法と同様に、それらを使ってスクリーン上のオブジェクトを移動させます。

これらの企業は、現在のところ将来のためにタッチレス技術の最前線に立っていますが、現在も動向を呈している他の多くの企業や製品があります。 多くの例があります:

Related Post

Tobii Rex:スウェーデンの眼球追跡装置

エアライティング:メッセージやテキストを空中に書き込む技術

eyeSight:デバイスに物理的に触れることなく画面をナビゲートできます

飛躍運動:モーションセンサー装置

筋電腕帯:ブルートゥースデバイスの通信を可能にする

入力デバイス
人の動きを追跡し、どのようなジェスチャーが実行されているかを判断する機能は、さまざまなツールを使って実現できます。 キネティックユーザーインターフェース(KUI)は、ユーザーがオブジェクトやボディの動きを介してコンピューティングデバイスとやりとりすることを可能にする新しいタイプのユーザーインターフェースです。 KUIの例としては、WiiやMicrosoftのKinectやその他のインタラクティブなプロジェクトなど、具体的なユーザーインターフェイスやモーションアウェアなゲームがあります。

イメージ/ビデオベースのジェスチャ認識では大量の研究が行われていますが、実装間で使用されるツールや環境には多少の違いがあります。

ワイヤード手袋。 これらは、磁気または慣性追跡装置を使用して、手の位置および回転に関するコンピュータへの入力を提供することができる。 さらに、いくつかの手袋は、高い精度(5〜10度)で指の曲がりを検出することができ、触覚のシミュレーションであるユーザに触覚フィードバックを提供することさえできる。 最初に市販されていたハンドトラッキンググローブタイプのデバイスは、手の位置、動き、指の曲がりを検出できるグローブタイプのデバイスであるDataGloveでした。 これは、手の後ろを走る光ファイバーケーブルを使用します。 光パルスが生成され、指が曲がったときに小さな亀裂から光が漏れ、損失が記録され、手の姿勢の近似値が得られます。
深さ認識カメラ。 構造化ライトや飛行時間型カメラなどの特殊なカメラを使用すると、短距離でカメラを通して見られているものの奥行きマップを生成し、このデータを使用して、見えているものの3d表現に近似させることができます。 これらは、短距離機能のために手のジェスチャを検出するのに有効です。
ステレオカメラ。 互いに関係がある2つのカメラを使用して、カメラの出力によって3d表現を近似することができる。 カメラの関係を得るために、レキシン・ストライプまたは赤外線エミッタのような測位基準を使用することができる。 ダイレクトモーション計測(6D-Vision)と組み合わせて、ジェスチャを直接検出することができます。
ジェスチャーベースのコントローラー。 これらのコントローラは身体の延長線上で動作し、ジェスチャが実行されると、その動きの一部がソフトウェアによって便利に捕捉されるようにする。 新たなジェスチャベースのモーションキャプチャの一例は、仮想現実感および拡張現実感アプリケーションのために開発されている骨格の手の追跡によるものである。 この技術の例は、ユーザがコントローラなしで周囲と対話することを可能にする追跡会社uSensおよびGestigonによって示されている。

これのもう一つの例は、マウスの動きが人の手によって描かれているシンボルに関連しているマウスジェスチャートラッキングです。時間の経過とともに加速度の変化を調べることができるWiiリモコンやMyoアームバンド、またはmForce Wizardリストバンドですジェスチャーを表現する。 LG Electronics Magic Wand、Loop、およびScoopなどのデバイスは、MEMS加速度計、ジャイロスコープ、ジェスチャーをカーソル移動に変換するその他のセンサーを使用するHillcrest Labsのフリースペース技術を使用します。 このソフトウェアは、人間の震えや不慮の動きを補うものでもあります。 AudioCubesは別の例です。 これらのスマートな発光キューブのセンサーは、手や指などの近くの物体を感知するために使用することができ、データの処理に使用することができます。 ほとんどのアプリケーションは音楽とサウンド合成にありますが、他のフィールドにも適用できます。

単一のカメラ。 ジェスチャ認識のために標準の2Dカメラを使用することができ、リソース/環境が画像ベースの認識の他の形態には都合がよい。 以前は、単一カメラはステレオカメラやデプス対応カメラほど効果的ではないと考えられていましたが、一部の企業ではこの理論に挑戦しています。 堅牢な手のジェスチャーを検出できる標準の2Dカメラを使用したソフトウェアベースのジェスチャー認識技術。
レーダー。 Google I / O 2015で公開されたProject Soliを参照してください.13:30から開始、Google I / O 2015 – 少し不便です。 綺麗な。 技術と人間。 仕事と愛。 ATAP。 – YouTube、短い紹介ビデオ、Welcome to Project Soli – YouTube

アルゴリズム
入力データのタイプに応じて、ジェスチャーを解釈するアプローチはさまざまな方法で行うことができます。 しかしながら、技術の大部分は、3D座標系で表現されたキーポインタに頼っている。 これらの相対的な動きに基づいて、ジェスチャは、入力の品質およびアルゴリズムの手法に応じて、高精度で検出することができる。
身体の動きを解釈するためには、共通の特性および動きが表すメッセージに従ってそれらを分類しなければならない。 たとえば、手話では、各ジェスチャーは単語またはフレーズを表します。 ヒューマン・コンピュータ相互作用に非常に適している分類法は、Quekによって「視覚に基づく手のジェスチャ・インタフェースに向けて」提案されている。 彼は、ジェスチャーの全体空間をキャプチャするためにいくつかのインタラクティブなジェスチャーシステムを提示しています。

操作性のある
セマフォリック
会話

いくつかの文献は、ジェスチャ認識における2つの異なるアプローチを区別している:3Dモデルベースおよび外観ベース。 最先端の方法は、手のひらの位置または関節角のようないくつかの重要なパラメータを得るために、身体部分の主要要素の3D情報を利用する。 一方、Appearanceベースのシステムでは、イメージやビデオを直接解釈するために使用されます。

3Dモデルベースのアルゴリズム
3Dモデルの手法では、立体モデルや骨格モデル、あるいはその2つの組み合わせを使用することができます。 体積測定アプローチは、コンピュータアニメーション産業およびコンピュータビジョンの目的で頻繁に使用されてきた。 モデルは一般に、NURBSやポリゴンメッシュなどの複雑な3Dサーフェスから作成されます。

この方法の欠点は、非常に計算集約的であり、リアルタイム分析のためのシステムがまだ開発されていることである。 現時点では、より興味深いアプローチは、単純なプリミティブオブジェクトを人の最も重要な身体部分(例えば、腕と首の円柱、頭の球)にマップし、これらの相互作用の方法を分析することです。 さらに、スーパークワッドおよび一般化されたシリンダーのようないくつかの抽象的な構造は、身体部分を近似するためにさらに適している可能性がある。 この手法のエキサイティングなことは、これらのオブジェクトのパラメータが非常に単純であることです。 これらの間の関係をよりよくモデル化するために、私たちはオブジェクト間に制約と階層を利用します。

スケルトンベースのアルゴリズム
3Dモデルの処理を集中的に行い、多くのパラメータを扱う代わりに、セグメント長と共に関節角度パラメータの単純化されたバージョンを使用することができます。 これは、人物の仮想骨格が計算され、身体の部分が特定のセグメントにマッピングされる、身体の骨格表現として知られている。 ここでの分析は、これらのセグメントの位置と向き、およびそれらの各1つの関係(例えば、関節と相対位置または向きとの間の角度)を使用して行われ、

骨格モデルを使用するメリット:

主要なパラメータのみが分析されるため、アルゴリズムは高速です。
テンプレートデータベースとのパターンマッチングが可能
キーポイントを使用することで、検出プログラムは身体の重要な部分に集中することができます

外観ベースのモデル
これらのモデルは、テンプレートデータベースを使用して画像やビデオから直接パラメータを派生させるため、ボディの空間表現を使用しません。 いくつかは、身体の人間の部分、特に手の変形可能な2Dテンプレートに基づいています。 変形可能なテンプレートは、オブジェクトの輪郭近似の補間ノードとして使用される、オブジェクトの輪郭上の点の集合である。 最も単純な補間関数の1つは、線形であり、点集合、点変動パラメータ、および外部デフォーマから平均形状を実行する。 これらのテンプレートベースのモデルは、主にハンドトラッキングに使用されますが、単純なジェスチャ分類にも使用できます。

外観ベースのモデルを使用したジェスチャ検出の第2の手法は、画像シーケンスをジェスチャテンプレートとして使用します。 このメソッドのパラメータは、画像そのもの、またはこれらから派生した特定のフィーチャです。 ほとんどの場合、1つ(モノスコピック)または2つ(立体視)のビューのみが使用されます。

課題
ジェスチャ認識ソフトウェアの精度と有用性には多くの課題があります。 画像ベースのジェスチャ認識のために、使用される機器および画像ノイズに制限がある。 画像やビデオは、一貫した照明や同じ場所にないことがあります。 ユーザの背景や異なる特徴の項目は、認識をより困難にする可能性がある。

画像ベースのジェスチャ認識のための様々な実装は、一般的な使用法に対する技術の実行可能性の問題を引き起こす可能性がある。 例えば、1つのカメラに対して較正されたアルゴリズムは、異なるカメラに対しては機能しない可能性がある。 バックグラウンドノイズの量はまた、特に閉塞(部分的および完全な)が発生した場合に、追跡および認識の困難性を引き起こす。 さらに、カメラからの距離およびカメラの解像度および品質もまた、認識精度の変動を引き起こす。

視覚センサによる人間のジェスチャを捕捉するためには、手の追跡や手の姿勢の認識や、頭の動き、顔の表情、注視方向などの堅牢なコンピュータビジョン法も必要である。

“ゴリラアーム”
「ゴリラアーム」は、垂直方向のタッチスクリーンまたはライトペンの使用の副作用であった。 長時間使用すると、ユーザーの腕が疲労や不快感を感じ始めました。 この効果は、1980年代の初期の人気にもかかわらず、タッチスクリーン入力の減少に寄与した。

腕の疲労やゴリラ腕の副作用を測定するために、研究者は消費耐久と呼ばれる技術を開発しました。

Share