التعرف على الإيماءات

التعرّف على الإيماءات هو موضوع في علوم الكمبيوتر وتكنولوجيا اللغة بهدف تفسير الإيماءات البشرية عبر خوارزميات رياضية. يمكن أن تنشأ الإيماءات من أي حركة أو حالة جسدية ولكنها تنشأ عادة من الوجه أو اليد. يتضمن التركيز الحالي في المجال التعرف على المشاعر من التعرف على الوجوه والتعرف على لفتات اليد. يمكن للمستخدمين استخدام إيماءات بسيطة للتحكم في الأجهزة أو التفاعل معها دون لمسها فعليًا. تم إجراء العديد من الطرق باستخدام الكاميرات وخوارزميات رؤية الكمبيوتر لتفسير لغة الإشارة. ومع ذلك ، فإن التعرف على الموقف ، والمشية ، والإكثار ، والسلوكيات البشرية والاعتراف بها هو أيضًا موضوع تقنيات التعرف على الإيماءات. يمكن النظر إلى التعرف على الإيماءات كطريقة لتبدأ أجهزة الكمبيوتر في فهم لغة الجسد البشري ، وبالتالي إنشاء جسر أكثر ثراءً بين الآلات والبشر من واجهات المستخدم النصية الأولية أو حتى واجهات المستخدم الرسومية (واجهات المستخدم الرسومية) ، والتي لا تزال تحد من غالبية المدخلات إلى لوحة المفاتيح والماوس.

يمكّن التعرف على الإيماءات البشر من الاتصال بالآلة (HMI) والتفاعل بشكل طبيعي بدون أي أجهزة ميكانيكية. باستخدام مفهوم التعرف على الإيماءات ، من الممكن توجيه إصبعك على شاشة الكمبيوتر بحيث يتحرك المؤشر وفقًا لذلك. هذا يمكن أن يجعل أجهزة الإدخال التقليدية مثل الماوس ولوحات المفاتيح وحتى شاشات اللمس زائدة عن الحاجة.

فريف
فيما يتعلق بالتفاعل بين الإنسان والحاسوب ، فإن Kurtenbach و Hulteen يعرّفان إيماءة على النحو التالي: “الإيماءة هي حركة الجسم التي تحتوي على معلومات. التلويح بالود هو إيماءة. الضغط على مفتاح على لوحة المفاتيح ليس إيماءة لأن الحركة على كل ما يهم هو المفتاح الذي تم الضغط عليه ، وعلى النقيض من ذلك ، يتنازل هارلينغ وإدواردز عن شرط الحركة والفهم من خلال حركة اليد والإيماءات الثابتة ، ويمكن تمييزه بين الأنظمة التي تكون فيها أجهزة الاستشعار ضرورية يقع الكشف مباشرة على جسم المستخدم ، وتلك التي يلاحظ فيها المستخدم بواسطة مستشعرات خارجية.

ميزات التعرف على الإيماءات:

أكثر دقة
ارتفاع الاستقرار
توفير الوقت لإلغاء قفل جهاز

مجالات التطبيق الرئيسية للتعرف على الإيماءات في السيناريو الحالي هي:

قطاع السيارات
قطاع الالكترونيات الاستهلاكية
قطاع النقل
قطاع الألعاب
لفتح الهواتف الذكية
دفاع
أتمتة المنزل
تفسير لغة الإشارة

لقد تم اعتبار تقنية التعرف على الإيماءات تقنية ناجحة للغاية ، حيث توفر الوقت لإلغاء قفل أي جهاز.

يمكن إجراء التعرف على الإيماءات باستخدام تقنيات من رؤية الكمبيوتر ومعالجة الصور.

تشمل الأدبيات العمل المستمر في مجال رؤية الكمبيوتر على التقاط الإيماءات أو وضع الإنسان والحركات بشكل عام عن طريق الكاميرات المتصلة بجهاز الكمبيوتر.

التعرف على الإيماءات وحوسبة القلم: تعمل تقنية الحوسبة القلم على تقليل تأثير الأجهزة على النظام ، كما أنها تزيد من مجموعة كائنات العالم المادية التي يمكن استخدامها للتحكم بما يتجاوز الكائنات الرقمية التقليدية مثل لوحات المفاتيح والفئران. يمكن مثل هذه التطبيقات تمكين مجموعة جديدة من الأجهزة التي لا تتطلب أجهزة العرض. قد تؤدي هذه الفكرة إلى إنشاء عرض ثلاثي الأبعاد. استخدم المصطلح التعرف على الإشارة للإشارة بشكل أكثر تضييقاً إلى رموز الكتابة اليدوية غير النصية ، مثل التحبير على لوحة الرسومات ، والإيماءات متعددة اللمس ، والتعرف على إيماءة الماوس. هذا هو تفاعل الكمبيوتر من خلال رسم الرموز مع مؤشر جهاز التأشير.

أنواع الإيماءات
في واجهات الكمبيوتر ، يتم تمييز نوعين من الإيماءات: نحن نعتبر الإيماءات عبر الإنترنت ، والتي يمكن اعتبارها أيضًا بمثابة عمليات تلاعب مباشرة مثل التدريج والدوران. في المقابل ، تتم عادة معالجة الإيماءات بلا اتصال بالإنترنت بعد انتهاء التفاعل ؛ على سبيل المثال يتم رسم دائرة لتنشيط قائمة السياق.

الإيماءات غير المتصلة: تلك الإيماءات التي تتم معالجتها بعد تفاعل المستخدم مع الكائن. مثال على ذلك هو لفتة لتنشيط القائمة.
إيماءات عبر الإنترنت: إيماءات تلاعب مباشرة. يتم استخدامها لقياس أو تدوير كائن ملموس.
واجهة لا تعمل باللمس
تعد واجهة المستخدم التي لا تعمل باللمس نوعًا جديدًا من التكنولوجيا فيما يتعلق بالتحكم في الإيماءات. واجهة المستخدم بدون لمس (TUI) هي عملية توجيه الكمبيوتر عبر حركة الجسم والإيماءات دون لمس لوحة مفاتيح أو ماوس أو شاشة. على سبيل المثال ، Microsoft Kinect هي واجهة لعبة بدون لمس. ومع ذلك ، لا تعتبر منتجات مثل وى تماما touchless لأنها موصولة إلى وحدات تحكم. أصبحت واجهة Touchless بالإضافة إلى أدوات التحكم في الإيماءات تحظى بشعبية واسعة لأنها توفر القدرة على التفاعل مع الأجهزة دون لمسها فعليًا.

التعرف على الإيماءات القائمة على الجهاز
معظم الأنظمة التي يتم ارتداؤها على الجسم أو تسترشد باستخدام جهاز استشعار اليد في أجهزة تسريع متكاملة للكشف عن السرعة أو أجهزة تحديد الموقع. عيوب أنظمة قفاز البيانات هو أنه يجب على المستخدم ارتداء القفازات لاستخدام النظام.

كما يمكن استخدام أنظمة التوجيه اليدوي ، مثل وحدة تحكم Nintendo Wii و BlueWand ، التي تصنعها شركة BeeCon ، لإدخال الإيماءات. يمكن التعامل مع كلا النظامين من قبل المستخدم ولديهما مستشعرات تسارع للكشف عن حركة كل جهاز.

بالنسبة إلى الأجهزة الأحدث مثل الهواتف الذكية وأجهزة الكمبيوتر اللوحي ، يتم استخدام شاشات اللمس بشكل خاص ، والتي يمكن استخدامها من خلال “إيماءات التمرير السريع”. على وجه الخصوص ، توفر الشاشات متعددة اللمس الكشف عن العديد من بصمات الأصابع المستقلة في وقت واحد ، بحيث ، على سبيل المثال ، مع اثنين من أطراف الأصابع المرفقة قطريا ، يمكن جعل النوافذ أكبر أو أصغر.

التعرف على الإيماءات المستندة إلى الكاميرا
الأنظمة ذات المستشعرات الخارجية هي في معظمها أنظمة تعتمد على الكاميرا. يتم استخدام الكاميرات لالتقاط صور للمستخدم. هناك نظامان بهما كاميرا وكاميرات متعددة ، وغالبًا ما تعمل الأنظمة الأحدث مع البيانات ثلاثية الأبعاد التي تعمل إما في كاميرات وقت الطيران أو ما يطلق عليه الكاميرات الضوئية المنظمة. تعتمد التقنيات المعتمدة على الكاميرا على تقنيات تحليل الصور ثنائية وثلاثية الأبعاد للكشف عن وضع المستخدم. يتم استخدام التعرف على الإيماءة المستندة إلى الكاميرا ، على سبيل المثال ، في الألعاب للعبة EyeToy المتصلة بوحدات التحكم في الألعاب. هناك طريقة جديدة تمامًا تتمثل في التحكم في الحركة عن طريق التجريع ، وتتمثل الميزة في أنه يعمل بدون ضوء الأشعة تحت الحمراء ، وبالتالي يعمل في الهواء الطلق.

في التحليل الفني للصور ، هناك العديد من المقاربات الأساسية التي يجب تمييزها: إما أن يتم إنشاء قاعدة بيانات باستخدام إيماءات ذات صلة تم إنشاؤها على أساس زوال أكثر من 1000 تحليل فيديو لكل إيماءة. ثم تتم مقارنة حركات التحكم المسجلة بقاعدة البيانات وتحديدها وفقًا لذلك. على سبيل المثال ، يتم استخدام هذا الحل بواسطة Microsoft مع Xbox بالتزامن مع الكاميرا Kinect 3D. يمكن إجراء التحليل في فضاء ثنائي الأبعاد باستخدام معلومات الصورة والفيديو. في الفضاء ثلاثي الأبعاد يتحدث المرء عن حساب الحجمية ، على سبيل المثال ، يتم تمثيل الهيئات من قبل NURBS أو المضلعات. يجري حاليًا حساب للبيانات ثلاثية الأبعاد في الوقت الفعلي. من عيوب هذا التحليل القائم على قاعدة البيانات أنه يتطلب الكثير من قوة الحوسبة من قاعدة البيانات. بدلا من ذلك ، يعمل البرنامج مع معرف الهيكل العظمي الحقيقي ، ط. H. من جسم بيانات الكاميرا ، يتم التعرف على اليد و / أو الأصابع وتعيينها للإيماءات المحددة مسبقًا بواسطة نموذج هيكل عظمي مبسط. هذا الحل يعد بمجموعة متنوعة من الإيماءات والدقة ، ولكنه يتطلب الكثير من الناحية الفنية.

يتمثل الهدف من البحث والتطوير في السنوات القادمة في تنفيذ التعرف على الإيماءات في سياق البرامج المضمنة ، التي لا تعتمد على النظام الأساسي والكاميرا ، وتتطلب القليل من الطاقة ، وبالتالي يمكن استخدامها أيضًا على سبيل المثال في الهواتف المحمولة أو الأجهزة اللوحية أو الملاحة الأنظمة.

في عام 2012 ، أعلن عدد من البائعين التجاريين عن رغبتهم في الوصول إلى السوق باستخدام أجهزة التعرف على الإيماءات التي يجب أن تكون أفضل بكثير من الأجهزة المتوفرة حاليًا (خاصة Kinect for the Xbox). على سبيل المثال ، مثلت سامسونج التلفزيون الذكي في معرض CES 2012 في لاس فيغاس. شركة أخرى هي LeapMotion ، حيث تم انتقاد الفيديو الترويجي لـ The Leap في المجتمع ، حيث تم تسجيل بعض المشاهد الواضحة. في ألمانيا ، يعد التحكم في الإيماءات موضوعًا محددًا في صناعة السيارات ، حيث يلزم وجود أنظمة ثابتة ومتنقلة بشكل خاص ، مثل تلك التي تصنعها شركة gestigon ، والتي تعمل أيضًا على حل مضمن. يُعد التعرف على إيماءات ثلاثية الأبعاد شائعًا أيضًا في مجالات اللافتات الرقمية وتكنولوجيا الوسائط وفن الوسائط والأداء. طريقة سهلة لاستخدام التعرف على الإيماءات في هذه المناطق و z. على سبيل المثال ، التحكم في البرامج الأخرى هو Kinetic Space. وتشمل الشركات المصنعة الأخرى Omek و Softkinetic و Myestro Interactive.

أنواع التكنولوجيا بدون لمس
هناك عدد من الأجهزة التي تستخدم هذا النوع من الواجهة مثل الهواتف الذكية وأجهزة الكمبيوتر المحمولة والألعاب والتلفزيون. على الرغم من أن التكنولوجيا اللامسية تعتبر في الغالب في برامج الألعاب ، إلا أن الاهتمام ينتشر الآن إلى مجالات أخرى بما في ذلك صناعات السيارات والرعاية الصحية. قريبا ، سيتم تنفيذ التكنولوجيا اللمسية والتحكم في السيارات في مستويات تتجاوز التعرف على الصوت. انظر سلسلة BMW 7.

مستقبل التكنولوجيا بدون لمس
هناك بالفعل عدد كبير من الشركات في جميع أنحاء العالم الذين ينتجون تقنية التعرف على البادرة ، مثل:

انتل كورب
الورقة البيضاء: استكشاف أبحاث تجربة المستخدم لدى إنتل ، والتي توضح كيف يمكن للمصادقة متعددة العوامل التي لا تلامس (MFA) مساعدة مؤسسات الرعاية الصحية على التخفيف من المخاطر الأمنية مع تحسين كفاءة الطبيب ، والراحة ، ورعاية المرضى. يجمع حل MFA هذا بدون لمس بين التعرف على الوجوه وقدرات التعرف على الأجهزة لمصادقة المستخدم ثنائية العوامل.

شركة مايكروسوفت في الولايات المتحدة
الهدف من المشروع هو استكشاف استخدام التفاعل اللامسالي داخل الإعدادات الجراحية ، مما يسمح بمشاهدة الصور والتحكم بها والتلاعب بها دون الاتصال عبر استخدام تقنية التعرف على الإيماءات المستندة إلى الكاميرا. على وجه الخصوص ، يسعى المشروع إلى فهم تحديات هذه البيئات لتصميم ونشر هذه الأنظمة ، بالإضافة إلى توضيح الطرق التي قد تغير بها هذه التقنيات الممارسة الجراحية. في حين أن مخاوفنا الرئيسية هنا هي الحفاظ على ظروف عقامة ، فإن استخدام هذه التقنيات المبنية على اللمسات غير اللمسية يوفر استخدامات أخرى محتملة.

مختبرات الاهليلجيه
يوفر برنامج Elliptic Labs مجموعة من الإيماءات ووظائف التقريب من خلال إعادة استخدام سماعة الأذن والميكروفون الحاليين ، اللذين كانا يُستخدمان سابقًا للصوت فقط. إشارات الموجات فوق الصوتية التي يتم إرسالها عبر الهواء من مكبرات صوت مدمجة في الهواتف الذكية والأجهزة اللوحية ترتد ضد اليد / الجسم / الرأس ويتم تسجيلها بواسطة الميكروفونات ، كما يتم دمجها في هذه الأجهزة. بهذه الطريقة ، تتعرف تقنية Elliptic Labs على إيماءات اليد وتستخدمها لنقل الكائنات على الشاشة ، على نحو مماثل للطريقة التي تستخدم بها الخفافيش تحديد الموقع بالصدى للتنقل.

في حين أن هذه الشركات تقف في طليعة تكنولوجيا اللمس للمستقبل في هذا الوقت ، فهناك العديد من الشركات والمنتجات الأخرى التي تتجه حاليًا أيضًا وقد تضيف قيمة إلى هذا المجال الجديد. فيما يلي بعض الأمثلة العديدة:

Tobii Rex: جهاز تتبع العين من السويد

Airwriting: تقنية تتيح كتابة الرسائل والنصوص في الهواء

eyeSight: يسمح بملاحة شاشة دون لمس الجهاز فعليًا

Leap Motion: جهاز استشعار الحركة

سوار Myoelectric: يسمح للتواصل من أجهزة البلوتوث

أجهزة إدخال
يمكن تحقيق القدرة على تتبع حركات الشخص وتحديد الإيماءات التي يمكن القيام بها من خلال أدوات مختلفة. إن واجهات المستخدم الحركية (KUIs) هي نوع جديد من واجهات المستخدم التي تسمح للمستخدمين بالتفاعل مع أجهزة الكمبيوتر من خلال حركة الأجسام والأجسام. تتضمن أمثلة KUIs واجهات المستخدم الملموسة والألعاب المدركة للحركة مثل Wii و Microsoft Kinect ، ومشاريع تفاعلية أخرى.

على الرغم من وجود قدر كبير من الأبحاث التي تم إجراؤها في التعرف على إيماءات الصورة / الفيديو ، إلا أن هناك بعض الاختلافات في الأدوات والبيئات المستخدمة بين عمليات التنفيذ.

قفازات سلكية. يمكن لهذه أن توفر مدخلات للكمبيوتر حول وضع وتدوير اليدين باستخدام أجهزة التتبع المغناطيسي أو بالقصور الذاتي. علاوة على ذلك ، يمكن لبعض القفازات اكتشاف انحناء الأصابع بدرجة عالية من الدقة (5-10 درجات) ، أو حتى توفير تغذية مرتدة للمريض ، وهي محاكاة لحاسة اللمس. كان أول جهاز من نوع القفازات اليدوية المتاحة تجارياً هو DataGlove ، وهو جهاز من نوع القفازات يمكن أن يكشف عن موضع اليد والحركة والانحناء بالأصابع. يستخدم هذا كابلات الألياف البصرية التي تعمل في الجزء الخلفي من اليد. يتم إنشاء نبضات خفيفة وعندما تنحني الأصابع ، يتسرب الضوء من خلال الشقوق الصغيرة ويتم تسجيل الخسارة ، مما يعطي تقريبًا لوضع اليد.
الكاميرات العميقة. باستخدام الكاميرات المتخصصة مثل الكاميرات الضوئية الهيكلية أو الكاميرات الزمنية ، يمكن للمرء أن يولد خريطة عميقة لما يمكن رؤيته من خلال الكاميرا على مدى قصير ، ويستخدم هذه البيانات لتقريب تمثيل ثلاثي الأبعاد لما يتم مشاهدته. هذه يمكن أن تكون فعالة للكشف عن فتات اليد بسبب قدراتها قصيرة المدى.
كاميرات ستيريو. باستخدام كاميرتين معروفتين ببعضهما البعض ، يمكن تقريب التمثيل ثلاثي الأبعاد عن طريق إخراج الكاميرات. للحصول على علاقات الكاميرات ، يمكن للمرء استخدام مرجع تحديد المواقع مثل شريط lexian أو بواعث الأشعة تحت الحمراء. بالاشتراك مع قياس الحركة المباشرة (6D-Vision) يمكن الكشف عن الإيماءات مباشرة.
وحدات تحكم قائمة على إيماءة. تعمل وحدات التحكم هذه كإمتداد للجسم بحيث عندما يتم تنفيذ الإيماءات ، يمكن التقاط بعض حركتها بسهولة بواسطة البرامج. ومن الأمثلة على التقاط الحركة القائمة على الإيماءة الجديدة تتبع اليد الهيكلية ، والتي يتم تطويرها للواقع الافتراضي وتطبيقات الواقع المعزز. ويرد مثال على هذه التكنولوجيا من قبل شركات تتبع uSens و Gestigon ، والتي تسمح للمستخدمين بالتفاعل مع محيطهم من دون وحدات تحكم.

مثال آخر على ذلك هو تعقب حركة الفأرة ، حيث ترتبط حركة الفأرة برمز يتم رسمه بيد الشخص ، كما هو الحال مع جهاز Wii Remote أو شارة Myo أو سوار mForce Wizard ، الذي يمكنه دراسة التغيرات في التسارع بمرور الوقت لتمثيل الإيماءات. تستخدم أجهزة مثل LG Electronics Magic Wand و Loop و Scoop تقنية Freespace لمختبر Hillcrest ، والتي تستخدم مقاييس السرعة MEMS وأجهزة الجيروسكوب وأجهزة الاستشعار الأخرى لترجمة الإيماءات إلى حركة المؤشر. البرنامج يعوض أيضا عن الهزة البشرية والحركة غير المقصودة. AudioCubes هي مثال آخر. يمكن استخدام مستشعرات هذه المكعبات ذات الإضاءة الذكية لإحساس الأيدي والأصابع بالإضافة إلى الأجسام الأخرى القريبة ، ويمكن استخدامها لمعالجة البيانات. معظم التطبيقات في الموسيقى والصوت التوليف ، ولكن يمكن تطبيقها على مجالات أخرى.

كاميرا واحدة. يمكن استخدام كاميرا قياسية ثنائية الأبعاد للتعرف على الإيماءات حيث لن تكون الموارد / البيئة ملائمة لأشكال أخرى من التعرّف المستند إلى الصور. في وقت سابق كان يعتقد أن كاميرا واحدة قد لا تكون فعالة مثل ستيريو أو الكاميرات واعية عمق ، ولكن بعض الشركات تتحدى هذه النظرية. تقنية التعرف على الإيماءات القائمة على البرامج باستخدام كاميرا قياسية ثنائية الأبعاد يمكنها اكتشاف إيماءات اليد القوية.
رادار. اطلع على Project Soli الذي تم الكشف عنه في Google I / O 2015. بدءًا من الساعة 13:30 ، Google I / O 2015 – بدعة صغيرة. جميلة. التكنولوجيا والبشر. العمل والحب. حنفية. – يوتيوب ، والفيديو مقدمة قصيرة ، مرحبا بكم في مشروع سولي – يوتيوب

خوارزميات
واعتمادًا على نوع بيانات الإدخال ، يمكن اتباع أسلوب تفسير إيماءة بطرق مختلفة. ومع ذلك ، تعتمد معظم التقنيات على المؤشرات الرئيسية الممثلة في نظام إحداثيات ثلاثي الأبعاد. واستناداً إلى الحركة النسبية لهذه ، يمكن الكشف عن الإيماءة بدقة عالية ، اعتماداً على جودة المدخلات ونهج الخوارزمية.
من أجل تفسير حركات الجسم ، على المرء أن يصنفها وفقا للممتلكات المشتركة والرسالة التي قد تعبر عنها الحركات. على سبيل المثال ، في لغة الإشارة ، تمثل كل إيماءة كلمة أو عبارة. تم اقتراح التصنيف الذي يبدو مناسبًا تمامًا للتفاعل بين الإنسان والحاسوب من قِبل Quek في “نحو واجهة إيماءة يد قائمة على الرؤية”. يقدم العديد من أنظمة الإيماءات التفاعلية من أجل التقاط المساحة الكاملة للإيماءات:

مناور
Semaphoric
تحادثي

تميز بعض الأدبيات بين طريقتين مختلفتين في التعرف على الإيماءات: نموذج ثلاثي الأبعاد يستند إلى المظهر. تستخدم الطريقة الأولى المعلومات ثلاثية الأبعاد للعناصر الرئيسية لأجزاء الجسم من أجل الحصول على العديد من المعلمات المهمة ، مثل وضع راحة اليد أو زوايا المفاصل. من ناحية أخرى ، تستخدم الأنظمة القائمة على المظهر الصور أو مقاطع الفيديو للتفسير المباشر.

خوارزميات ثلاثية الأبعاد
يمكن لنهج النموذج الثلاثي الأبعاد استخدام النماذج الحجرية أو الهيكلية ، أو حتى الجمع بين الاثنين. وقد تم استخدام النهج الحجمي بشكل كبير في صناعة الرسوم المتحركة الكمبيوتر ولأغراض رؤية الكمبيوتر. يتم إنشاء النماذج عمومًا من الأسطح ثلاثية الأبعاد المعقدة ، مثل NURBS أو الشبكات المضلعة.

العيب في هذه الطريقة هو أن الحساب مكثف للغاية ، وأنظمة التحليل في الوقت الحقيقي لا تزال بحاجة إلى التطوير. في هذه اللحظة ، سيكون النهج الأكثر إثارة للاهتمام هو وضع خريطة للأشياء البدائية البسيطة لأجزاء جسم الشخص الأكثر أهمية (على سبيل المثال ، اسطوانات الذراعين والرقبة ، والرأس على الرأس) وتحليل الطريقة التي تتفاعل بها هذه الأشياء مع بعضها البعض. وعلاوة على ذلك ، قد تكون بعض الهياكل المجردة مثل super-quadrics والاسطوانات المعممة أكثر ملاءمة لتقريب أجزاء الجسم. الشيء المثير في هذا النهج هو أن المعلمات لهذه الأشياء بسيطة للغاية. من أجل تحسين العلاقة بين هذه ، نستخدم القيود والتسلسلات الهرمية بين أجسامنا.

الخوارزميات القائمة على الهيكل العظمي
بدلاً من استخدام المعالجة المكثفة للنماذج ثلاثية الأبعاد والتعامل مع الكثير من المعلمات ، يمكن استخدام نسخة مبسطة من معلمات زاوية المفاصل جنبًا إلى جنب مع أطوال المقاطع. ويعرف هذا باسم تمثيل الهيكل العظمي للجسم ، حيث يتم حساب هيكل عظمي افتراضي للشخص ويتم تعيين أجزاء من الجسم إلى أجزاء معينة. يتم إجراء التحليل هنا باستخدام موضع واتجاه هذه الأجزاء والعلاقة بين كل منها (على سبيل المثال الزاوية بين المفاصل والموضع أو الاتجاه النسبي)

مزايا استخدام النماذج الهيكلية:

الخوارزميات أسرع لأنه يتم تحليل المعلمات الرئيسية فقط.
يمكن مطابقة النقش مع قاعدة بيانات القالب
استخدام النقاط الأساسية يسمح لبرنامج الكشف بالتركيز على الأجزاء المهمة من الجسم

نماذج قائمة على المظهر
هذه النماذج لا تستخدم التمثيل المكاني للجسم بعد الآن ، لأنها تستمد المعلمات مباشرة من الصور أو مقاطع الفيديو باستخدام قاعدة بيانات القالب. يعتمد بعضها على القوالب ثنائية الأبعاد القابلة للتشوه في الأجزاء البشرية من الجسم ، وخاصةً الأيدي. القوالب القابلة للتشكيل هي عبارة عن مجموعات من النقاط في المخطط التفصيلي لكائن ، تُستخدم كعقد داخليّة لتقريب المخطط التفصيلي للكائن. واحدة من أبسط وظيفة الاستيفاء هي خطية ، والتي تقوم بعمل شكل متوسط ​​من مجموعات النقاط ، ومعلمات تقلب النقاط ، والمشترين الخارجيين. يتم استخدام هذه النماذج المستندة إلى القوالب في الأغلب لأغراض التتبع اليدوي ، ولكن يمكن استخدامها أيضًا لتصنيف الإيماءات البسيطة.

النهج الثاني في الكشف عن الإيماءات باستخدام النماذج القائمة على المظهر يستخدم تسلسلات الصورة كقوالب للإيماءة. المعلمات لهذه الطريقة هي إما الصور نفسها ، أو ميزات معينة مشتقة من هذه. في معظم الأحيان ، يتم استخدام مشاهد واحدة فقط (أحادية أو مجسمة) (مجسمة).

التحديات
هناك العديد من التحديات المرتبطة بدقة وفائدة برنامج التعرف على الإشارة. بالنسبة إلى التعرف على الإيماءات المستندة إلى الصور ، توجد قيود على الأجهزة المستخدمة وضوضاء الصورة. قد لا تكون الصور أو الفيديو تحت إضاءة متسقة ، أو في نفس الموقع. قد تجعل العناصر الموجودة في الخلفية أو السمات المميزة للمستخدمين التعرف أكثر صعوبة.

قد يؤدي أيضًا مجموعة متنوعة من عمليات التنفيذ للتعرّف على إيماءات تستند إلى الصور إلى مشكلة في صلاحية التقنية للاستخدام العام. على سبيل المثال ، قد لا تعمل خوارزمية تمت معايرتها لكاميرا واحدة في كاميرا مختلفة. يتسبب أيضًا مقدار ضجيج الخلفية في حدوث صعوبات في التعقب والتعرف ، خاصةً عند حدوث انسداد (جزئي وكامل). علاوة على ذلك ، فإن المسافة من الكاميرا ودقة وجودة الكاميرا تتسبب أيضًا في اختلاف دقة التعرف.

من أجل التقاط الإيماءات البشرية بواسطة أجهزة الاستشعار البصرية ، هناك حاجة أيضا إلى طرق رؤية حاسوبية قوية ، على سبيل المثال لتعقب اليد وتعرف على شكل اليد أو لالتقاط حركات الرأس أو تعابير الوجه أو اتجاه النظر.

“ذراع الغوريلا”
كان “ذراع الغوريلا” من الآثار الجانبية للشاشة التي تعمل باللمس عموديًا أو استخدام القلم الخفيف. في فترات الاستخدام المطول ، بدأت أذرع المستخدمين تشعر بالتعب و / أو عدم الراحة. ساهم هذا التأثير في انخفاض مدخلات شاشة اللمس على الرغم من الشعبية الأولية في الثمانينيات.

من أجل قياس إجهاد الذراع والأثر الجانبي لجذع الغوريلا ، طور الباحثون تقنية تسمى التحمل المستهلك.