التخطيط التفاعلي

في الذكاء الاصطناعي ، يشير التخطيط التفاعلي إلى مجموعة من التقنيات لاختيار العمل من قبل الوكلاء المستقلين. هذه التقنيات تختلف عن التخطيط الكلاسيكي في جانبين. أولاً ، تعمل في الوقت المناسب وبالتالي يمكنها التعامل مع بيئات ديناميكية للغاية وغير متوقعة. ثانيًا ، يحسبون إجراءًا واحدًا فقط في كل لحظة ، استنادًا إلى السياق الحالي. يقوم المخططون التفاعليون في كثير من الأحيان (ولكن ليس دائمًا) باستغلال الخطط التفاعلية ، وهي هياكل مخزنة تصف أولويات وسلوك الوكيل.

على الرغم من أن مصطلح “التخطيط التفاعلي” يعود إلى عام 1988 على الأقل ، إلا أن مصطلح “رد الفعل” أصبح الآن تحويلاً يستخدم كمتطوَّر للمبادرة. وبما أن جميع الوكلاء الذين يستخدمون التخطيط التفاعلي فعالون ، فقد بدأ بعض الباحثين يشيرون إلى التخطيط التفاعلي على أنه تخطيط ديناميكي.

تمثيل خطة رد الفعل
هناك عدة طرق لتمثيل خطة تفاعلية. كل ذلك يتطلب وحدة تمثيل أساسية ووسيلة لتكوين هذه الوحدات في خطط.

قواعد إجراءات العمل (الإنتاجات)
تعد قاعدة إجراء الشرط أو القاعدة if-then قاعدة في النموذج: إذا كان الشرط ثم الإجراء. تسمى هذه القواعد بالإنتاج. معنى القاعدة كما يلي: إذا كان الشرط يحمل ، تنفيذ الإجراء. يمكن أن يكون الإجراء إما خارجيًا (على سبيل المثال ، اختيار شيء ما وتحريكه) ، أو داخليًا (على سبيل المثال ، كتابة حقيقة في الذاكرة الداخلية ، أو تقييم مجموعة جديدة من القواعد). الشروط هي منطقية عادة ويمكن تنفيذ الإجراء ، أم لا.

يمكن تنظيم قواعد الإنتاج في هياكل مسطحة نسبيًا ، ولكن في كثير من الأحيان يتم تنظيمها في تسلسل هرمي من نوع ما. على سبيل المثال ، تتكون بنية القطع الفرعية من طبقات من السلوكيات المترابطة ، كل منها في الواقع آلة حالة محدودة تعمل استجابة لمدخلات مناسبة. ثم يتم تنظيم هذه الطبقات في كومة بسيطة ، مع طبقات أعلى تحتوى على أهداف الطبقات السفلى. قد تستخدم أنظمة أخرى أشجارًا ، أو قد تتضمن آليات خاصة لتغيير المجموعة الفرعية الهدف / القاعدة حاليًا الأكثر أهمية. من السهل نسبيًا إنشاء الهياكل المسطحة ، لكن مع السماح فقط بوصف السلوك البسيط ، أو تتطلب ظروفًا معقدة للغاية للتعويض عن البنية المفقودة.

جزء مهم من أي خوارزميات اختيار العمل الموزعة هو آلية حل النزاع. هذه آلية لحل التضارب بين الإجراءات المقترحة عند احتفاظ أكثر من شرط “قواعد” في لحظة معينة. يمكن حل الصراع على سبيل المثال

تحديد أولويات ثابتة للقواعد مقدما ،
تخصيص التفضيلات (على سبيل المثال في معمارية الحلق) ،
تعلم المرافق النسبية بين القواعد (على سبيل المثال في ACT-R) ،
استغلال شكل من التخطيط.
غالبًا ما تستخدم الأنظمة الخبيرة أساليب بحثية أخرى أبسط مثل الحداثة لاختيار القواعد ، ولكن من الصعب ضمان حسن السلوك في نظام كبير ذي أساليب بسيطة.

حل النزاع ضروري فقط للقواعد التي تريد اتخاذ إجراءات استثنائية بشكل متبادل (cf Blumberg 1996).

يمكن العثور على بعض القيود لهذا النوع من التخطيط التفاعلي في Brom (2005).

ماكينات الدولة المحدودة
آلة الحالة المحدودة (FSM) هي نموذج لسلوك النظام. يتم استخدام FSMs على نطاق واسع في علوم الكمبيوتر. سلوك النمذجة من وكلاء ليست سوى واحدة من التطبيقات الممكنة. يتكون نموذج FSM النموذجي ، عند استخدامه لوصف سلوك الوكيل ، من مجموعة من الحالات والانتقالات بين هذه الحالات. التحولات هي في الواقع قواعد إجراءات العمل. في كل لحظة ، تكون حالة واحدة فقط من FSM نشطة ، ويتم تقييم انتقالاتها. إذا تم أخذ انتقال فإنه ينشط حالة أخرى. وهذا يعني ، في العموم ، التحولات هي القواعد في الشكل التالي: إذا كان الشرط ثم تنشيط الدولة الجديدة. ولكن يمكن أيضًا أن تصل التحولات إلى حالة “الذات” في بعض الأنظمة ، للسماح بتنفيذ إجراءات النقل دون تغيير الحالة فعليًا.

هناك طريقتان لكيفية إنتاج السلوك من قبل FSM. يعتمدون على ما يرتبط بالدول من قبل المصمم — يمكن أن يكونوا عبارة عن “أعمال” أو نصوص. “الفعل” هو إجراء ذري يجب أن يقوم به العامل إذا كان FSM الخاص به هو الحالة المعطاة. يتم تنفيذ هذا الإجراء في كل خطوة زمنية بعد ذلك. ومع ذلك ، في كثير من الأحيان هي الحالة الأخيرة. هنا ، ترتبط كل حالة بنص ، والذي يصف سلسلة من الإجراءات التي يتعين على الوكيل تنفيذها إذا كانت FSM الخاصة به في حالة معينة. إذا كان الانتقال ينشط حالة جديدة ، فإن البرنامج النصي السابق ينقطع ببساطة ، ويتم تشغيل البرنامج النصي الجديد.

إذا كان البرنامج النصي أكثر تعقيدًا ، يمكن تقسيمه إلى العديد من البرامج النصية ويمكن استغلال FSM الهرمي. في مثل هذا الآلي ، يمكن أن تحتوي كل ولاية على بدائل. ترتبط فقط الحالات على المستوى الذري ببرنامج نصي (غير معقد) أو عمل ذري.

حسابيا ، FSMs الهرمي تعادل FSMs. هذا يعني أنه يمكن تحويل كل FSM تراتبي إلى FSM الكلاسيكية. ومع ذلك ، النهج الهرمية تسهل التصاميم بشكل أفضل. انظر ورقة داميان Isla (2005) للحصول على مثال ASM من الروبوتات لعبة الكمبيوتر ، والذي يستخدم FSMs الهرمي.

طرق غامضة
يمكن دمج قواعد if-then و FSM مع المنطق الضبابي. الشروط والحالات والإجراءات ليست أكثر منطقية أو “نعم / لا” على التوالي ولكنها تقريبية وسلسة. وبالتالي ، فإن السلوك الناتج سينتقل أكثر سلاسة ، خاصة في حالة الانتقال بين مهمتين. ومع ذلك ، تقييم الظروف غامض هو أبطأ بكثير من تقييم نظرائهم هش.

شاهد هندسة أليكس شامباندارد.

يقارب الاتصاليين
يمكن التعبير عن الخطط التفاعلية أيضًا عن طريق الشبكات التصالحية مثل الشبكات العصبية الاصطناعية أو التسلسل الهرمي للتدفق الحر. الوحدة التمثيلية الأساسية هي وحدة تحتوي على العديد من وصلات الإدخال التي تغذي الوحدة بـ “نشاط مجرد” وروابط مخرجات تقوم بنشر النشاط إلى الوحدات التالية. كل وحدة نفسها تعمل كمحول النشاط. عادة ، يتم توصيل الوحدات في بنية متعددة الطبقات.

أولاً ، تكمن إيجابيات الشبكات الرابطة في أن السلوك الناتج يكون أكثر سلاسة من السلوك الناتج عن القواعد الواضحة عندئذٍ و FSMs ، وثانياً ، الشبكات غالباً ما تكون متكيفة ، وثالثًا ، يمكن استخدام آلية التثبيط ، وبالتالي يمكن أن يكون السلوك كما وصفت proscriptively (عن طريق القواعد يمكن للمرء أن يصف السلوك فقط بشكل إلزامي). ومع ذلك ، فإن الأساليب لديها أيضا العديد من العيوب. أولاً ، بالنسبة للمصمم ، يكون الأمر أكثر تعقيدًا لوصف السلوك من قِبل شبكة تقارن بالقواعد إذاً. ثانياً ، يمكن وصف السلوك البسيط نسبياً ، لا سيما إذا كان سيتم استغلال الميزة التكيفية.

خوارزميات التخطيط التفاعلي
تقوم خوارزمية التخطيط التفاعلي المعتادة فقط بتقييم ما إذا كان ثم يحكم أو يحسب حالة شبكة اتصالية. ومع ذلك ، فإن بعض الخوارزميات لها ميزات خاصة.

تقييم ريتي: مع تمثيل منطقي سليم (مناسب فقط للقواعد الواضحة) ، لا تحتاج القواعد إلى إعادة تقييمها في كل خطوة زمنية. بدلاً من ذلك ، يمكن استخدام نموذج ذاكرة تخزين مؤقت تخزين التقييم من الخطوة السابقة.
لغات البرمجة النصية: في بعض الأحيان ، تكون القواعد أو FSMs هي أساسات البنية (مثل Soar). ولكن في كثير من الأحيان ، يتم برمجة خطط تفاعلية في لغة البرمجة النصية ، حيث القواعد ليست سوى واحدة من الأوليات (مثل في JAM أو ABL).
توجيه
التوجيه هو تقنية تفاعلية خاصة تستخدم في تصفح الوكلاء. يتم استخدام أبسط أشكال التوجيه التفاعلي في مركبات برايتنبيرج ، والتي تقوم بتوجيه مدخلات المستشعر مباشرة إلى مخرجات المستجيب ، ويمكن أن تتبع أو تتفادى. تعتمد الأنظمة الأكثر تعقيدًا على تراكب قوى جذابة أو مثيرة للاشمئزاز تؤثر على العامل. ويستند هذا النوع من التوجيه على العمل الأصلي على boids من Craig Reynolds. عن طريق التوجيه ، يمكن للمرء تحقيق شكل بسيط من:

نحو ملاحة الهدف
سلوك تجنب العقبات
جدار يتبع السلوك
العدو يقترب
تجنب المفترس
سلوك الحشد
ميزة التوجيه هي أنها فعالة للغاية من الناحية الحسابية. في ألعاب الكمبيوتر ، يمكن قيادة مئات الجنود بهذه التقنية. في حالات التضاريس الأكثر تعقيدًا (مثل المبنى) ، يجب أن يتم الجمع بين التوجيه وإيجاد المسار (على سبيل المثال في Milani) ، وهو شكل من أشكال التخطيط.