تعلم الآلة

التعلم الآلي (ML) هو مجال الذكاء الاصطناعي الذي يستخدم تقنيات إحصائية لإعطاء أنظمة الكمبيوتر القدرة على “التعلم” (على سبيل المثال ، تحسين الأداء تدريجيا في مهمة محددة) من البيانات ، دون أن يتم برمجتها بشكل واضح.

صُمم اسم آلة التعلم في عام 1959 بواسطة آرثر صامويل. يستكشف التعلم الآلي دراسة وبناء الخوارزميات التي يمكن أن تتعلم من البيانات والتنبؤ بها – حيث تتغلب هذه الخوارزميات بعد اتباع تعليمات البرنامج الثابت بشكل صارم من خلال إجراء تنبؤات أو قرارات تستند إلى البيانات ، من خلال بناء نموذج من مدخلات العينة. يتم استخدام التعلم الآلي في مجموعة من مهام الحوسبة حيث يكون تصميم وبرمجة الخوارزميات الصريحة مع الأداء الجيد أمراً صعباً أو غير عملي ؛ تتضمن تطبيقات المثال تصفية البريد الإلكتروني وكشف المتطفلين على الشبكة ورؤية الكمبيوتر.

يرتبط التعلم الآلي ارتباطًا وثيقًا (وغالباً ما يتداخل مع) الإحصائيات الحسابية ، التي تركز أيضًا على صناعة التنبؤ من خلال استخدام أجهزة الكمبيوتر. وله علاقات قوية مع التحسين الرياضي ، الذي يقدم أساليب ونطاقات نظرية وتطبيقية إلى الميدان. في بعض الأحيان يتم خلط التعلم الآلي مع استخراج البيانات ، حيث يركز الحقل الفرعي الأخير بشكل أكبر على تحليل البيانات الاستكشافية ويُعرف بالتعلم غير الخاضع للرقابة.

في مجال تحليل البيانات ، يعد التعلم الآلي طريقة تستخدم في تصميم النماذج المعقدة والخوارزميات التي تناسب التنبؤ ؛ في الاستخدام التجاري ، يُعرف هذا باسم التحليلات التنبؤية. تتيح هذه النماذج التحليلية للباحثين وعلماء البيانات والمهندسين والمحللين “إنتاج قرارات ونتائج موثوقة وقابلة للتكرار” وكشف “الأفكار الخفية” من خلال التعلم من العلاقات والاتجاهات التاريخية في البيانات.

نظرة عامة
قدم توم م. ميتشل تعريفا واسعا وأكثر تحديدا رسميا للخوارزميات التي تم دراستها في مجال التعلم الآلي: “يقال إن برنامج الكمبيوتر يتعلم من تجربة E فيما يتعلق بفئة معينة من المهام T وقياس الأداء P إذا كان أدائها في المهام في T ، كما تم قياسه بواسطة P ، يتحسن مع الخبرة E. ” إن هذا التعريف للمهام التي يتعلق بها التعلم الآلي يقدم تعريفًا تشغيليًا جوهريًا بدلاً من تعريف الحقل من الناحية المعرفية. هذا يتبع مقترح آلان تورينج في بحثه “آلات الحوسبة و الذكاء” ، والذي فيه السؤال “هل يمكن للآلات أن تفكر؟” تم استبداله بالسؤال “هل يمكن للآلات أن تقوم بما يمكننا القيام به (مثل كيانات التفكير)؟”. في اقتراح تورينج ، تتعرض الخصائص المختلفة التي يمكن أن يمتلكها جهاز التفكير والتأثيرات المختلفة في بناء واحد.

مهام التعلم الآلي

تصنف مهام التعلم الآلي عادة إلى عدة فئات عامة:

التعليم الخاضع للإشراف: يتم تقديم الكمبيوتر مع أمثلة المدخلات والمخرجات المرغوبة ، والتي يقدمها “المعلم” ، والهدف هو تعلم قاعدة عامة تحدد مدخلات الإنتاج. كحالات خاصة ، يمكن أن تكون إشارة الإدخال متاحة جزئيا فقط ، أو تقتصر على ردود الفعل الخاصة.
التعلم شبه الخاضع للإشراف: يتم إعطاء الكمبيوتر فقط إشارة تدريب غير كاملة: مجموعة تدريب مع بعض (في كثير من الأحيان) من النواتج المستهدفة المفقودة.
التعلم النشط: لا يمكن للكمبيوتر الحصول إلا على ملصقات تدريبية لمجموعة محدودة من الحالات (بناءً على الميزانية) ، كما يجب عليه أيضًا تحسين اختياره من الكائنات للحصول على تصنيفات. عند استخدامها بشكل تفاعلي ، يمكن تقديمها إلى المستخدم لوضع العلامات عليها.
التعلم دون إشراف: لا تُعطى أي عبارات لخوارزمية التعلم ، تاركة الأمر بمفردها لإيجاد البنية في مدخلاتها. يمكن أن يكون التعلم بدون إشراف هدفاً بحد ذاته (اكتشاف الأنماط المخفية في البيانات) أو وسيلة للوصول إلى نهاية (ميزة التعلم).
التعلم التعزيزي: تُعطى البيانات (في شكل مكافآت وعقوبات) فقط كرد فعل على إجراءات البرنامج في بيئة ديناميكية ، مثل قيادة مركبة أو لعب لعبة ضد الخصم.

تطبيقات التعلم الآلي
ينشأ تصنيف آخر لمهام التعلم الآلي عندما ينظر المرء إلى المخرجات المرغوبة من نظام تعلم الآلة:
في التصنيف ، تنقسم المدخلات إلى فئتين أو أكثر ، ويجب على المتعلم إنتاج نموذج يحدد مدخلات غير مرئية لواحد أو أكثر (تصنيف متعدد التصنيفات) لهذه الفئات. عادة ما يتم التعامل مع هذا بطريقة خاضعة للإشراف. تعد تصفية الرسائل غير المرغوب فيها مثالًا للتصنيف ، حيث تكون المدخلات عبارة عن رسائل بريد إلكتروني (أو رسائل أخرى) وتكون الفئات “رسائل غير مرغوب فيها” و “ليست رسائل غير مرغوب فيها”.
في الانحدار ، وأيضا مشكلة إشرافية ، والمخرجات مستمرة وليس منفصلة.
في التجميع ، يتم تقسيم مجموعة من المدخلات إلى مجموعات. على عكس التصنيف ، لا تكون المجموعات معروفة مسبقًا ، مما يجعل هذه المهمة مهمة غير خاضعة للإشراف.
يجد تقدير الكثافة توزيع المدخلات في بعض المساحة.
يبسّط تقليل أبعاد المدخلات من خلال رسم خرائط لها في مساحة صغيرة الأبعاد. يعد وضع نماذج الموضوعات مشكلة ذات صلة ، حيث يتم إعطاء البرنامج قائمة بمستندات اللغة البشرية ، ويكلف بمعرفة الوثائق التي تغطي مواضيع مماثلة.

من بين الفئات الأخرى من مشاكل تعلم الآلة ، تعلم تعلم تعلم التحيز الاستقرائي الخاص بها على أساس الخبرة السابقة. التعلم التنموي ، الذي تم تطويره للتعلم الآلي ، يولّد تسلسلاته الخاصة (وتسمى أيضًا المناهج الدراسية) لحالات التعلم ليكتسب بشكل تكراري ذخيرة من المهارات الجديدة من خلال الاستكشاف الذاتي الذاتي والتفاعل الاجتماعي مع معلمي البشر واستخدام آليات التوجيه مثل التعلم النشط والنضج والمحرك التآزر والتقليد.

التاريخ والعلاقات إلى المجالات الأخرى
صاغ آرثر صامويل ، وهو رائد أمريكي في مجال ألعاب الكمبيوتر والذكاء الاصطناعي ، مصطلح “التعلم الآلي” في عام 1959 بينما كان في شركة IBM. وكمسعى علمي ، نما التعلم الآلي من البحث عن الذكاء الاصطناعي. بالفعل في الأيام الأولى لمنظمة العفو الدولية كمنهج أكاديمي ، كان بعض الباحثين مهتمين بتعلم الآلات من البيانات. حاولوا معالجة المشكلة بطرق رمزية مختلفة ، وكذلك ما كان يسمى “الشبكات العصبية”. كانت هذه في الغالب نماذج مستقبلة ونماذج أخرى تم اكتشافها فيما بعد على أنها إعادة إنتاج للنماذج الخطية المعممة للإحصاءات. تم استخدام التفكير الاحتمالي أيضا ، لا سيما في التشخيص الطبي الآلي.

ومع ذلك ، فقد أدى التركيز المتزايد على المنهج المنطقي القائم على المعرفة إلى حدوث انشقاق بين الذكاء الاصطناعي والتعلم الآلي. كانت الأنظمة الاحتمالية تعاني من المشاكل النظرية والعملية المتمثلة في الحصول على البيانات والتمثيل. بحلول عام 1980 ، هيمنت الأنظمة الخبيرة على منظمة العفو الدولية ، وكانت الإحصاءات غير مقبولة. استمر العمل في التعلم المرتكز على المعرفة / المعرفة في منظمة العفو الدولية ، مما أدى إلى برمجة منطقية استقرائية ، لكن الخط الإحصائي الأكثر بحثًا أصبح الآن خارج مجال الذكاء الاصطناعي السليم ، في التعرف على الأنماط واسترجاع المعلومات. تم التخلي عن أبحاث الشبكات العصبية من قبل منظمة العفو الدولية وعلوم الكمبيوتر في نفس الوقت. هذا الخط ، أيضا ، استمر خارج مجال AI / CS ، باسم “الترابط” ، من قبل الباحثين من التخصصات الأخرى بما في ذلك Hopfield ، Rumelhart و Hinton. وقد جاء نجاحهم الرئيسي في منتصف الثمانينات من القرن الماضي مع إعادة اختراع العودة.

بدأ التعلم الآلي ، الذي أعيد تنظيمه كحقل مستقل ، في الازدهار في التسعينات. غير المجال هدفه من تحقيق الذكاء الاصطناعي لمعالجة المشاكل القابلة للحل ذات الطبيعة العملية. حولت التركيز بعيدا عن الطرق الرمزية التي ورثتها من منظمة العفو الدولية ، ونحو الأساليب والنماذج المستعارة من الإحصاءات ونظرية الاحتمالات. كما استفاد من زيادة توافر المعلومات الرقمية ، والقدرة على توزيعها عبر الإنترنت.

غالبًا ما يستخدم التعلم الآلي وتعدين البيانات نفس الأساليب ويتداخل بشكل كبير ، ولكن بينما يركز التعلم الآلي على التنبؤ ، استنادًا إلى الخصائص المعروفة المستفادة من بيانات التدريب ، يركز التنقيب عن البيانات على اكتشاف خصائص غير معروفة (سابقًا) في البيانات (هذا خطوة تحليل اكتشاف المعرفة في قواعد البيانات). يستخدم استخراج البيانات العديد من طرق التعلم الآلي ، ولكن مع أهداف مختلفة ؛ من ناحية أخرى ، يستخدم التعلم الآلي أيضًا أساليب التنقيب عن البيانات كـ “التعلم غير الخاضع للإشراف” أو كخطوة مسبقة لتحسين دقة المتعلمين.معظم الالتباس بين هاتين المجموعتين البحثيتين (والتي غالباً ما يكون لها مؤتمرات منفصلة ومجلات منفصلة ، ECML PKDD هي استثناء رئيسي) تأتي من الافتراضات الأساسية التي تعمل معها: في التعلم الآلي ، يتم تقييم الأداء عادة فيما يتعلق بالقدرة على استنساخ المعرفة المعروفة ، بينما في اكتشاف المعرفة وتعدين البيانات (KDD) المهمة الأساسية هي اكتشاف معرفة لم تكن معروفة من قبل. يتم تقييمها فيما يتعلق بالمعرفة المعروفة ، بطريقة سهلة (غير خاضعة للرقابة) سوف تتفوق بسهولة من خلال طرق أخرى خاضعة للإشراف ، بينما في مهمة KDD نموذجية ، لا يمكن استخدام الأساليب الخاضعة للإشراف بسبب عدم توفر بيانات التدريب.

كما أن التعلم الآلي له علاقات حميمة لتحسينه: حيث يتم صياغة العديد من مشكلات التعلم على أنها تقليل بعض وظائف الخسارة في مجموعة من الأمثلة التدريبية. وتعبر دالات الخسارة عن التناقض بين تنبؤات النموذج الذي يتم تدريبه ومثيلات المشكلة الفعلية (على سبيل المثال ، في التصنيف ، يريد المرء تعيين تسمية لحالات ، ويتم تدريب النماذج على التنبؤ بشكل صحيح بالملصقات المحددة مسبقًا لمجموعة من أمثلة). ينشأ الفرق بين الحقلين من هدف التعميم: في حين أن خوارزميات التحسين يمكن أن تقلل من الخسارة في مجموعة التدريب ، فإن التعلم الآلي يهتم بتقليل الخسارة على العينات غير المرئية.

العلاقة بالإحصاءات
التعلم الآلي والإحصاء هي مجالات وثيقة الصلة. وفقا لمايكل آي. الأردن ، فإن أفكار التعلم الآلي ، من المبادئ المنهجية إلى الأدوات النظرية ، كان لها تاريخ سابق في الإحصاء. واقترح أيضًا مصطلح مصطلح “علم البيانات” كعنصر نائب لاستدعاء المجال العام.

لقد ميز ليو بريمان اثنين من نماذج النمذجة الإحصائية: نموذج البيانات والنموذج الحسابي ، حيث “النموذج الخوارزمي” يعني أكثر أو أقل خوارزميات تعلم الآلة مثل غابة عشوائية.

اعتمد بعض الإحصائيين أساليب التعلم الآلي ، مما أدى إلى وجود مجال مشترك يسمونه التعلُّم الإحصائي.

نظرية
الهدف الأساسي للمتعلم هو التعميم من تجربته. التعميم في هذا السياق هو قدرة آلة التعلم على الأداء الدقيق على الأمثلة / المهام الجديدة غير المرئية بعد تجربة مجموعة بيانات التعلم. تأتي أمثلة التدريب من بعض توزيعات الاحتمالات غير المعروفة عمومًا (التي تعتبر ممثلة لفضاء الأحداث) ، وعلى المتعلم أن يبني نموذجًا عامًا حول هذا الفضاء ، مما يتيح له إمكانية إنتاج تنبؤات دقيقة بما فيه الكفاية في الحالات الجديدة.

التحليل الحسابي لخوارزميات تعلم الآلة وأدائها هو فرع من علم الكمبيوتر النظري المعروف باسم نظرية التعلم الحسابية. لأن مجموعات التدريب محدودة والمستقبل غير مؤكد ، فإن نظرية التعلم عادة لا تعطي ضمانات لأداء الخوارزميات. بدلا من ذلك ، فإن الاحتمالية الاحتمالية على الأداء شائعة جدا. التحلل التحيز – التحيز هو أحد طرق قياس خطأ التعميم.

للحصول على أفضل أداء في سياق التعميم ، يجب أن يتطابق تعقيد الفرضية مع تعقيد الوظيفة التي تقوم عليها البيانات. إذا كانت الفرضية أقل تعقيدًا من الوظيفة ، فهذا يعني أن النموذج قد أهدى البيانات. إذا زاد تعقيد النموذج كرد فعل ، فإن خطأ التدريب ينخفض. ولكن إذا كانت هذه الفرضية معقدة للغاية ، فإن النموذج يخضع للترميم وسوف يكون التعميم أكثر فقرا.

بالإضافة إلى حدود الأداء ، يدرس منظّرو التعلم الحسابي وقت تعقيد وجدوى التعلم. في نظرية التعلم الحسابية ، يعتبر الحساب ممكنا إذا كان يمكن القيام به في زمن كثير الحدود. هناك نوعان من نتائج تعقيد الوقت. تظهر النتائج الإيجابية أنه يمكن تعلم فئة معينة من الوظائف في زمن كثير الحدود. تظهر النتائج السلبية أنه لا يمكن تعلم فئات معينة في وقت كثير الحدود.

اقتراب

تعلم شجرة القرار
يستخدم تعلم شجرة القرار شجرة القرار كنموذج تنبئي ، والذي يعيّن ملاحظات حول عنصر ما إلى استنتاجات حول القيمة المستهدفة للعنصر.

جمعية حكم التعلم
تعليم قواعد الجمعيات هو طريقة لاكتشاف العلاقات المثيرة بين المتغيرات في قواعد البيانات الكبيرة.

الشبكات العصبية الاصطناعية
إن خوارزمية تعلم الشبكات العصبية الاصطناعية (ANN) ، التي تسمى عادةً “الشبكة العصبية” (NN) ، هي خوارزمية تعلمية مستوحاة بشكل غامض من الشبكات العصبية البيولوجية. يتم تنظيم العمليات الحسابية من حيث مجموعة مترابطة من الخلايا العصبية الاصطناعية ، ومعالجة المعلومات باستخدام نهج ربطي للحساب. الشبكات العصبية الحديثة هي أدوات نمذجة البيانات الإحصائية غير الخطية. وعادة ما يتم استخدامها لتكوين علاقات معقدة بين المدخلات والمخرجات ، للعثور على أنماط في البيانات ، أو لالتقاط البنية الإحصائية في توزيع احتمالي مشترك غير معروف بين المتغيرات المرصودة.

تعلم عميق
أسهم انخفاض أسعار الأجهزة وتطوير وحدات معالجة الرسوم للاستخدام الشخصي في السنوات القليلة الماضية في تطوير مفهوم التعلم العميق الذي يتكون من طبقات متعددة مخفية في شبكة عصبية اصطناعية. يحاول هذا النهج أن يصمم الطريقة التي يعالج بها الدماغ البشري الضوء والصوت في الرؤية والسمع. بعض التطبيقات الناجحة للتعلم العميق هي رؤية الكمبيوتر والتعرف على الكلام.

برمجة المنطق الاستقرائي
إن برمجة المنطق الاستقرائي (ILP) هي طريقة لتعلم القواعد باستخدام البرمجة المنطقية كتمثيل موحد لأمثلة المدخلات ، والمعرفة الأساسية ، والفرضيات. وبالنظر إلى تشفير المعرفة الأساسية المعروفة ومجموعة من الأمثلة الممثلة كقاعدة بيانات منطقية للحقائق ، سيستمد نظام ILP برنامج المنطق المفترض الذي يستلزم جميع الأمثلة الإيجابية وغير السلبية. البرمجة الاستقرائية هي حقل مرتبط يعتبر أي نوع من لغات البرمجة يمثل الفرضيات (وليس فقط البرمجة المنطقية) ، مثل البرامج الوظيفية.

دعم ناقلات الآلات
دعم ناقلات الآلات (SVMs) هي مجموعة من أساليب التعلم ذات الصلة تحت الإشراف المستخدمة في التصنيف والانحدار. وبالنظر إلى مجموعة من الأمثلة التدريبية ، التي يميز كل منها على أنها تنتمي إلى واحدة من فئتين ، فإن خوارزمية التدريب في SVM تبني نموذجًا يتنبأ بما إذا كان مثال جديد يقع في فئة واحدة أو أخرى.

تجمع
تحليل الكتلة هو تعيين مجموعة من الملاحظات في مجموعات فرعية (تسمى العناقيد) بحيث تكون الملاحظات داخل نفس المجموعة متماثلة وفقاً لمعايير أو معايير محددة سلفًا ، في حين أن الملاحظات المستقاة من مجموعات مختلفة تختلف عن بعضها. ﺗﻘﻨﻴﺎت اﻟﺘﺠﻤﻴﻊ اﻟﻤﺨﺘﻠﻔﺔ ﺗﻘﻮم ﺑﺎﺧﺘﻼﻓﺎت ﻣﺨﺘﻠﻔﺔ ﺣﻮل ﺑﻨﻴﺔ اﻟﺒﻴﺎﻧﺎت ، وﻏﺎﻟﺒﺎً ﻣﺎ ﻳﺘﻢ ﺗﻌﺮﻳﻔﻬﺎ ﺑﺒﻌﺾ ﻗﻴﺎس اﻟﺘﺸﺎﺑﻪ وﺗﻘﻴﻴﻤﻬﺎ ﻋﻠﻰ ﺳﺒﻴﻞ اﻟﻤﺜﺎل ﺑﺎﻻﺧﺘﻼط اﻟﺪاﺧﻠﻲ (اﻟﺘﺸﺎﺑﻪ ﺑﻴﻦ أﻋﻀﺎء ﻧﻔﺲ اﻟﻌﻨﻘﻮد) واﻟﻔﺼﻞ ﺑﻴﻦ اﻟﻤﺠﻤﻮﻋﺎت اﻟﻤﺨﺘﻠﻔﺔ. تعتمد الطرق الأخرى على الكثافة التقديرية والاتصال البياني. التجميع هو طريقة للتعلم بدون إشراف ، وتقنية شائعة لتحليل البيانات الإحصائية.

شبكات بايزي
شبكة بايزي أو شبكة معتقدات أو نموذج رسومي حلقية موجهة هي نموذج بياني احتمالي يمثل مجموعة من المتغيرات العشوائية واستقلاليتها الشرطية عبر رسم بياني دوري مرسوم (DAG). على سبيل المثال ، يمكن أن تمثل شبكة بايزي العلاقات الاحتمالية بين الأمراض والأعراض. نظرا للأعراض ، يمكن استخدام الشبكة لحساب احتمالات وجود أمراض مختلفة. توجد خوارزميات فعالة تؤدي الاستنتاج والتعلم.

تعلم التمثيل
تهدف العديد من خوارزميات التعلم ، خوارزميات التعلم غير الخاضعة للإشراف في الغالب ، إلى اكتشاف تمثيلات أفضل للمدخلات المقدمة أثناء التدريب. وتشمل الأمثلة الكلاسيكية تحليل المكونات الأساسية والتحليل العنقودي. غالبًا ما تحاول خوارزميات التعلم التمثيلية الحفاظ على المعلومات في مدخلاتها ، ولكنها تحوِّلها بطريقة تجعلها مفيدة ، وغالبًا كخطوة ما قبل المعالجة قبل إجراء التصنيف أو التنبؤات ، مما يسمح بإعادة بناء المدخلات الناتجة عن توزيع البيانات غير المعروف ، لا تكون بالضرورة مؤمنة للتكوينات غير القابلة للتصديق بموجب هذا التوزيع.

تحاول خوارزميات التعلم المتنوعة أن تفعل ذلك تحت قيود أن التمثيل المعرف منخفض الأبعاد. تحاول خوارزميات التشفير المتفرقة القيام بذلك تحت القيد بأن التمثيل المكتشف متناثر (يحتوي على العديد من الأصفار). تهدف خوارزميات التعلم متعددة الفصول الجزئية إلى تعلم تمثيلات منخفضة الأبعاد مباشرة من تمثيلات التمور للبيانات متعددة الأبعاد ، دون إعادة تشكيلها في نواقل (عالية الأبعاد). تكتشف خوارزميات التعلم العميق مستويات متعددة من التمثيل ، أو تسلسلًا هرميًا للميزات ، مع ميزات أعلى مستوى وأكثر تجريدية محددة من حيث (أو توليد) ميزات المستوى الأدنى. لقد قيل إن الآلة الذكية هي التي تتعلم التمثيل الذي يفكك العوامل الأساسية للتنوع التي تفسر البيانات المرصودة.

التشابه والتعليم المتري
في هذه المشكلة ، يتم إعطاء آلة التعلم أزواج من الأمثلة التي تعتبر مشابهة وأزواج من كائنات أقل مماثلة. ومن ثم يحتاج إلى تعلم وظيفة تشابه (أو وظيفة قياس متري) يمكنها التنبؤ بما إذا كانت الكائنات الجديدة متشابهة. يتم استخدامه في بعض الأحيان في أنظمة التوصية.

متقطع قاموس التعلم
في هذه الطريقة ، يتم تمثيل المسند كمجموعة خطية من وظائف الأساس ، ويفترض أن تكون المعاملات قليلة. دع x يكون مسند d-dimensional ، D يكون إعلاناً بـ n matrix ، حيث يمثل كل عمود من D دالة أساس. r هو المعامل الذي يمثل x باستخدام D. رياضيًا ، يعني تعلم القاموس المتقطع الحل  حيث r متناثر. بشكل عام ، يُفترض أن n أكبر من d للسماح بحرية تمثيل متقطع.

تعلم قاموس جنبا إلى جنب مع تمثيلات متفرقة هو بقوة NP الصعب ويصعب أيضا حل تقريبا. وهناك طريقة إرشادية شعبية لتعلم القاموس المتناثر هي K-SVD.

تم تطبيق تعلم القاموس المتقطع في سياقات متعددة. في التصنيف ، تكمن المشكلة في تحديد الفئات التي ينتمي إليها المسند غير المرئي من قبل.لنفترض أن قاموسًا لكل فصل قد تم إنشاؤه بالفعل. ثم يتم ربط مسند جديد بالفئة بحيث يتم تمثيلها بشكل أقل من القاموس المقابل. كما تم تطبيق تعلم القاموس المتفرقة في عدم إظهار الصورة. والفكرة الرئيسية هي أن تصحيح الصورة النظيفة يمكن أن يتم تمثيله بقليل من خلال قاموس الصور ، ولكن لا يمكن للضوضاء.

الخوارزميات الجينية
الخوارزمية الجينية (GA) هي عبارة عن بحث استكشافي يحاكي عملية الانتقاء الطبيعي ، ويستخدم طرقًا مثل التحور والتقاطع لإنشاء نمط جيني جديد على أمل العثور على حلول جيدة لمشكلة معينة. في التعلم الآلي ، وجدت الخوارزميات الجينية بعض الاستخدامات في الثمانينات والتسعينات. بالمقابل ، تم استخدام تقنيات التعلم الآلي لتحسين أداء الخوارزميات الجينية والتطورية.

التعلم الآلي القائم على القواعد
التعليم الآلي القائم على القواعد هو مصطلح عام لأي طريقة تعلم آلية تعرف أو تتعلم أو تطور “القواعد” لتخزين المعرفة أو استخدامها أو تطبيقها. السمة المميزة لمتعلم الآلة المستندة إلى القواعد هي تحديد واستخدام مجموعة من القواعد العلائقية التي تمثل بشكل جماعي المعرفة التي يراها النظام. وهذا على النقيض من متعلمي الآلات الآخرين الذين يحددون عادة نموذجًا فريدًا يمكن تطبيقه عالميًا على أي حالة من أجل التنبؤ. تشمل مناهج التعلم الآلي القائم على القواعد أنظمة تعلم المصنفات وتعلم قواعد الجمعيات وأنظمة المناعة الاصطناعية.

نظم تصنيف التعلم
أنظمة تصنيف التعلم (LCS) هي مجموعة من خوارزميات التعلم الآلي المستندة إلى القواعد التي تجمع بين مكون الاكتشاف (على سبيل المثال ، خوارزمية جينية) مع مكون التعلم (إما التعلم تحت الإشراف أو التعلم التعزيزي أو التعلم بدون إشراف). إنهم يسعون إلى تحديد مجموعة من القواعد التي تعتمد على السياق والتي تخزن بشكل جماعي المعرفة وتطبقها بطريقة غير موضوعية من أجل إجراء تنبؤات.

تطبيقات
تتضمن تطبيقات التعلم الآلي ما يلي:

الزراعة
مبرهنة اوتوماتيكية
مواقع تكيفية
الحوسبة الوجدانية
المعلوماتية الحيوية
واجهات الدماغ والآلة
معلوماتية كيميائية
تصنيف تسلسل الحمض النووي
التشريح الحسابي
شبكات الحاسب
اتصالات
رؤية الكمبيوتر ، بما في ذلك التعرف على الكائن
كشف الاحتيال على بطاقات الائتمان
لعبة عامة اللعب
استرجاع المعلومات
كشف الاحتيال على الإنترنت
اللغويات الحاسوبية
تسويق
السيطرة على التعلم الآلي
الإدراك الآلة
التشخيص الطبي الآلي
الاقتصاد الحسابي
تأمين
معالجة اللغة الطبيعية
فهم اللغة الطبيعية
الأمثل و metaheuristic
اعلانات الانترنت
نظم التوصية
روبوت الحركة
محركات البحث
تحليل المشاعر (أو تعدين الرأي)
التعدين التسلسل
هندسة البرمجيات
الكلام والتعرف على الكتابة اليدوية
تحليل السوق المالية
مراقبة الصحة الإنشائية
التعرف على النمط النحوي
التنبؤ بالسلسلة الزمنية
تحليلات سلوك المستخدم
الترجمة الآلية

في عام 2006 ، عقدت شركة Netflix للأفلام على الإنترنت مسابقة “Netflix Prize” الأولى للعثور على برنامج للتنبؤ بشكل أفضل بتفضيلات المستخدم وتحسين الدقة في خوارزمية التوصية السينمائية الموجودة في Cinematch بنسبة 10٪ على الأقل. قام فريق مشترك مكون من باحثين من AT & amp؛ T Labs-Research بالتعاون مع فرق Big Chaos ونظرية براغماتية ببناء نموذج تجميع للفوز بالجائزة الكبرى في عام 2009 مقابل مليون دولار. بعد وقت قصير من منح الجائزة ، أدركت Netflix أن تقييمات المشاهدين لم تكن أفضل المؤشرات لأنماط المشاهدة الخاصة بهم (“كل شيء توصية”) وقاموا بتغيير محرك التوصية الخاص بهم وفقًا لذلك.

في عام 2010 ، كتبت صحيفة وول ستريت جورنال عن شركة Rebellion Research واستخدامها لـ Machine Learning للتنبؤ بالأزمة المالية.

في عام 2012 ، توقع أحد مؤسسي شركة صن مايكروسيستمز فينود خوسلا أن 80 ٪ من وظائف الأطباء قد تُفقد في العقدين المقبلين في برنامج التشخيص الطبي الآلي للتعلم الآلي.

في عام 2014 ، تم الإبلاغ عن أنه تم تطبيق خوارزمية تعلم الآلة في تاريخ الفن لدراسة اللوحات الفنية الجميلة ، وأنها قد كشفت تأثيرات غير معروفة من قبل بين الفنانين.

محددات
على الرغم من أن التعلم الآلي كان تحويليًا في بعض المجالات ، إلا أن التعلم الآلي الفعال أمر صعب نظرًا لأن إيجاد الأنماط أمر صعب ، وفي الغالب لا تتوفر بيانات تدريب كافية ؛ ونتيجة لذلك ، كثيرًا ما تفشل العديد من برامج التعلم الآلي في تحقيق القيمة المتوقعة. أسباب ذلك عديدة: نقص البيانات (المناسبة) ، وعدم الوصول إلى البيانات ، والتحيز في البيانات ، ومشكلات الخصوصية ، والمهام والخوارزميات المختارة بشكل سيء ، والأدوات الخاطئة ، والناس ، ونقص الموارد ، ومشاكل التقييم.

في عام 2018 ، فشلت سيارة ذاتية القيادة من أوبر في الكشف عن أحد المشاة ، الذي قتل في الحادث. فشلت محاولات استخدام التعلم الآلي في الرعاية الصحية مع نظام IBM Watson حتى بعد سنوات من الزمن ومليارات الاستثمار.

انحياز، نزعة
يمكن لنُهج التعلم الآلي على وجه الخصوص أن تعاني من تحيزات مختلفة للبيانات. قد لا يتمكن نظام التعلم الآلي المدرّب من عملائك الحاليين من التنبؤ باحتياجات مجموعات العملاء الجديدة غير الممثلة في بيانات التدريب. عند التدريب على بيانات من صنع الإنسان ، من المرجح أن يكتشف التعلم الآلي نفس التحيز الدستوري واللاواعي الموجود بالفعل في المجتمع. وقد تبين أن نماذج اللغات المستخلصة من البيانات تحتوي على تحيزات شبيهة بالإنسان. تم العثور على أنظمة التعلم الآلي المستخدمة لتقييم المخاطر الجنائية متحيزة ضد السود. في عام 2015 ، غالبًا ما تضع صور Google علامة على الأشخاص السود كغوريلات ، وفي عام 2018 لم يتم حل هذه المشكلة بشكل جيد ، ولكن غوغل كانت لا تزال تستخدم الحل لإزالة كل الغوريلا من بيانات التدريب ، وبالتالي لم تتمكن من التعرف على الغوريلا الحقيقية في الكل. تم العثور على مشكلات مماثلة مع التعرف على الأشخاص غير البيض في العديد من الأنظمة الأخرى. في عام 2016 ، أجرت مايكروسوفت اختبارًا على chatbot تعلمته من Twitter ، وسرعان ما التقطت اللغة العنصرية والجنسية. بسبب مثل هذه التحديات ، قد يستغرق الاستخدام الفعال للتعليم الآلي وقتًا أطول في المجالات الأخرى.

تقييمات النماذج
يمكن التحقق من صحة نماذج تعلم الماكينة عن طريق تقنيات تقدير الدقة مثل طريقة Holdout ، التي تقسم البيانات في مجموعة التدريب والاختبار (مجموعة التدريب 2/3 تقليديًا و 1/3 تعيين مجموعة الاختبار) وتقيم أداء نموذج التدريب على مجموعة الاختبار. في المقارنة ، تقسم طريقة التحقق من الصفة N-fold-validation البيانات بشكل عشوائي في مجموعات فرعية k حيث يتم استخدام مثيلات k-1 للبيانات لتدريب النموذج بينما يتم استخدام حالة kth لاختبار القدرة التنبؤية لنموذج التدريب. بالإضافة إلى أساليب الاعتراض والتحقق من الصحة ، يمكن استخدام bootstrap ، التي تمثِّل عينات n مع استبدال من مجموعة البيانات ، لتقييم دقة النموذج.

بالإضافة إلى الدقة الشاملة ، يقوم المحققون في كثير من الأحيان بالإبلاغ عن الحساسية والخصوصية بمعنى المعدل الإيجابي الحقيقي (TPR) والسعر السلبي الحقيقي (TNR) على التوالي. وبالمثل ، يقوم المحققون أحيانًا بالإبلاغ عن المعدل الإيجابي الكاذب (FPR) بالإضافة إلى المعدل السلبي الكاذب (FNR). ومع ذلك ، فإن هذه المعدلات هي النسب التي تفشل في الكشف عن البسط والقواسم الخاصة بهم. تعتبر الخاصية التشغيلية الكاملة (TOC) طريقة فعالة للتعبير عن قدرة التشخيص الخاصة بالنموذج. يُظهر جدول العمليات (TOC) البسط والقواسم الخاصة بالمعدلات المذكورة سابقاً ، وبالتالي يوفر TOC المزيد من المعلومات مقارنةً بخاصية تشغيل المستقبِل الشائعة (ROC) ومنطقة ROC المرتبطة تحت المنحنى (AUC).

أخلاق
يمثل التعلم الآلي مجموعة من الأسئلة الأخلاقية. قد تظهر الأنظمة التي يتم تدريبها على مجموعات البيانات التي تم جمعها مع التحيزات هذه التحيزات عند الاستخدام (التحيز الخوارزمي) ، وبالتالي رقمنة التحيزات الثقافية. على سبيل المثال ، قد يؤدي استخدام بيانات توظيف الوظائف من شركة ذات سياسات توظيف عنصرية إلى نظام تعلُم آلي يقوم بتكرار التحيز من خلال تسجيل المتقدمين للوظائف مقابل التشابه مع المتقدمين الناجحين السابقين. إن الجمع المسؤول بين البيانات والتوثيق للقواعد الخوارزمية المستخدمة من قبل النظام هو جزء هام من التعلم الآلي.

لأن اللغة تحتوي على تحيزات ، فإن الآلات المدربة على اللغة اللغوية ستعلم بالضرورة التحيز.

أشكال أخرى من التحديات الأخلاقية ، لا تتعلق بالتحيزات الشخصية ، هي أكثر في الرعاية الصحية. هناك مخاوف بين المتخصصين في الرعاية الصحية من أن هذه النظم قد لا تكون مصممة لمصلحة الجمهور ، ولكن كآلات توليد الدخل. هذا صحيح بشكل خاص في الولايات المتحدة حيث توجد معضلة أخلاقية دائمة لتحسين الرعاية الصحية ، ولكن أيضا زيادة الأرباح. على سبيل المثال ، يمكن تصميم الخوارزميات لتزويد المرضى بفحوصات لا داعي لها أو دواء ، حيث يمتلك أصحاب الملكية الخوارزمية حصصًا فيها. هناك إمكانات هائلة للتعلم الآلي في الرعاية الصحية لتزويد المحترفين بأداة عظيمة لتشخيص المرض ، أو العلاج ، أو حتى التخطيط مسارات الاسترداد للمرضى ، ولكن هذا لن يحدث حتى التحيزات الشخصية المذكورة سابقا ، ويتم تناول هذه التحيزات “الجشع”.

البرمجيات
تتضمن مجموعات البرامج التي تحتوي على مجموعة متنوعة من خوارزميات التعلم الآلي ما يلي:

برنامج مجاني ومفتوح المصدر
CNTK
Deeplearning4j
ELKI
H2O
الفيال
مطرقة
mlpack
MXNet
OpenNN
البرتقالي
scikit تعلم
شوغون
سبارك MLlib
TensorFlow
الشعلة / PyTorch
ويكا / وزارة الزراعة
Yooreeka

البرمجيات الاحتكارية مع الإصدارات المجانية والمفتوحة المصدر
KNIME
RapidMiner

البرمجيات الاحتكارية
الأمازون آلة التعلم
Angus KnowledgeSTUDIO
Ayasdi
الخبرة في مجال بيانات آي بي إم
Google Prediction API
IBM SPSS Modeler
KXEN Modeler
LIONsolver
الرياضيات
MATLAB
الثعبان
مايكروسوفت آزور آلة التعلم
مصمم عصبي
NeuroSolutions
أوراكل داتا مينينج
خدمة سحابة Oracle AI Platform
RCASE
SAS Enterprise Miner
SequenceL
Splunk
STATISTICA بيانات منجم