التصنيف والتراجع على أساس الغابة

مخطط سير عمل التصنيف والتراجع على أساس الغابة


تقوم بإنشاء نماذج وإنشاء توقعات باستخدام تكيف خوارزمية غابات ليو بريمان العشوائية الخاضعة لإشراف التعلم الآلي. يمكن إجراء التوقعات لكل من المتغيرات المنطقية (التصنيف) والمتغيرات المستمرة (الانحدار). المتغيرات المنطقية هي حقول في جدول السمات لمعالم التدريب. يمكن تشغيل الأداة لإنشاء نموذج يقيم الأداء أو إنشاء نموذج وتوقع النتائج لمجموعات بيانات أخرى.

نوع عملية التحليل


يحدد وضع العملية للأداة. يمكن تشغيل الأداة لتدريب نموذج لتقييم الأداء فقط أو تدريب نموذج وتوقع المعالم. أنواع التوقع هي كما يلي:

  • تدريب نموذج لتقييم أداء نموذج—سيتم تدريب نموذج وملاءمته بيانات الإدخال. استخدم هذا الخيار لتقييم دقة النموذج قبل إنشاء توقعات حول مجموعة بيانات جديدة. سيكون إخراج هذا الخيار عبارة عن خدمة معلم لبيانات التدريب الملائمة وتشخيصات النموذج والجدول الاختياري لأهمية المتغير.
  • تدريب نموذج وتوقع القيم— سيتم إنشاء التوقعات أو التصنيفات للمعالم. يجب توفير المتغيرات التوضيحية لكل من معالم التدريب والمعالم المراد توقعها. سيكون إخراج هذا الخيار عبارة عن خدمة معلم للقيم المتوقعة وتشخيصات النموذج والجدول الاختياري لأهمية المتغير.

تدريب نموذج لتقييم أداء النموذج


استخدم هذا النموذج إذا كنت ترغب في ملاءمة نموذج والتحقق من الملائمة.

بتحديد هذا الخيار، سيتم تدريب النموذج باستخدام طبقة إدخال. استخدم هذا الخيار لتقييم دقة النموذج قبل إنشاء توقعات حول مجموعة بيانات جديدة. سيخرج هذا الخيار تشخيصات النموذج في نافذة الرسائل ويطبق النموذج على بيانات التدريب.

تدريب نموذج والتنبؤ بالقيم


استخدم هذا الوضع إذا كنت ترغب في ملاءمة نموذج، وتطبيق نموذج على مجموعة بيانات لإنشاء توقعات.

سيتم إنشاء التوقعات والتصنيفات للمعالم. سيكون إخراج هذا الخيار عبارة عن خدمة معلم وتشخيصات النموذج والجدول الاختياري لأهمية المتغير.

اختيار طبقة التدريب


طبقة المعلم التي تحتوي على المتغير للتوقع والحقول التي ستُستخدم لإنشاء التوقع.

بالإضافة إلى اختيار طبقة من الخريطة، يمكنك تحديد اختيار طبقة التحليل أسفل القائمة المنسدلة لاستعراض محتوياتك لمجموعة بيانات مشاركة ملف البيانات الضخمة أو طبقة معالم.

اختيار طبقة للتنبؤ بالقيم من أجل


طبقة معلم تمثل المواقع حيث سيتم إجراء التوقعات. يجب أن تحتوي طبقة المعلم هذه أيضًا على أي متغيرات توضيحية مقدمة كحقول تتوافق مع تلك المستخدمة من معالم التدريب.

بالإضافة إلى اختيار طبقة من الخريطة، يمكنك تحديد اختيار طبقة التحليل أسفل القائمة المنسدلة لاستعراض محتوياتك لمجموعة بيانات مشاركة ملف البيانات الضخمة أو طبقة معالم.

اختيار حقل للتوقع


الحقل من معالم التدريب التي تتضمن القيم المراد استخدامها لتدريب نموذج. يحتوي هذا الحقل على قيم (تدريب) معروفة للمتغير الذي سيُستخدم للتوقع في المواقع غير المعروفة. إذا كانت القيم منطقية (على سبيل المثال، القيقب، الصنوبر، البلوط)، حدد خانة الاختيار منطقية.

اختيار حقل توضيحي واحد أو أكثر


حقل واحد أو أكثر يمثل المتغيرات (الحقول) التوضيحية التي تساعد في توقع القيمة أو فئة المتغير للتوقع. استخدم خانة الاختيار "منطقية" لأي متغيرات تمثل التصنيفات أو الفئات (مثل الغطاء الأرضي أو الوجود أو التغيب). حدد المتغيرات على أنها صحيحة التي تمثل التصنيفات أو الفئات مثل الغطاء الأرضي أو الوجود أو التغيب وخطأ إذا كان المتغير مستمرًا.

عدد الأشجار


عدد الأشجار لإنشاء نموذج. تؤدي المزيد من الأشجار بشكل عام إلى توقع نموذج أكثر دقة، لكن سيستغرق النموذج وقتًا أطول للحساب. عدد الأشجار الافتراضي هو 100.

الحد الأدنى لحجم ورقة النبات


الحد الأدنى لعدد الملاحظات المطلوبة للاحتفاظ بورقة (التي تمثل عقدة طرفية على شجرة دون تقسيمات إضافية). الحد الأدنى للانحدار هو 5 والوضع الافتراضي للتصنيف هو 1. بالنسبة لكل البيانات الضخمة، تؤدي زيادة هذه الأرقام إلى تقليل وقت تشغيل الأداة.

أقصى عمق للشجرة


الحد الأقصى لعدد التقسيمات التي ستُجرى على شجرة. باستخدام أقصى عمق كبير، سيتم إنشاء المزيد من التقسيمات والتي تزيد من فرص ملاءمة النموذج بشكل كبير. الوضع الافتراضي هو البيانات المدفوعة ويعتمد على عدد الأشجار المنشأة وعدد المتغيرات المضمنة.

البيانات المتوفرة لكل شجرة (%)


تحدد النسبة المئوية للمعالم في طبقة التدريب المستخدمة لكل شجرة قرارات. الوضع الافتراضي هو 100 بالمائة من البيانات. تؤخذ أمثلة لكل شجرة عشوائيًا من ثلثي البيانات المحددة.

تُنشئ كل شجرة قرارات في الغابة باستخدام مجموعة فرعية أو عينة عشوائية (ما يقرب من الثلثين) من بيانات التدريب المتوفرة. باستخدام النسبة المئوية الأقل لبيانات الإدخال لكل شجرة قرارات، تزداد سرعة الأداة لكل مجموعات البيانات الضخمة.

عدد المتغيرات المأخوذة كعينة عشوائياً


تحدد عدد المتغيرات التوضيحية المستخدمة في إنشاء كل شجرة قرارات.

يتم إنشاء كل شجرة قرارات في الغابة باستخدام مجموعة فرعية عشوائية من المتغيرات التوضيحية المحددة. تؤدي زيادة عدد المتغيرات المستخدمة في كل قرار إلى زيادة فرص الملائمة بشكل كبير للنموذج، لا سيما إذا كان هناك متغيرًا أو أكثر من المتغيرات السائدة. من الممارسات الشائعة استخدام الجذر التربيعي لإجمالي عدد المتغيرات التوضيحية إذا كان تغير التوقع هو رقم أو قسّم إجمالي عدد المتغيرات التوضيحية على 3 إذا كان متغير التوقع منطقيًا

اختيار كيفية تطابق الحقول التوضيحية


كيفية تطابق المتغيرات المطابقة في طبقة التدريب مع المتغيرات في طبقة التوقع. سيتم فقط تضمين المتغيرات المستخدمة في التدريب في الجدول.

عدد مرات تشغيل التحقق من الصحة


يحدد النسبة المئوية (بين 0 بالمائة و50 بالمائة) من المعالم في طبقة التدريب للحجز كمجموعة بيانات للتحقق من الصحة. سيتم تدريب النموذج دون مجموعة البيانات الفرعية العشوائية هذه وستتم القيم الملاحظة لهذه المعالم مع القيم المتوقعة. الافتراضي هو 10 بالمائة.

اسم طبقة النتيجة


هذا هو اسم الطبقة الذي سيتم إنشاؤه في محتوياتي وإضافتها للخريطة. يستند الاسم الافتراضي إلى اسم الأداة واسم الطبقة المدخلة. إذا وُجدت الطبقة بالفعل، سيطلب منك كتابة اسم آخر.

ستعتمد النتائج العائدة على نوع التحليل. إذا كنت تتدرب على تقييم ملاءمة نموذج، ستحتوي النتائج على طبقة ملاءمة بيانات تدريب للنموذج ومعلومات النتيجة التي تقيم ملاءمة النموذج. إذا كنت تقوم بالتدريب والتوقع، ستحتوي النتائج على طبقة ملاءمة بيانات تدريب للنموذج، طبقة نتائج متوقعة، ومعلومات النتيجة التي تقيم ملاءمة النموذج.

عند استخدام مربع السهم المنسدل حفظ النتائج في يمكن تحديد اسم المجلد في المحتويات حيث يتم حفظ النتائج.