वन-आधारित वर्गीकरण और प्रतिगमन

वन-आधारित वर्गीकरण और प्रतिगमन वर्कफ़्लो आरेख


यह लियो ब्रीमेन रेंडम फ़ॉरेस्ट अल्गोरिद्म के अनुकूलन का उपयोग करके मॉडल बनाता है और पूर्वानुमान उत्पन्न करता है, जो कि एक पर्यवेक्षित मशीन लर्निंग विधि है। पर्यवेक्षण श्रेणीकृत चरों (वर्गीकरण) और सतत चरों (प्रतिगमन) दोनों के लिए ही निष्पादित किया जा सकते हैं। वर्णनात्मक चर, प्रशिक्षण फ़ीचर की एट्रिब्यूट तालिका के फ़ील्ड हैं। इस टूल को निष्पादन का आंकलन करने के लिए मॉडल जनरेट करने के लिए या किसी मॉडल को जनरेट करने और दूसरे डेटासेट में परिणामों का पूर्वानुमान करने के लिए संचालित किया जा सकता है।

विश्लेषण का प्रकार


यह टूल का ऑपरेशन मोड निर्दिष्ट करता है। इस टूल को केवल निष्पादन का आंकलन करने, किसी मॉडल को प्रशिक्षित करने और फ़ीचर का पूर्वानुमान करने के लिए संचालित किया जा सकता है। पूर्वानुमान के प्रकार इस प्रकार होते हैं:

  • मॉडल निष्पादन का आंकलन करने के लिए किसी मॉडल को प्रशिक्षित करना—मॉडल को प्रशिक्षित किया जाएगा और उसे इनपुट डेटा के लिए अनुकूलित किया जाएगा। इस विकल्प काउपयोग किसी नए डेटासेट के बारे में पूर्वानुमान जनरेट करने के पहले अपने मॉडल की सटीकता का आंकलन करने के लिए करें। इस विकल्प का आउटपुटआउटपुट आपके अनुकूलित प्रशिक्षण डेटा, मॉडल नैदानिकी और चर के महत्व की वैकल्पिक तालिका की फ़ीचर सेवा होगी।
  • मॉडल को प्रशिक्षित करें और मानों का पूर्वानुमान करें— पूर्वानुमान या वर्गीकरण को फ़ीचर के लिए जनरेट किया जाएगा। वर्णनात्मक चर, प्रशिक्षण फ़ीचर और पूर्वानुमान किए जाने वाले फ़ीचर दोनों के लिए प्रदान किए जाने चाहिए। इस विकल्प का आउटपुट आपके पूर्वानुमानित मान, मॉडल नैदानिकी की फ़ीचर सेवा और चरों के महत्व की वैकल्पिक सेवा होगा।

मॉडल निष्पादन का आंकलन करने के लिए किसी मॉडल को प्रशिक्षित करना


इस मोड का उपयोग तब करें, अगर आप किसी मॉडल को अनुकूलित करना चाहते हैं और अनुकूलन की जांच करना चाहते हैं।

इस विकल्प मॉडल के द्वार मॉडल को इनपुट लेयर का उपयोग करके प्रशिक्षित किया जाएगा। इस विकल्प काउपयोग किसी नए डेटासेट के बारे में पूर्वानुमान जनरेट करने के पहले अपने मॉडल की सटीकता का आंकलन करने के लिए करें। यह विकल्प मॉडल नैदानिकी का संदेश विंडो में आउटपुट देगा और मॉडल को आपके प्रशिक्षण डेटा में लागू करेगा।

मॉडल को प्रशिक्षित करें और मानों का पूर्वानुमान करें


इस मोड का उपयोग तब करें अगर आप किसी मॉडल को अनुकूलित करना और पूर्वानुमान जनरेट करने के लिए मॉडल को डेटासेट पर लागू करना चाहते हों।

पूर्वानुमान या वर्गीकरण को फ़ीचर के लिए जनरेट किया जाएगा। इस विकल्प का आउटपुट, फ़ीचर सेवा, मॉडल नैदानिकी और चरों के महत्व की तालिका होगा।

प्रशिक्षण लेयर चुनें


वह फ़ीचर लेयर जिसमें पूर्वानुमानित किए जाने वाले चर और वह फ़ील्ड शामिल हों, जिनका उपयोग पूर्वानुमान जनरेट करने के लिए किया जाएगा।

अपने नक्शे से एक लेयर चुनने के अलावा, आप बड़ी डेटा फ़ाइल साझा डेटासेट या फीचर लेयर के लिए अपनी सामग्री ब्राउज़ करने के लिए ड्रॉप-डाउन सूची के निचले भाग में विश्लेषण लेयर चुनें चुन सकते हैं।

वह लेयर चुनें, जिसके लिए मानों का पूर्वानुमान किया जाना है


ऐसी फ़ीचर लेयर जो उन स्थानों को प्रदर्शित करती है जहां पूर्वानुमान लगाए जाएंगे। इस फ़ीचर लेयर में आवश्यक रूप से फ़ील्ड के रूप में प्रदान किए गए ऐसे वर्णनात्मक वेरिएबल होने आवश्यक हैं, जो प्रशिक्षण फ़ीचर से प्रयुक्त फ़ील्ड के संगत हों।

अपने नक्शे से एक लेयर चुनने के अलावा, आप बड़ी डेटा फ़ाइल साझा डेटासेट या फीचर लेयर के लिए अपनी सामग्री ब्राउज़ करने के लिए ड्रॉप-डाउन सूची के निचले भाग में विश्लेषण लेयर चुनें चुन सकते हैं।

पूर्वानुमान किया जाने वाला फ़ील्ड चुनें


प्रशिक्षण फ़ीचर के फ़ील्ड में मॉडल को प्रशिक्षित करने के लिए प्रयुक्त होने वाले मान शामिल होते हैं। इस फ़ील्ड में उस चर के ज्ञात (प्रशिक्षण) मान होते हैं, जिनका उपयोग अज्ञात स्थानों का पूर्वानुमान करने के लिए किया जाएगा। अगर मान ख़ास श्रेणी के हैं (उदाहरण के लिए मेपल, देवदारु, ओक) तो श्रेणीबद्ध चेक बॉक्स का चयन करें।

एक या अधिक वर्णनात्मक चरों का चयन करें


ऐसे एक या अधिक फ़ील्ड जो वर्णनात्मक चरों (फ़ील्ड) का उपयोग करते हैं जिनसे पूर्वानुमान किए जाने वाले मान या श्रेणी का पूर्वानुमान करने में मदद मिलती है। श्रेणी चेकबॉक्स का चयन किसी भी ऐसे चर के लिए करें, जो वर्गों या श्रेणियों का प्रतिनिधित्व करता है (जैसे लैंडकवर या उपस्थिति या अनुपस्थिति)। ऐसे किसी भी चर को सत्य के रूप में निर्दिष्ट करें जो ख़ास वर्ग या श्रेणी का प्रतिनिधित्व करता है जैसे लैंडकवर या उपस्थिति या अनुपस्थिति और उसे असत्य के रूप में निर्दिष्ट करें अगर वह चर सतत हो।

ट्री की संख्या


इस मॉडल में बनाए जाने वाले ट्री की संख्या। और ज़्यादा ट्री के परिणामस्वरूप मॉडल का ज़्यादा सटीक पूर्वानुमान प्राप्त होगा, लेकिन मॉडल के परिकलन में ज़्यादा समय लगेगा। ट्री की डिफ़ॉल्ट संख्या 100 है।

लीफ़ का न्यूनतम आकार


लीफ़ को बनाए रखने के लिए पर्यवेक्षणों की न्यूनतम संख्या (यह और अधिक विभाजन किए बिना किसी ट्री पर टर्मिनल नोड होता है)। प्रतिगमन के लिए डिफ़ॉल्ट न्यूनतम 5 है और वर्गीकरण के लिए डिफ़ॉल्ट 1 है। बहुत अधिक डेटा के लिए इस संख्या में वृद्धि से टूल के रन टाइम में कमी आती है।

ट्री की अधिकतम गहराई


विभाजनों की अधिकतम संख्या जिसे ट्री के नीचे बनाया जाएगा। अधिकतम विस्तृत गहराई का उपयोग करके, और अधिक विभाजन बनाए जाएंगे, जिससे मॉडल के अधिक अनुकूल बनने की संभावनाएं बढ़ सकती हैं। डिफ़ॉल्ट, डेटा संचालित होता है और यह बनाए गए ट्री की संख्या और शामिल किए गए चरों की संख्या पर निर्भर है।

प्रति ट्री उपलब्ध डेटा (%)


यह प्रत्येक निर्णय ट्री के लिए प्रयुक्त प्रशिक्षण लेयर में फ़ीचर की संख़्या निर्दिष्ट करता है। डिफ़ॉल्ट मान, डेटा का 100 प्रतिशत है। प्रत्येक ट्री के लिए नमूने निर्दिष्ट डेटा के दो-तिहाई से अनियमित रूप से लिए जाएंगे।

वन में प्रत्येक निर्णय ट्री, उपलब्ध प्रशिक्षण डेटा (लगभग दो तिहाई) के अनियमित नमूने या सबसेट का उपयोग करके बनाया जाता है। प्रत्येक निर्णय ट्री के लिए इनपुट डेटा के कम प्रतिशत का उपयोग करने से हर बड़े डेटासेट के लिए टूल की गति बढ़ जाती है।

अनियमित रूप से नमूना दिए गए चरों की संख्या


यह प्रत्येक निर्णय ट्री बनाने के लिए प्रयुक्त चरों की संख्या निर्दिष्ट करता है।

वन का प्रत्येक निर्णय ट्री, निर्दिष्ट किए गए निर्णय चरों के अनियमित सबसेट का उपयोग करके बनाया जाता है। हर निर्णय ट्री में प्रयुक्त चरों की संख्या बढ़ाने से आपके मॉडल के अधिक अनुकूल होने की संभावना बढ़ जाती है विशेष रूप से अगर एक या कुछ प्रभावी चर मौजूद हों। अगर आपके चर द्वारा सांख्यिक मान का पूर्वानुमान किया जाना है तो वर्णनात्मक चरों की कुल संख्या के वर्गमूल का उपयोग करना या वर्णनात्मक चरों की कुल संख्या को 3 से विभाजित करना एक आम अभ्यास है, अगर पूर्वानुमान किया जाने वाला चर ख़ास श्रेणी का है।

चुनें कि वर्णनात्मक फ़ील्ड का मिलान कैसे होता है


प्रशिक्षण लेयर में संगत चरों का मिलान पूर्वानुमान लेयर के चरों से कैसे होगा। केवल प्रशिक्षण में प्रयुक्त चरों का उपयोग तालिका में किया जाएगा।

सत्यापन के लिए रन की संख्या


यह सत्यापन के लिए परीक्षण डेटासेट में आरक्षित की जाने वाली प्रशिक्षण लेयर में, फ़ीचर का प्रतिशत (0 प्रतिशत और 50 प्रतिशत के बीच) निर्दिष्ट करता है। मॉडल को डेटा के इस अनियमित सबसेट के बिना प्रशिक्षित किया जाएगा और इन फ़ीचर के पर्यवेक्षित मानों की तुलना पूर्वानुमानित मानों से की जाएगी। डिफ़ॉल्ट मान 10 प्रतिशत है।

परिणामी लेयर का नाम


यह उस लेयर का नाम है जो मेरी सामग्री में बनाई जाएगी और मानचित्र में जोड़ी जाएगी। इसका मूल नाम उपकरण के नाम और इनपुट लेयर के नाम पर आधारित है। यदि लेयर पहले से मौजूद हो, तो आपसे दूसरा नाम देने को कहा जाएगा।

रिटर्न किए गए परिणाम, विश्लेषण के प्रकारों पर निर्भर करेंगे। अगर आप मॉडल की अनुकूलता का आंकलन करने के लिए प्रशिक्षण दे रहे हैं, तो परिणामों में मॉडल की प्रशिक्षण डेटा अनुकूलता की लेयर और मॉडल की अनुकूलता का आंकलन करने वाली परिणाम जानकारी भी शामिल होगी। अगर आप प्रशिक्षण दे रहे हैं और पूर्वानुमान लगा रहे हैं, तो परिणामों में मॉडल के लिए लेयर की प्रशिक्षण डेटा अनुकूलता, मॉडल अनुकूलता का आंकलन करने वाले परिणामों की जानकारी भी शामिल होगी।

इसमें सहेजें ड्राप-डाउन बॉक्स का उपयोग करके, आप मेरी सामग्री में एक फोल्डर का नाम निर्दिष्ट कर सकते हैं, जहां परिणामों को सहेजा जाएगा।।