สร้างแบบจำลองและสร้างการคาดการณ์โดยใช้การปรับอัลกอริทึมป่าไม้แบบสุ่มของ Leo Breiman ซึ่งเป็นวิธีการเรียนรู้ของเครื่องที่มีการกำกับดูแล สำหรับทำการคาดการณ์ได้ทั้งแบบตัวแปรที่เป็นหมวดหมู่ (การจำแนก) และตัวแปรต่อเนื่อง (การถดถอย) ตัวแปรอธิบาย คือ ฟิลด์ในตารางแอตทริบิวต์ของฟีเจอร์การฝึกอบรม สามารถเปิดใช้เครื่องมือเพื่อสร้างแบบจำลองเพื่อประเมินผลการทำงาน หรือสร้างแบบจำลอง และคาดการณ์ถึงผลลัพธ์ของชุดข้อมูลอื่น
ระบุโหมดการทำงานของเครื่องมือ สามารถเปิดใช้เครื่องมือเพื่อฝึกอบรมแบบจำลองเพื่อประเมินผลการทำงาน หรือฝึกอบรมแบบจำลอง และคาดการณ์ถึงฟีเจอร์ต่าง ๆ เท่านั้น การคาดการณ์แบ่งเป็นประเภทต่าง ๆ ต่อไปนี้:
ใช้แบบจำลองนี้หากคุณต้องการปรับแบบจำลองให้พอดี และค้นหาความเหมาะสม
ด้วยตัวเลือกนี้ จะมีการฝึกอบรมแบบจำลองโดยใช้ชั้นข้อมูลอินพุต ใช้ตัวเลือกนี้เพื่อประเมินความแม่นยำของแบบจำลองก่อนที่จะสร้างการคาดการณ์จากชุดข้อมูลใหม่ ตัวเลือกนี้จะแสดงผลลัพธ์การวินิจฉัยแบบจำลองในหน้าต่างข้อความ และใช้แบบจำลองกับข้อมูลการฝึกอบรมของคุณ
ใช้โหมดนี้หากคุณต้องการปรับแบบจำลองให้พอดี และใช้แบบจำลองกับชุดข้อมูลเพื่อสร้างการคาดการณ์
จะมีการสร้างการคาดการณ์หรือการจำแนกสำหรับฟีเจอร์ต่าง ๆ ผลลัพธ์ของตัวเลือกนี้จะเป็นบริการฟีเจอร์ การวินิฉัยแบบจำลอง และตัวเลือกตารางความสำคัญของตัวแปร
ชั้นข้อมูลฟีเจอร์ที่ประกอบด้วยตัวแปรในการคาดการณ์และฟิลด์ที่จะถูกใช้เพื่อสร้างการคาดการณ์
นอกเหนือจากการเลือกชั้นข้อมูลจากแผนที่คุณสามารถเลือก เลือกชั้นข้อมูลการวิเคราะห์ ที่ด้านล่างของรายการแบบเลื่อนลงเพื่อเรียกดูเนื้อหาของคุณสำหรับชุดข้อมูลขนาดใหญ่หรือชั้นฟีเจอร์
ชั้นข้อมูลฟีเจอร์ที่แสดงตำแหน่งที่มีการสร้างการคาดการณ์ ชั้นข้อมูลฟีเจอร์นี้ยังต้องประกอบด้วยตัวแปรอธิบายที่ให้มาเป็นฟิลด์ที่เกี่ยวข้องกับตัวแปรที่ใช้งานจากฟีเจอร์การฝึกอบรม
นอกเหนือจากการเลือกชั้นข้อมูลจากแผนที่คุณสามารถเลือก เลือกชั้นข้อมูลการวิเคราะห์ ที่ด้านล่างของรายการแบบเลื่อนลงเพื่อเรียกดูเนื้อหาของคุณสำหรับชุดข้อมูลขนาดใหญ่หรือชั้นฟีเจอร์
ฟิลด์จากฟีเจอร์การฝึกอบรมที่ประกอบไปด้วยค่าที่จะใช้ฝึกอบรมแบบจำลอง ฟิลด์นี้ประกอบด้วยค่าของตัวแปรที่รู้จัก (การฝึกอบรม) ซึ่งจะใช้เพื่อคาดการณ์ตำแหน่งที่ไม่รู้จัก หากเป็นแบบแยกหมวดหมู่ (เช่น เมเปิ้ล ต้นสน ต้นโอ้ค) ให้เลือกช่องทำเครื่องหมาย ตามหมวดหมู่
มีฟิลด์หนึ่งขึ้นไปที่แสดงตัวแปรอธิบาย (ฟิลด์) ที่จะช่วยคาดการณ์ค่าหรือหมวดหมู่ของตัวแปรที่จะคาดการณ์ ใช้ช่องทำเครื่องหมายตามหมวดหมู่สำหรับตัวแปรที่แสดงกลุ่มหรือหมวดหมู่ (เช่น การปกคลุมดิน หรือการมีอยู่ หรือการไม่มีอยู่) ระบุตัวแปรเป็น จริง สำหรับตัวแปรที่แสดงกลุ่มหรือหมวดหมู่ ได้แก่ การปกคลุมดิน หรือการมีอยู่ หรือการไม่มีอยู่ และเท็จ หากเป็นตัวแปรแบบต่อเนื่อง
จำนวนของต้นไม้ที่สร้างในแบบจำลอง โดยทั่วไปต้นไม้ที่เพิ่มขึ้นจะเป็นผลมาจากการคาดการณ์แบบจำลองที่มีความแม่นยำมากขึ้น แต่แบบจำลองจะใช้เวลาในการคำนวณนานขึ้น จำนวนของต้นไม้เริ่มต้น คือ 100
จำนวนขั้นต่ำของการสังเกตการณ์ที่จำเป็นในการรักษาใบไม้ (นี่คือโหนดเทอร์มินัลของต้นไม้โดยไม่มีการแยกชิ้นส่วนเพิ่มเติม) ค่าเริ่มต้นขั้นต่อสำหรับการถดถอย คือ 5 และค่าเริ่มต้นสำหรับการจำแนกคือ 1 สำหรับข้อมูลขนาดใหญ่ทุกข้อมูล การเพิ่มขึ้นของตัวเลขดังกล่าวจะทำให้เวลาในการทำงานของเครื่องมือลดลง
จำนวนการแยกชิ้นส่วนสูงสุดที่จะทำได้เมื่อโค่นต้นไม้ การใช้ความลึกสูงสุดขนาดใหญ่ จะทำให้เกิดชิ้นส่วนที่แยกมากขึ้นซึ่งอาจทำให้มีโอกาสของการเกิดโอเวอร์ฟิตติ้งของแบบจำลองเพิ่มขึ้น ค่าเริ่มต้น คือ ข้อมูลที่ขับเคลื่อนและขึ้นอยู่กับจำนวนต้นไม้ที่สร้างขึ้นและจำนวนของตัวแปรที่รวมไว้
ระบุเปอร์เซ็นต์ของฟีเจอร์ในชั้นข้อมูลการฝึกอบรมที่ใช้สำหรับต้นไม้ในการตัดสินใจแต่ละต้น ค่าเริ่มต้นคือ 100 เปอร์เซ็นต์ของข้อมูล จะมีการใช้ตัวอย่างแบบสุ่มสำหรับต้นไม้แต่ละต้นจากสองในสามของข้อมูลที่ระบุไว้
มีการสร้างต้นไม้ในการตัดสินใจแต่ละต้นที่อยู่ในป่าโดยใช้ตัวอย่างแบบสุ่มหรือเซ็ตย่อย (ประมาณสองในสาม) ของข้อมูลการฝึกอบรมที่มีอยู่ การใช้เปอร์เซ็นต์ที่ต่ำกว่าของข้อมูลอินพุตสำหรับต้นไม้ในการตัดสินใจแต่ละต้นจะเพิ่มความเร็วของเครื่องมือสำหรับชุดข้อมูลขนาดใหญ่ทุกชุด
ระบุำจำนวนของตัวแปรอธิบายที่ใช้เพื่อสร้างต้นไม้ในการตัดสินใจแต่ละต้น
ต้นไม้ในการตัดสินใจแต่ละต้นที่อยู่ในป่าถูกสร้างขึ้นโดยใช้เซ็ตย่อยแบบสุ่มของตัวแปรอธิบายที่ระบุ การเพิ่มจำนวนของตัวแปรที่ใช้สำหรับต้นไม้ในการตัดสินใจแต่ละต้นจะเพิ่มโอกาสของการโอเวอร์ฟิตติ้งแบบจำลองของคุณโดยเฉพาะหากมีตัวแปรที่เหนือกว่าหนึ่งหรือสองตัวแปร หลักปฏิบัติทั่วไปคือการใช้รากที่สองของจำนวนทั้งหมดของตัวแปรอธิบาย หากตัวแปรของคุณเป็นตัวเลขหรือหารจำนวนทั้งหมดของตัวแปรอธิบายด้วย 3 หากตัวแปรที่จะคาดการณ์เป็นแบบหมวดหมู่
วิธีที่ตัวแปรที่เกี่ยวข้องในชั้นข้อมูลการฝึกอบรมจะจับคู่กับตัวแปรในชั้นข้อมูลการคาดการณ์ จะมีการนำเฉพาะตัวแปรที่ใช้ในการฝึกอบรมไปใส่ไว้ในตาราง
ระบุเปอร์เซ็นต์ (ระหว่าง 0 เปอร์เซ็นต์ถึง 50 เปอร์เซ็นต์) ของฟีเจอร์ในชั้นข้อมูลการฝึกอบรมเพื่อสงวนเป็นชุดข้อมูลการทดสอบสำหรับการตรวจสอบความถูกต้อง จะมีการฝึกอบรมแบบจำลองโดยไม่มีเซ็ตย่อยของข้อมูลแบบสุ่มนี้ และค่าที่สังเกตการณ์สำหรับฟีเจอร์ดังกล่าวจะถูกนำไปเปรียบเทียบกับค่าที่คาดการณ์ไว้ ค่าเริ่มต้นคือ 10 เปอร์เซ็นต์
เป็นชื่อชั้นข้อมูลที่จะถูกสร้างใน เนื้อหาของฉัน และเพิ่มเข้าไปในแผนที่ ชื่อเริ่มต้นจะขึ้นอยู่กับชื่อเครื่องมือและชื่อชั้นข้อมูลอินพุท ถ้าชั้นข้อมูลนี้มีอยู่แล้ว คุณจะถูกถามให้ตั้งชื่อใหม่
ผลลัพธ์ที่ได้จะขึ้นอยู่กับประเภทของการวิเคราะห์ หากคุณกำลังทำการฝึกอบรมเพื่อประเมินความเหมาะสมของแบบจำลอง ผลลัพธ์จะประกอบไปด้วยชั้นข้อมูลของข้อมูลการฝึกอบรมที่เหมาะสมกับแบบจำลอง และข้อมูลผลลัพธ์ในการประเมินความเหมาะสมของแบบจำลอง หากคุณกำลังทำการฝึกอบรมและคาดการณ์ ผลลัพธ์จะประกอบไปด้วยชั้นข้อมูลของข้อมูลการฝึกอบรมที่เหมาะสมกับแบบจำลอง และข้อมูลผลลัพธ์ในการประเมินความเหมาะสมของแบบจำลอง
ใช้ บันทึกผลลัพธ์ใน รายการตัวเลือก เพื่อระบุชื่อของโฟล์เดอร์ใน เนื้อหาของฉัน เมื่อบันทึกผล