การจำแนกและการถดถอยโดยยึดตามป่าไม้

ไดอะแกรมแสดงขั้นตอนการจำแนกและการถดถอยโดยยึดตามป่าไม้


สร้างแบบจำลองและสร้างการคาดการณ์โดยใช้การปรับอัลกอริทึมป่าไม้แบบสุ่มของ Leo Breiman ซึ่งเป็นวิธีการเรียนรู้ของเครื่องที่มีการกำกับดูแล สำหรับทำการคาดการณ์ได้ทั้งแบบตัวแปรที่เป็นหมวดหมู่ (การจำแนก) และตัวแปรต่อเนื่อง (การถดถอย) ตัวแปรอธิบาย คือ ฟิลด์ในตารางแอตทริบิวต์ของฟีเจอร์การฝึกอบรม สามารถเปิดใช้เครื่องมือเพื่อสร้างแบบจำลองเพื่อประเมินผลการทำงาน หรือสร้างแบบจำลอง และคาดการณ์ถึงผลลัพธ์ของชุดข้อมูลอื่น

ประเภทการวิเคราะห์


ระบุโหมดการทำงานของเครื่องมือ สามารถเปิดใช้เครื่องมือเพื่อฝึกอบรมแบบจำลองเพื่อประเมินผลการทำงาน หรือฝึกอบรมแบบจำลอง และคาดการณ์ถึงฟีเจอร์ต่าง ๆ เท่านั้น การคาดการณ์แบ่งเป็นประเภทต่าง ๆ ต่อไปนี้:

  • ฝึกอบรมแบบจำลองเพื่อประเมินผลการทำงานของแบบจำลอง—จะมีการฝึกอบรมแบบจำลอง และปรับให้พอกับข้อมูลอินพุต ใช้ตัวเลือกนี้เพื่อประเมินความแม่นยำของแบบจำลองก่อนที่จะสร้างการคาดการณ์จากชุดข้อมูลใหม่ ผลลัพธ์ของตัวเลือกนี้จะเป็นบริการฟีเจอร์ของข้อมูลฝึกอบรมที่ปรับให้พอดีแล้ว การวินิฉัยแบบจำลอง และตัวเลือกตารางความสำคัญของตัวแปร
  • ฝึกอบรมแบบจำลองและคาดการณ์ค่าต่าง ๆ — จะมีการสร้างการคาดการณ์หรือการจำแนกสำหรับฟีเจอร์ ต้องให้ตัวแปรอธิบายสำหรับทั้งฟีเจอร์การฝึกอบรมและฟีเจอร์ที่จะถูกคาดการณ์ ผลลัพธ์ของตัวเลือกนี้จะเป็นบริการฟีเจอร์ของค่าที่คุณคาดการณ์ การวินิฉัยแบบจำลอง และตัวเลือกตารางความสำคัญของตัวแปร

ฝึกอบรมแบบจำลองเพื่อประเมินผลการทำงานของแบบจำลอง


ใช้แบบจำลองนี้หากคุณต้องการปรับแบบจำลองให้พอดี และค้นหาความเหมาะสม

ด้วยตัวเลือกนี้ จะมีการฝึกอบรมแบบจำลองโดยใช้ชั้นข้อมูลอินพุต ใช้ตัวเลือกนี้เพื่อประเมินความแม่นยำของแบบจำลองก่อนที่จะสร้างการคาดการณ์จากชุดข้อมูลใหม่ ตัวเลือกนี้จะแสดงผลลัพธ์การวินิจฉัยแบบจำลองในหน้าต่างข้อความ และใช้แบบจำลองกับข้อมูลการฝึกอบรมของคุณ

ฝึกอบรมแบบจำลองและคาดการณ์ค่าต่าง ๆ


ใช้โหมดนี้หากคุณต้องการปรับแบบจำลองให้พอดี และใช้แบบจำลองกับชุดข้อมูลเพื่อสร้างการคาดการณ์

จะมีการสร้างการคาดการณ์หรือการจำแนกสำหรับฟีเจอร์ต่าง ๆ ผลลัพธ์ของตัวเลือกนี้จะเป็นบริการฟีเจอร์ การวินิฉัยแบบจำลอง และตัวเลือกตารางความสำคัญของตัวแปร

เลือกชั้นข้อมูลการฝึกอบรม


ชั้นข้อมูลฟีเจอร์ที่ประกอบด้วยตัวแปรในการคาดการณ์และฟิลด์ที่จะถูกใช้เพื่อสร้างการคาดการณ์

นอกเหนือจากการเลือกชั้นข้อมูลจากแผนที่คุณสามารถเลือก เลือกชั้นข้อมูลการวิเคราะห์ ที่ด้านล่างของรายการแบบเลื่อนลงเพื่อเรียกดูเนื้อหาของคุณสำหรับชุดข้อมูลขนาดใหญ่หรือชั้นฟีเจอร์

เลือกชั้นข้อมูลที่จะคาดการณ์ค่า


ชั้นข้อมูลฟีเจอร์ที่แสดงตำแหน่งที่มีการสร้างการคาดการณ์ ชั้นข้อมูลฟีเจอร์นี้ยังต้องประกอบด้วยตัวแปรอธิบายที่ให้มาเป็นฟิลด์ที่เกี่ยวข้องกับตัวแปรที่ใช้งานจากฟีเจอร์การฝึกอบรม

นอกเหนือจากการเลือกชั้นข้อมูลจากแผนที่คุณสามารถเลือก เลือกชั้นข้อมูลการวิเคราะห์ ที่ด้านล่างของรายการแบบเลื่อนลงเพื่อเรียกดูเนื้อหาของคุณสำหรับชุดข้อมูลขนาดใหญ่หรือชั้นฟีเจอร์

เลือกฟิลด์ที่จะคาดการณ์


ฟิลด์จากฟีเจอร์การฝึกอบรมที่ประกอบไปด้วยค่าที่จะใช้ฝึกอบรมแบบจำลอง ฟิลด์นี้ประกอบด้วยค่าของตัวแปรที่รู้จัก (การฝึกอบรม) ซึ่งจะใช้เพื่อคาดการณ์ตำแหน่งที่ไม่รู้จัก หากเป็นแบบแยกหมวดหมู่ (เช่น เมเปิ้ล ต้นสน ต้นโอ้ค) ให้เลือกช่องทำเครื่องหมาย ตามหมวดหมู่

เลือกตัวแปรอธิบายหนึ่งรายการขึ้นไป


มีฟิลด์หนึ่งขึ้นไปที่แสดงตัวแปรอธิบาย (ฟิลด์) ที่จะช่วยคาดการณ์ค่าหรือหมวดหมู่ของตัวแปรที่จะคาดการณ์ ใช้ช่องทำเครื่องหมายตามหมวดหมู่สำหรับตัวแปรที่แสดงกลุ่มหรือหมวดหมู่ (เช่น การปกคลุมดิน หรือการมีอยู่ หรือการไม่มีอยู่) ระบุตัวแปรเป็น จริง สำหรับตัวแปรที่แสดงกลุ่มหรือหมวดหมู่ ได้แก่ การปกคลุมดิน หรือการมีอยู่ หรือการไม่มีอยู่ และเท็จ หากเป็นตัวแปรแบบต่อเนื่อง

จำนวนของต้นไม้


จำนวนของต้นไม้ที่สร้างในแบบจำลอง โดยทั่วไปต้นไม้ที่เพิ่มขึ้นจะเป็นผลมาจากการคาดการณ์แบบจำลองที่มีความแม่นยำมากขึ้น แต่แบบจำลองจะใช้เวลาในการคำนวณนานขึ้น จำนวนของต้นไม้เริ่มต้น คือ 100

ขนาดใบไม้ต่ำสุด


จำนวนขั้นต่ำของการสังเกตการณ์ที่จำเป็นในการรักษาใบไม้ (นี่คือโหนดเทอร์มินัลของต้นไม้โดยไม่มีการแยกชิ้นส่วนเพิ่มเติม) ค่าเริ่มต้นขั้นต่อสำหรับการถดถอย คือ 5 และค่าเริ่มต้นสำหรับการจำแนกคือ 1 สำหรับข้อมูลขนาดใหญ่ทุกข้อมูล การเพิ่มขึ้นของตัวเลขดังกล่าวจะทำให้เวลาในการทำงานของเครื่องมือลดลง

ความลึกสูงสุดของต้นไม้


จำนวนการแยกชิ้นส่วนสูงสุดที่จะทำได้เมื่อโค่นต้นไม้ การใช้ความลึกสูงสุดขนาดใหญ่ จะทำให้เกิดชิ้นส่วนที่แยกมากขึ้นซึ่งอาจทำให้มีโอกาสของการเกิดโอเวอร์ฟิตติ้งของแบบจำลองเพิ่มขึ้น ค่าเริ่มต้น คือ ข้อมูลที่ขับเคลื่อนและขึ้นอยู่กับจำนวนต้นไม้ที่สร้างขึ้นและจำนวนของตัวแปรที่รวมไว้

ข้อมูลที่ใช้ได้ต่อต้นไม้แต่ละต้น (%)


ระบุเปอร์เซ็นต์ของฟีเจอร์ในชั้นข้อมูลการฝึกอบรมที่ใช้สำหรับต้นไม้ในการตัดสินใจแต่ละต้น ค่าเริ่มต้นคือ 100 เปอร์เซ็นต์ของข้อมูล จะมีการใช้ตัวอย่างแบบสุ่มสำหรับต้นไม้แต่ละต้นจากสองในสามของข้อมูลที่ระบุไว้

มีการสร้างต้นไม้ในการตัดสินใจแต่ละต้นที่อยู่ในป่าโดยใช้ตัวอย่างแบบสุ่มหรือเซ็ตย่อย (ประมาณสองในสาม) ของข้อมูลการฝึกอบรมที่มีอยู่ การใช้เปอร์เซ็นต์ที่ต่ำกว่าของข้อมูลอินพุตสำหรับต้นไม้ในการตัดสินใจแต่ละต้นจะเพิ่มความเร็วของเครื่องมือสำหรับชุดข้อมูลขนาดใหญ่ทุกชุด

จำนวนของตัวแปรที่สุ่มตัวอย่าง


ระบุำจำนวนของตัวแปรอธิบายที่ใช้เพื่อสร้างต้นไม้ในการตัดสินใจแต่ละต้น

ต้นไม้ในการตัดสินใจแต่ละต้นที่อยู่ในป่าถูกสร้างขึ้นโดยใช้เซ็ตย่อยแบบสุ่มของตัวแปรอธิบายที่ระบุ การเพิ่มจำนวนของตัวแปรที่ใช้สำหรับต้นไม้ในการตัดสินใจแต่ละต้นจะเพิ่มโอกาสของการโอเวอร์ฟิตติ้งแบบจำลองของคุณโดยเฉพาะหากมีตัวแปรที่เหนือกว่าหนึ่งหรือสองตัวแปร หลักปฏิบัติทั่วไปคือการใช้รากที่สองของจำนวนทั้งหมดของตัวแปรอธิบาย หากตัวแปรของคุณเป็นตัวเลขหรือหารจำนวนทั้งหมดของตัวแปรอธิบายด้วย 3 หากตัวแปรที่จะคาดการณ์เป็นแบบหมวดหมู่

เลือกวิธีการจับคู่ฟิลด์คำอธิบาย


วิธีที่ตัวแปรที่เกี่ยวข้องในชั้นข้อมูลการฝึกอบรมจะจับคู่กับตัวแปรในชั้นข้อมูลการคาดการณ์ จะมีการนำเฉพาะตัวแปรที่ใช้ในการฝึกอบรมไปใส่ไว้ในตาราง

จำนวนการทำงานเพื่อตรวจสอบ


ระบุเปอร์เซ็นต์ (ระหว่าง 0 เปอร์เซ็นต์ถึง 50 เปอร์เซ็นต์) ของฟีเจอร์ในชั้นข้อมูลการฝึกอบรมเพื่อสงวนเป็นชุดข้อมูลการทดสอบสำหรับการตรวจสอบความถูกต้อง จะมีการฝึกอบรมแบบจำลองโดยไม่มีเซ็ตย่อยของข้อมูลแบบสุ่มนี้ และค่าที่สังเกตการณ์สำหรับฟีเจอร์ดังกล่าวจะถูกนำไปเปรียบเทียบกับค่าที่คาดการณ์ไว้ ค่าเริ่มต้นคือ 10 เปอร์เซ็นต์

ชื่อของชั้นข้อมูลผลลัพธ์


เป็นชื่อชั้นข้อมูลที่จะถูกสร้างใน เนื้อหาของฉัน และเพิ่มเข้าไปในแผนที่ ชื่อเริ่มต้นจะขึ้นอยู่กับชื่อเครื่องมือและชื่อชั้นข้อมูลอินพุท ถ้าชั้นข้อมูลนี้มีอยู่แล้ว คุณจะถูกถามให้ตั้งชื่อใหม่

ผลลัพธ์ที่ได้จะขึ้นอยู่กับประเภทของการวิเคราะห์ หากคุณกำลังทำการฝึกอบรมเพื่อประเมินความเหมาะสมของแบบจำลอง ผลลัพธ์จะประกอบไปด้วยชั้นข้อมูลของข้อมูลการฝึกอบรมที่เหมาะสมกับแบบจำลอง และข้อมูลผลลัพธ์ในการประเมินความเหมาะสมของแบบจำลอง หากคุณกำลังทำการฝึกอบรมและคาดการณ์ ผลลัพธ์จะประกอบไปด้วยชั้นข้อมูลของข้อมูลการฝึกอบรมที่เหมาะสมกับแบบจำลอง และข้อมูลผลลัพธ์ในการประเมินความเหมาะสมของแบบจำลอง

ใช้ บันทึกผลลัพธ์ใน รายการตัวเลือก เพื่อระบุชื่อของโฟล์เดอร์ใน เนื้อหาของฉัน เมื่อบันทึกผล