Metsanduspõhine klassifikatsioon ja regressioon

Metsanduspõhise klassifikatsiooni ja regressiooni töövoo skeem


Loob mudelid ja koostab ennustused, kasutades Leo Breimani juhusliku metsa algoritmi kohandatud varianti, mis on masina juhendatud õpetamise meetod. Ennustusi saab koostada nii kategoorilistele muutujatele (klassifikatsioon) kui pidevatele muutujateles (regressioon). Selgitavad muutujad on väljad õpetusobjektide atribuuditabelis. Tööriista võib kasutada selleks, et luua mudelit toimivuse hindamiseks, või luua mudelit ja ennustada muude andmestike tulemusi.

Analüüsitüüp


Määrab tööriista töörežiimi. Tööriista võib kasutada selleks, et õpetada mudelit ainult toimivuse hindamiseks, või luua mudelit ja ennustada objekte. Ennustamise tüübid on alljärgnevad:

  • Mudeli õpetamine mudeli toimivuse hindamiseks— Mudelit õpetatakse ja see sobitatakse kokku sisendandmetega. Kasutage seda varianti, et hinnata oma mudeli täpsust enne uue andmestiku ennustuste koostamist. Selle valiku väljund on teie sobitatud õpetusandmete objektiteenus, mudeli diagnostika ja muutuja tähtsuse valikuline tabel.
  • Mudeli õpetamine ja väärtuste ennustamine— Ennustused või klassifikatsioonid luuakse objektide jaoks. Selgitavad muutujad tuleb esitada nii õpetusobjektide kui ka ennustatavate objektide kohta. Selle valiku väljund on teie ennustatud väärtuste objektiteenus, mudeli diagnostika ja muutuja tähtsuse valikuline tabel.

Mudeli õpetamine mudeli toimivuse hindamiseks


Kasutage seda režiimi, kui soovite mudelit sobitada ja uurida selle sobivust.

Selle valiku korral õpetatakse mudelit sisendkihi abil. Kasutage seda varianti, et hinnata oma mudeli täpsust enne uue andmestiku ennustuste koostamist. See valik väljastab mudeli diagnostika sõnumiaknas ja rakendab mudelit teie õpetusandmetele.

Mudeli õpetamine ja väärtuste ennustamine


Kasutage seda režiimi, kui soovite sobitada mudelit ja rakendage mudelit andmestikule, et koostada ennustusi.

Ennustused või klassifikatsioonid luuakse objektidele. Selle valiku väljund on objektiteenus, mudeli diagnostika ja muutuja tähtsuse valikuline tabel.

Vali õpetuskiht


Objektikiht sisaldab ennustatavat muutujat ja väljasid, mida kasutatakse ennustuse koostamiseks.

Lisaks kihi valimisele kaardil saate valida ripploendi alumises servas Vali analüüsikihte, et otsida oma sisust suurandmete failiketta andmestikku või objektikihti.

Valige kiht, millele on vaja ennustada väärtusi


Objektikiht, mis väljendab asukohti, kus ennustusi koostatakse. See objektikiht peab samuti sisaldama selgitavaid muutujaid, mis esitatakse väljadena, mis vastavad õpetusobjektides kasutatavatele väljadele.

Lisaks kihi valimisele kaardil saate valida ripploendi alumises servas Vali analüüsikihte, et otsida oma sisust suurandmete failiketta andmestikku või objektikihti.

Ennustatava välja valimine


Õpetusobjektidest pärit väli, mis sisaldab mudeli õpetamiseks kasutatavaid väärtusi. See väli sisaldab teadaolevaid (õpetus)väärtusi muutuja kohta, mida kasutatakse tundmatutes kohtades ennustamiseks. Kui väärtused on kategoorilised (näiteks vaher, mänd, tamm), valige märkeruut Kategooriline.

Valige üks selgitav muutuja või mitu selgitavat muutujat


Üks väli või mitu välja, mis väljendavad selgitavaid muutujaid (välju), mis aitavad ennustada ennustatava muutuja väärtust või kategooriat. Kasutage kategoorilist märkeruutu kõigile muutujatele, mis väljendavad klasse või kategooriaid (nt pinnakattena või olemasolu või puudumisena). Määrake muutuja tõeseks kõigil juhtudel, mis väljendavad klasse või kategooriaid, näiteks pinnakattena või olemasolu või puudumisena, ning väärana, kui muutuja on pidev.

Puude arv


Mudelis loodavate puude arv. Puude suurem arv annab tavaliselt mudeli täpsema ennustuse, kuid mudeli arvutamine võtab rohkem aega. Puude vaikearv on 100.

Lehe minimaalne suurus


Tähelepanekute minimaalne arv, mis on vajalik lehe hoidmiseks (leht on puul lõplik sõlm, mida täiendavalt ei jaotata). Regressiooni korral on minimaalne arv 5 ja klassifikatsiooni korral 1. Väga suurte andmete puhul vähendab nende arvude suurendamine tööriista tööaega.

Puu maksimaalne paksus


Lõigete maksimaalne arv, mida saab teha mööda puud allapoole minnes. Suure maksimaalse paksuse korral tehakse rohkem lõikeid, mis võib suurendada mudeli ülesobitamise võimalusi. Vaikeväärtus on andmepõhine ja sõltub loodud puude arvust ja kaasatud muutujate arvust.

Saadaolevad andmed puu kohta (%)


Määrab objektide protsendi õpetuskihis, mida kasutatakse iga otsusepuu korral. Vaikeväärtus on 100 protsenti andmeid. Iga puu kohta võetakse juhuslikult proovid kahe kolmandiku määratud andmete hulgast.

Kõik otsusepuud luuakse metsas saadaolevate õpetusandmete juhusliku proovivõtu (umbes kaks kolmandikku) abil. Iga otsusepuu sisendandmete väiksema protsendi kasutamine suurendab tööriista kiirust väga suurte andmestike puhul.

Juhusliku proovivõtuga muutujate arv


Määrab selgitavate muutujate arvu, mida kasutatakse iga otsusepuu loomisel.

Kõik otsusepuud luuakse metsas määratletud selgitavate muutujate juhusliku alamhulga abil. Igas otsusepuus kasutatavate muutujate arvu suurendamine suurendab mudeli ülesobitamise tõenäosust eelkõige, kui on üks või mitu dominantset muutujat. Tavaline praktika on kasutada selgitavate muutujate üldarvu ruutjuurt, kui teie ennustatav muutuja on numbriline, või jagada selgitavate muutujate arv kolmega, kui ennustatav muutuja on kategooriline.

Valige selgitavate väljade sobitamise viis


Kuidas õpetuskihi vastavad muutujad sobivad kokku ennustuskihi muutujatega. Tabelisse kaasatakse ainult õpetamisel kasutatavad muutujad.

Valideerimistsüklite arv


Määrab objektide arvu protsendi (0-50 protsenti) õpetuskihis, mis reserveeritakse valideerimise katseandmestikuna. Mudelit saab õpetada ilma selle andmete juhusliku alamhulgata ja nende objektide täheldatud väärtusi võrreldakse ennustatud väärtusega. Vaikeväärtus on 10 protsenti.

Tulemkihi nimi


See on selle kihi nimi, mis luuakse jaotises Minu sisu ja lisatakse kaardile. Vaikenimi põhineb tööriista nimel ja sisendkihi nimel. Kui kiht on juba olemas, palutakse teil sisestada mõni muu nimi.

Saadud tulemused sõltuvad analüüsi tüübist. Kui õpetate mudeli sobivuse hindamist, sisaldavad tulemused mudelitega sobivate õpetusandmete kihti ja annavad teavet mudeli sobivuse hindamiseks. Kui õpetate ja ennustate, sisaldavad tulemused mudelitega sobivate õpetusandmete kihti, ennustatud tulemuste kihti ja annavad teavet mudeli sobivuse hindamiseks.

Kasutades rippmenüüd Salvesta tulemused, saate jaotises Minu sisu määrata selle kausta nime, kuhu tulemused salvestatakse.