Loob mudelid ja koostab ennustused, kasutades Leo Breimani juhusliku metsa algoritmi kohandatud varianti, mis on masina juhendatud õpetamise meetod. Ennustusi saab koostada nii kategoorilistele muutujatele (klassifikatsioon) kui pidevatele muutujateles (regressioon). Selgitavad muutujad on väljad õpetusobjektide atribuuditabelis. Tööriista võib kasutada selleks, et luua mudelit toimivuse hindamiseks, või luua mudelit ja ennustada muude andmestike tulemusi.
Määrab tööriista töörežiimi. Tööriista võib kasutada selleks, et õpetada mudelit ainult toimivuse hindamiseks, või luua mudelit ja ennustada objekte. Ennustamise tüübid on alljärgnevad:
Kasutage seda režiimi, kui soovite mudelit sobitada ja uurida selle sobivust.
Selle valiku korral õpetatakse mudelit sisendkihi abil. Kasutage seda varianti, et hinnata oma mudeli täpsust enne uue andmestiku ennustuste koostamist. See valik väljastab mudeli diagnostika sõnumiaknas ja rakendab mudelit teie õpetusandmetele.
Kasutage seda režiimi, kui soovite sobitada mudelit ja rakendage mudelit andmestikule, et koostada ennustusi.
Ennustused või klassifikatsioonid luuakse objektidele. Selle valiku väljund on objektiteenus, mudeli diagnostika ja muutuja tähtsuse valikuline tabel.
Objektikiht sisaldab ennustatavat muutujat ja väljasid, mida kasutatakse ennustuse koostamiseks.
Lisaks kihi valimisele kaardil saate valida ripploendi alumises servas Vali analüüsikihte, et otsida oma sisust suurandmete failiketta andmestikku või objektikihti.
Objektikiht, mis väljendab asukohti, kus ennustusi koostatakse. See objektikiht peab samuti sisaldama selgitavaid muutujaid, mis esitatakse väljadena, mis vastavad õpetusobjektides kasutatavatele väljadele.
Lisaks kihi valimisele kaardil saate valida ripploendi alumises servas Vali analüüsikihte, et otsida oma sisust suurandmete failiketta andmestikku või objektikihti.
Õpetusobjektidest pärit väli, mis sisaldab mudeli õpetamiseks kasutatavaid väärtusi. See väli sisaldab teadaolevaid (õpetus)väärtusi muutuja kohta, mida kasutatakse tundmatutes kohtades ennustamiseks. Kui väärtused on kategoorilised (näiteks vaher, mänd, tamm), valige märkeruut Kategooriline.
Üks väli või mitu välja, mis väljendavad selgitavaid muutujaid (välju), mis aitavad ennustada ennustatava muutuja väärtust või kategooriat. Kasutage kategoorilist märkeruutu kõigile muutujatele, mis väljendavad klasse või kategooriaid (nt pinnakattena või olemasolu või puudumisena). Määrake muutuja tõeseks kõigil juhtudel, mis väljendavad klasse või kategooriaid, näiteks pinnakattena või olemasolu või puudumisena, ning väärana, kui muutuja on pidev.
Mudelis loodavate puude arv. Puude suurem arv annab tavaliselt mudeli täpsema ennustuse, kuid mudeli arvutamine võtab rohkem aega. Puude vaikearv on 100.
Tähelepanekute minimaalne arv, mis on vajalik lehe hoidmiseks (leht on puul lõplik sõlm, mida täiendavalt ei jaotata). Regressiooni korral on minimaalne arv 5 ja klassifikatsiooni korral 1. Väga suurte andmete puhul vähendab nende arvude suurendamine tööriista tööaega.
Lõigete maksimaalne arv, mida saab teha mööda puud allapoole minnes. Suure maksimaalse paksuse korral tehakse rohkem lõikeid, mis võib suurendada mudeli ülesobitamise võimalusi. Vaikeväärtus on andmepõhine ja sõltub loodud puude arvust ja kaasatud muutujate arvust.
Määrab objektide protsendi õpetuskihis, mida kasutatakse iga otsusepuu korral. Vaikeväärtus on 100 protsenti andmeid. Iga puu kohta võetakse juhuslikult proovid kahe kolmandiku määratud andmete hulgast.
Kõik otsusepuud luuakse metsas saadaolevate õpetusandmete juhusliku proovivõtu (umbes kaks kolmandikku) abil. Iga otsusepuu sisendandmete väiksema protsendi kasutamine suurendab tööriista kiirust väga suurte andmestike puhul.
Määrab selgitavate muutujate arvu, mida kasutatakse iga otsusepuu loomisel.
Kõik otsusepuud luuakse metsas määratletud selgitavate muutujate juhusliku alamhulga abil. Igas otsusepuus kasutatavate muutujate arvu suurendamine suurendab mudeli ülesobitamise tõenäosust eelkõige, kui on üks või mitu dominantset muutujat. Tavaline praktika on kasutada selgitavate muutujate üldarvu ruutjuurt, kui teie ennustatav muutuja on numbriline, või jagada selgitavate muutujate arv kolmega, kui ennustatav muutuja on kategooriline.
Kuidas õpetuskihi vastavad muutujad sobivad kokku ennustuskihi muutujatega. Tabelisse kaasatakse ainult õpetamisel kasutatavad muutujad.
Määrab objektide arvu protsendi (0-50 protsenti) õpetuskihis, mis reserveeritakse valideerimise katseandmestikuna. Mudelit saab õpetada ilma selle andmete juhusliku alamhulgata ja nende objektide täheldatud väärtusi võrreldakse ennustatud väärtusega. Vaikeväärtus on 10 protsenti.
See on selle kihi nimi, mis luuakse jaotises Minu sisu ja lisatakse kaardile. Vaikenimi põhineb tööriista nimel ja sisendkihi nimel. Kui kiht on juba olemas, palutakse teil sisestada mõni muu nimi.
Saadud tulemused sõltuvad analüüsi tüübist. Kui õpetate mudeli sobivuse hindamist, sisaldavad tulemused mudelitega sobivate õpetusandmete kihti ja annavad teavet mudeli sobivuse hindamiseks. Kui õpetate ja ennustate, sisaldavad tulemused mudelitega sobivate õpetusandmete kihti, ennustatud tulemuste kihti ja annavad teavet mudeli sobivuse hindamiseks.
Kasutades rippmenüüd Salvesta tulemused, saate jaotises Minu sisu määrata selle kausta nime, kuhu tulemused salvestatakse.