Medžių schema paremta klasifikacija ir regresija

Kuria modelius ir generuoja prognozes pagal Leo Breimano atsitiktinio miško algoritmą, prižiūrimą mašininio mokymo metodą. Prognozuoti galima ir kategoriniams kintamiesiems (klasifikacija), ir ištisiniams (regresija). Paaiškinantys kintamieji yra mokymo elementų atributų lentelės laukai. Įrankį galima paleisti norint sugeneruoti modelį, kad šis vertintų našumą, arba sugeneruoti modelį ir prognozuoti kitų duomenų rinkinių rezultatus.

Analizės tipas

Nurodo įrankio veikimo režimą. Įrankį galima paleisti norint apmokyti modelį, kad šis vertintų našumą, arba apmokyti modelį ir prognozuoti elementus. Prognozavimo tipai yra tokie:

Apmokyti modelį vertinti modelio našumą – modelis bus mokomas ir pritaikomas įvesties duomenims. Šią parinktį naudokite norėdami įvertinti savo modelio tikslumą prieš generuojant prognozes naujam duomenų rinkiniui. Šios parinkties išvestis bus pritaikytų mokymo duomenų elementų paslauga, modelio diagnostika ir (nebūtina) kintamųjų reikšmingumo lentelė.
Apmokyti modelį ir prognozuoti reikšmes – elementams bus sugeneruotos prognozės arba klasifikacijos. Ir mokymo elementams, ir prognozuojamiems elementams turi būti pateikiami paaiškinantys kintamieji. Šios parinkties išvestis bus prognozuojamų reikšmių elementų paslauga, modelio diagnostika ir (nebūtina) kintamųjų reikšmingumo lentelė.

Apmokyti modelį vertinti modelio našumą

Naudokite šį režimą, kai norite pritaikyti modelį ir patikrinti, kaip gerai pritaikyta.

Jį pasirinkus, modelis bus apmokomas naudojant įvesties sluoksnį. Šią parinktį naudokite norėdami įvertinti savo modelio tikslumą prieš generuojant prognozes naujam duomenų rinkiniui. Šios parinkties išvestis bus modelio diagnostika pranešimų lange, ir pritaikys modelį jūsų mokymo duomenims.

Apmokyti modelį ir prognozuoti reikšmes

Naudokite šį režimą, kai norite adaptuoti modelį, o tada pritaikyti modelį duomenų rinkiniui prognozėms generuoti.

Elementams bus sugeneruojamos prognozės arba klasifikacijos. Šios parinkties išvestis bus elementų paslauga, modelio diagnostika ir (nebūtina) kintamųjų reikšmingumo lentelė.

Pasirinkite mokymo sluoksnį

Elementų sluoksnis, kuriame yra prognozuotinas kintamasis ir laukai, kurie bus naudojami prognozėms generuoti.

Galite ne tik nurodyti sluoksnį iš žemėlapio, bet ir apačioje pasirinkti Pasirinkti analizės sluoksnį, kad galėtumėte turinyje ieškoti didelių duomenų rinkinio arba elemento sluoksnio.

Pasirinkite, kurio sluoksnio reikšmes prognozuoti

Elementų sluoksnis, reprezentuojantis padėtis, kuriose bus daromos prognozės. Šiame elementų sluoksnyje taip pat turi būti visi paiškinantys kintamieji, pateikti laukuose, kurie atitinka laukus, naudotus mokymo elementuose.

Pasirinkite prognozuotiną lauką

Mokymo elementų laukas, kuriame yra reikšmės, naudojamos apmokyti modelį. Šiame lauke yra žinomos (mokymo) kintamojo reikšmės, kurios bus naudojamos prognozuoti reikšmes nežinomose padėtyse. Jei reikšmės yra kategorinės (pavyzdžiui, klevas, pušis, ąžuolas), pažymėkite laukelį Kategorinis.

Pasirinkite vieną ar daugiau paaiškinančių kintamųjų

Vienas ar daugiau laukų, reprezentuojančių paaiškinančius kintamuosius (laukus), kurie padeda prognozuoti prognozuojamo kintamojo reikšmę arba kategoriją. Naudokite laukelį Kategorinis visiems kintamiesiems, kurie reprezentuoja klases arba kategorijas (pavyzdžiui, žemės danga, buvimas arba nebuvimas). Nurodykite kintamąjį kaip true (teisingai) visais atvejais, kai kintamasis reprezentuoja klases arba kategorijas, pavyzdžiui, žemės danga, buvimas arba nebuvimas, ir false (neteisingai), jei kintamasis yra ištisinis.

Medžių skaičius

Modelyje sukurtinų medžių skaičius. Paprastai daugiau medžių duoda tikslesnes modelio prognozes, tačiau skaičiavimai trunka ilgiau. Numatytasis medžių skaičius yra 100.

Mažiausias lapo dydis

Mažiausias stebėjimų skaičius, reikalingas, kad lapas būtų išlaikomas (lapas yra galutinis medžio mazgas, kuris toliau nebesišakoja). Numatytosios reikšmės yra 5 regresijai ir 1 klasifikacijai. Itin dideliems duomenims šių skaičių sumažinimas sutrumpina įrankio veikimo laiką.

Didžiausias medžio gylis

Didžiausias skaidymų kiekis, kiek galima padaryti medžio kamiene. Naudojant didelį gylį, bus sukuriama daugiau skaidymų, o tai padidina perteklinio modelio pritaikymo tikimybę. Numatytasis yra paremtas duomenimis ir priklauso nuo sukurtų medžių skaičiaus bei įtrauktų kintamųjų skaičiaus.

Medžiui prieinami duomenys (%)

Nurodo, kokia procentinė mokymo sluoksnio elementų dalis naudojama kiekvienam sprendimų medžiui. Numatytoji reikšmė yra 100% duomenų. Kiekvienam medžiui pavyzdžiai atsitiktinai paimami iš dviejų trečdalių nurodytų duomenų.

Kiekvienas medžių schemos sprendimų medis sukuriamas naudojant atsitiktinį pavyzdį arba poaibį (apytiksliai dvi trečiąsias) prieinamų mokymo duomenų. Mažesnės įvesties duomenų procentinės dalies naudojimas kiekvienam medžiui padidina įrankio spartą dirbant su itin dideliais duomenų rinkiniais.

Atsitiktinai paimtų kintamųjų skaičius

Nurodo, kiek paaiškinančių kintamųjų naudojama kiekvienam sprendimų medžiui sukurti.

Kiekvienas medžių schemos sprendimų medis sukuriamas naudojant atsitiktinį nurodytų paaiškinančių kintamųjų poaibį. Kiekvienam sprendimų medžiui naudojamų kintamųjų skaičiaus didinimas didina tikimybę, kad modelis bus perteklinai pritaikytas, ypač jei yra vienas ar du dominuojantys kintamieji. Dažna praktika yra naudoti kvadratinę šaknį iš visų paaiškinančių kintamųjų skaičiaus, jei prognozuojamas kintamasis yra skaitinis, arba padalinti visų paaiškinančių kintamųjų skaičių iš 3, jei prognozuojamas kintamasis kategorinis.

Pasirinkite, kaip sutapdinami paaiškinantieji laukai

Kaip atitinkami mokymo sluoksnio kintamieji sutapdinami su prognozavimo sluoksnio kintamaisiais. Lentelėn įtrauktos bus tik tos reikšmės, kurios naudotos apmokant modelį.

Vykdymų tikrinant skaičius

Nurodo procentinę dalį (nuo 0% iki 50%) mokymo sluoksnio kintamųjų, kuri rezervuojama kaip testinis duomenų rinkinys tikrinimui. Modelis apmokomas nenaudojant šio atsitiktinio duomenų poaibio, o šių elementų stebėtos reikšmės bus lyginamos su prognozuojamomis. Numatytoji reikšmė yra 10%.

Rezultatų sluoksnio pavadinimas

Tai sluoksnio, kuris bus sukurtas ir patalpintas Turinyje ir pridėtas į žemėlapį, pavadinimas. Numatytasis pavadinimas sukuriamas pagal įrankio ir įvesties sluoksnio pavadinimus. Jei toks sluoksnis jau egzistuoja, jūsų paprašys pateikti kitą pavadinimą.

Pateikiami rezultatai priklauso nuo analizės tipo. Jei apmokote vertinti modelio tinkamumą, rezultatas bus mokymo duomenų, pritaikytų modeliui, sluoksnis, ir rezultatų informacija, kuria vertinamas modelio tinkamumas. Jei apmokote ir prognozuojate, rezultatas bus mokymo duomenų, pritaikytų modeliui, sluoksnis, prognozuojamų rezultatų sluoksnis ir rezultatų informacija, kuria vertinamas modelio tinkamumas.

Naudodami išplečiamo meniu parinktį Rezultatą įrašyti į, galite nurodyti Turinyje esančio aplanko, kur bus įrašyti rezultatai, pavadinimą.