Uz mežu balstīta klasifikācija un regresija

Rada modeļus un ģenerē prognozes, izmantojot Leo Breimana (Leo Breiman) nejaušā meža algoritma, kas ir uzraudzīta mašīnmācīšanās metode Prognozes var veikt gan kategorizētiem mainīgajiem (klasifikācija), gan nepārtrauktiem mainīgajiem (regresija). Paskaidrojoši mainīgie ir treniņu elementu atribūtu tabulas lauki. Rīku var palaist, lai ģenerētu modeli veiktspējas novērtēšanai vai ģenerētu modeli un prognozētu rezultātus citā datu kopā.

Analīzes veids

Norāda rīka darbības režīmu. Rīku var palaist, lai trenētu modeli, kas tikai novērtē veiktspēju, vai trenētu modeli un prognozētu īpašības. Prognožu veidi ir šādi:

Trenēt modeli, lai novērtētu modeļa veiktspēju—modelis būs trenēts un piemērots ievaddatiem. Izmantojiet šo opciju, lai novērtētu modeļa precizitāti pirms prognožu ģenerēšanas jaunā datu kopā. Šīs opcijas izvade būs jūsu pielāgoto treniņu datu elementu serviss, modeļu diagnostika un pēc izvēles- mainīgo nozīmīguma tabula.
Trenējiet modeli un prognozējiet vērtības—ievades funkcijām un prognozes funkcijām tiks ģenerētas prasības vai klasifikācijas. Jāsniedz paskaidrojoši mainīgie lielumi gan treniņu elementiem, gan elementiem, kas jāprognozē. Šīs opcijas izvade būs prognozēto vērtību, modeļu diagnostikas un mainīgas nozīmes izvēles tabula.

Trenēt modeli, lai novērtētu modeļa veiktspēju

Izmantojiet šo režīmu, ja vēlaties pielāgot modeli un izpētīt to.

Ar šo izvēli, modelis tiks trenēts, izmantojot ievades slāni. Izmantojiet šo opciju, lai novērtētu modeļa precizitāti pirms prognožu ģenerēšanas jaunā datu kopā. Šī opcija izvada modeļu diagnostiku ziņojumu logā un piemēro modeli treniņu datiem.

Trenēt modeli un prognozēt vērtības

Izmantojiet šo režīmu, ja vēlaties pielāgot modeli, un lietojiet modeli datu kopai, lai ģenerētu prognozes.

Elementiem tiks ģenerētas prognozes vai klasifikācijas. Šīs opcijas izvade būs funkciju serviss, modeļu diagnostika un pēc izvēles- mainīgo tabula.

Izvēlēties treniņu slāni

Elementu slānis, kas satur prognozējamo mainīgo un laukus, kas tiks izmantoti prognozes ģenerēšanai.

Papildus slāņa izvēlei kartē varat izvēlēties Izvēlēties analīzes slāni nolaižamā saraksta apakšā, lai saturā atrastu Big Data koplietojuma datu kopu vai elementu slāni.

Izvēlieties slāni, kam prognozēt vērtības

Elementu slānis, kas attēlo vietas, kurās tiks veiktas prognozes. Šajā elementu slānī jābūt arī visiem skaidrojošajiem mainīgajiem, kas norādīti kā lauki, kuri atbilst tiem, kas izmantoti no treniņu elementiem.

Papildus slāņa izvēlei kartē varat izvēlēties Izvēlēties analīzes slāni nolaižamā saraksta apakšā, lai saturā atrastu Big Data koplietojuma datu kopu vai elementu slāni.

Izvēlēties prognozējamo lauku

Laukums no treniņu elementiem, kas satur modeļa treniņam izmantojamās vērtības. Šajā laukā norādītas zināmās (treniņu) mainīgā vērtības, kas tiks izmantotas, lai prognozētu nezināmās vietās. Ja vērtības ir kategorizētas (piemēram, kļava, priede, ozols), atzīmējiet izvēles rūtiņu Kategorizēts .

Izvēlēties vienu vai vairākus skaidrojošos mainīgos

Viens vai vairāki lauki, kas atspoguļo skaidrojošos mainīgos (laukus), kas palīdz prognozēt prognozējamā mainīgā vērtību vai kategoriju. Izmantojiet kategoriju izvēles rūtiņu visiem mainīgajiem, kas pārstāv klases vai kategorijas (piemēram, zemsedzes esamība vai trūkums). Norādiet mainīgo kā patiesu jebkam, kas pārstāv klases vai kategorijas, piemēram, zemsedzei vai klātbūtnei, vai neesamībai, un aplamu, ja mainīgais ir nepārtraukts.

Koku skaits

Modelī izveidojamo koku skaits. Vairāk koku kopumā radīs precīzāku modeļa prognozi, bet modelim būs vajadzīgs ilgāks laiks, lai to aprēķinātu. Noklusējuma koku skaits ir 100.

Minimālais lapu izmērs

Minimālais novērojumu skaits, kas nepieciešams, lai saglabātu lapu (lapa ir galējais punkts kokā, kam neseko atzarojumi). Regresijas noklusējuma minimums ir 5, un klasifikācijas noklusējuma vērtība ir 1. Ļoti liela apjoma datiem, palielinot šos skaitļus, tiks samazināts rīka izpildes laiks.

Maksimālais koku dziļums

Maksimālais dalījumu skaits, kas tiks veikta kokā. Izmantojot lielu maksimālo dziļumu, tiks radīta lielāka plaisa, kas var palielināt modeļa pārmontēšanas izredzes. Noklusējuma iestatījums ir saistīts ar datiem, un tas ir atkarīgs no izveidoto koku skaita un iekļauto mainīgo skaita.

Dati, kas pieejami par vienu koku (%)

Norāda katram ieplānotajam kokam izmantoto trenēšanās slāņa elementu procentuālo vērtību. Noklusējums ir 100 procenti datu. Paraugus katram kokam ņem pēc nejaušības principa no divām trešdaļām norādīto datu.

Katru ieplānoto koku mežā veido, izmantojot nejaušu paraugu vai apakškopu (aptuveni divas trešdaļas) no pieejamajiem treniņu datiem. Ja katram ieplānotajam kokam tiek izmantots mazāks ievades datu procentuālais daudzums, tiek palielināts rīka ātrums ļoti liela apjoma datu kopām.

Izlases veidā atlasīto mainīgo lielumu skaits

Norāda paskaidrojošo mainīgo skaitu, kas tiek izmantots, lai izveidotu katru ieplānoto koku.

Katrs no ieplānotajiem kokiem mežā tiek veidots, izmantojot norādīto paskaidrojošo mainīgo lielumu nejaušo apakškopu. Katrā ieplānotajā kokā izmantoto mainīgo skaita palielināšana palielinās iespēju pārmontēt jūsu modeli, īpaši, ja ir viens vai vairāki dominējošie mainīgie. Vispārpieņemta prakse ir izmantot paskaidrojošo mainīgo kopskaita kvadrātsakni, ja prognozējamais mainīgais ir skaitlisks, vai sadalīt paskaidrojošo mainīgo kopskaitu ar 3, ja prognozējamais mainīgais ir kategorisks.

Izvēlēties skaidrojošo lauku atbilstību

Kā atbilstošie mainīgie treniņu slānī atbildīs mainīgajiem prognozes slānī. Tabulā tiks iekļauti tikai trenēšanā izmantotie mainīgie.

Validācijas izpildes reižu skaits

Norāda mācību slāņa elementu procentuālo daļu (no 0 līdz 50 procentiem), ko rezervēt kā pārbaudes datu kopu validācijai. Modelis tiks trenēts bez šīs nejaušo datu apakškopas, un novērotās šo elementu vērtības tiks salīdzinātas ar prognozēto vērtību. Noklusējums ir 10 procenti.

Rezultātu slāņa nosaukums

Tas ir slāņa nosaukums, kas tiks izveidots lapā Mans saturs un pievienots kartei. Noklusējuma nosaukums ir balstīts uz rīka nosaukumu un ievades slāņa nosaukumu. Ja slānis jau pastāv, jums tiks lūgts norādīt citu nosaukumu.

Atgrieztie rezultāti būs atkarīgi no analīzes veida. Ja trenējat, lai novērtētu modeļa piemērotību, rezultāti ietvers modelim piemērotu treniņu datu slāni un rezultātu informāciju, kas novērtē modeļa piemērotību. Ja trenējat un prognozējat, rezultāti ietvers modelim piemērotu treniņu datu slāni, prognozēto rezultātu slāni un rezultātu informāciju, kas novērtē modeļa piemērotību.

Lietojot iespēju Saglabāt rezultātu nolaižamajā sarakstlodziņā, jūs varat norādīt mapes nosaukumu sadaļā Mans saturs, kur tiks saglabāts rezultāts.