Rada modeļus un ģenerē prognozes, izmantojot Leo Breimana (Leo Breiman) nejaušā meža algoritma, kas ir uzraudzīta mašīnmācīšanās metode Prognozes var veikt gan kategorizētiem mainīgajiem (klasifikācija), gan nepārtrauktiem mainīgajiem (regresija). Paskaidrojoši mainīgie ir treniņu elementu atribūtu tabulas lauki. Rīku var palaist, lai ģenerētu modeli veiktspējas novērtēšanai vai ģenerētu modeli un prognozētu rezultātus citā datu kopā.
Norāda rīka darbības režīmu. Rīku var palaist, lai trenētu modeli, kas tikai novērtē veiktspēju, vai trenētu modeli un prognozētu īpašības. Prognožu veidi ir šādi:
Izmantojiet šo režīmu, ja vēlaties pielāgot modeli un izpētīt to.
Ar šo izvēli, modelis tiks trenēts, izmantojot ievades slāni. Izmantojiet šo opciju, lai novērtētu modeļa precizitāti pirms prognožu ģenerēšanas jaunā datu kopā. Šī opcija izvada modeļu diagnostiku ziņojumu logā un piemēro modeli treniņu datiem.
Izmantojiet šo režīmu, ja vēlaties pielāgot modeli, un lietojiet modeli datu kopai, lai ģenerētu prognozes.
Elementiem tiks ģenerētas prognozes vai klasifikācijas. Šīs opcijas izvade būs funkciju serviss, modeļu diagnostika un pēc izvēles- mainīgo tabula.
Elementu slānis, kas satur prognozējamo mainīgo un laukus, kas tiks izmantoti prognozes ģenerēšanai.
Papildus slāņa izvēlei kartē varat izvēlēties Izvēlēties analīzes slāni nolaižamā saraksta apakšā, lai saturā atrastu Big Data koplietojuma datu kopu vai elementu slāni.
Elementu slānis, kas attēlo vietas, kurās tiks veiktas prognozes. Šajā elementu slānī jābūt arī visiem skaidrojošajiem mainīgajiem, kas norādīti kā lauki, kuri atbilst tiem, kas izmantoti no treniņu elementiem.
Papildus slāņa izvēlei kartē varat izvēlēties Izvēlēties analīzes slāni nolaižamā saraksta apakšā, lai saturā atrastu Big Data koplietojuma datu kopu vai elementu slāni.
Laukums no treniņu elementiem, kas satur modeļa treniņam izmantojamās vērtības. Šajā laukā norādītas zināmās (treniņu) mainīgā vērtības, kas tiks izmantotas, lai prognozētu nezināmās vietās. Ja vērtības ir kategorizētas (piemēram, kļava, priede, ozols), atzīmējiet izvēles rūtiņu Kategorizēts .
Viens vai vairāki lauki, kas atspoguļo skaidrojošos mainīgos (laukus), kas palīdz prognozēt prognozējamā mainīgā vērtību vai kategoriju. Izmantojiet kategoriju izvēles rūtiņu visiem mainīgajiem, kas pārstāv klases vai kategorijas (piemēram, zemsedzes esamība vai trūkums). Norādiet mainīgo kā patiesu jebkam, kas pārstāv klases vai kategorijas, piemēram, zemsedzei vai klātbūtnei, vai neesamībai, un aplamu, ja mainīgais ir nepārtraukts.
Modelī izveidojamo koku skaits. Vairāk koku kopumā radīs precīzāku modeļa prognozi, bet modelim būs vajadzīgs ilgāks laiks, lai to aprēķinātu. Noklusējuma koku skaits ir 100.
Minimālais novērojumu skaits, kas nepieciešams, lai saglabātu lapu (lapa ir galējais punkts kokā, kam neseko atzarojumi). Regresijas noklusējuma minimums ir 5, un klasifikācijas noklusējuma vērtība ir 1. Ļoti liela apjoma datiem, palielinot šos skaitļus, tiks samazināts rīka izpildes laiks.
Maksimālais dalījumu skaits, kas tiks veikta kokā. Izmantojot lielu maksimālo dziļumu, tiks radīta lielāka plaisa, kas var palielināt modeļa pārmontēšanas izredzes. Noklusējuma iestatījums ir saistīts ar datiem, un tas ir atkarīgs no izveidoto koku skaita un iekļauto mainīgo skaita.
Norāda katram ieplānotajam kokam izmantoto trenēšanās slāņa elementu procentuālo vērtību. Noklusējums ir 100 procenti datu. Paraugus katram kokam ņem pēc nejaušības principa no divām trešdaļām norādīto datu.
Katru ieplānoto koku mežā veido, izmantojot nejaušu paraugu vai apakškopu (aptuveni divas trešdaļas) no pieejamajiem treniņu datiem. Ja katram ieplānotajam kokam tiek izmantots mazāks ievades datu procentuālais daudzums, tiek palielināts rīka ātrums ļoti liela apjoma datu kopām.
Norāda paskaidrojošo mainīgo skaitu, kas tiek izmantots, lai izveidotu katru ieplānoto koku.
Katrs no ieplānotajiem kokiem mežā tiek veidots, izmantojot norādīto paskaidrojošo mainīgo lielumu nejaušo apakškopu. Katrā ieplānotajā kokā izmantoto mainīgo skaita palielināšana palielinās iespēju pārmontēt jūsu modeli, īpaši, ja ir viens vai vairāki dominējošie mainīgie. Vispārpieņemta prakse ir izmantot paskaidrojošo mainīgo kopskaita kvadrātsakni, ja prognozējamais mainīgais ir skaitlisks, vai sadalīt paskaidrojošo mainīgo kopskaitu ar 3, ja prognozējamais mainīgais ir kategorisks.
Kā atbilstošie mainīgie treniņu slānī atbildīs mainīgajiem prognozes slānī. Tabulā tiks iekļauti tikai trenēšanā izmantotie mainīgie.
Norāda mācību slāņa elementu procentuālo daļu (no 0 līdz 50 procentiem), ko rezervēt kā pārbaudes datu kopu validācijai. Modelis tiks trenēts bez šīs nejaušo datu apakškopas, un novērotās šo elementu vērtības tiks salīdzinātas ar prognozēto vērtību. Noklusējums ir 10 procenti.
Tas ir slāņa nosaukums, kas tiks izveidots lapā Mans saturs un pievienots kartei. Noklusējuma nosaukums ir balstīts uz rīka nosaukumu un ievades slāņa nosaukumu. Ja slānis jau pastāv, jums tiks lūgts norādīt citu nosaukumu.
Atgrieztie rezultāti būs atkarīgi no analīzes veida. Ja trenējat, lai novērtētu modeļa piemērotību, rezultāti ietvers modelim piemērotu treniņu datu slāni un rezultātu informāciju, kas novērtē modeļa piemērotību. Ja trenējat un prognozējat, rezultāti ietvers modelim piemērotu treniņu datu slāni, prognozēto rezultātu slāni un rezultātu informāciju, kas novērtē modeļa piemērotību.
Lietojot iespēju Saglabāt rezultātu nolaižamajā sarakstlodziņā, jūs varat norādīt mapes nosaukumu sadaļā Mans saturs, kur tiks saglabāts rezultāts.