Erdő alapú osztályozás és regresszió

Erdő alapú osztályozás és regresszió munkafolyamatának diagramja


Modelleket hoz létre, és előrejelzéseket generál Leo Breiman véletlen erdő algoritmusának adaptációját alkalmazva, amely egy felügyelt gépi tanulási módszer. Előrejelzéseket lehet generálni kategorikus változókra (osztályozás) és folyamatos változókra (regresszió). A magyarázó változók a tanítási vektoros elemek attribútumtáblájában található mezők. Az eszköz futtatásával vagy teljesítményértékelési modell generálható, vagy egy olyan modell amellyel előrejelezhetők eredmények egy másik adathalmazra.

Elemzés típusa


Meghatározza az eszköz működési módját. Az eszköz futtatásával egy modellnek megtanítható, hogy csak teljesítményt értékeljen, vagy tanítással létrehozható egy modell vektoros elemek előrejelzésére. Az előrejelzéstípusok a következők:

  • Modell tanítása modellteljesítmény értékelésére—Modell tanítása, majd a bemeneti adatokhoz illesztése. Ezzel az opcióval értékelheti modellje pontosságát, mielőtt előrejelzéseket generálna új adathalmazra. Az opció kimenete: az illesztett tanítási adatok vektoros szolgáltatása, modelldiagnosztika és opcionálisan a változók jelentőségének táblája.
  • Modell tanítása és értékek előrejelzése— Előrejelzéset vagy osztályozásokat generál vektoros elemekre. Magyarázó változókat meg kell adni mind a tanítási vektoros elemekhez, mind az előrejelzendő vektoros elemekhez. Az opció kimenete: az előrejelzett értékek vektoros szolgáltatása, modelldiagnosztika és opcionálisan a változók jelentőségének táblája.

Modell tanítása modellteljesítmény értékelésére


Alkalmazza ezt az opciót, ha illeszteni akar egy modellt, majd meg akarja vizsgálni az illesztést.

Ezzel a modellel végezhető a tanítás bemeneti réteg alkalmazásával. Ezzel az opcióval értékelheti modellje pontosságát, mielőtt előrejelzéseket generálna új adathalmazra. Az opció kimenete: modelldiagnosztika az üzenetek ablakban és a modell alkalmazása a tanítási adatokra.

Modell tanítása és értékek előrejelzése


Alkalmazza ezt az opciót, ha illeszteni akar egy modellt, majd alkalmazni akarja a modellt az adathalmazra előrejelzések létrehozása érdekében.

A program ekkor előrejelzéset vagy osztályozásokat generál vektoros elemekre. Az opció kimenete: vektoros szolgáltatás, modelldiagnosztika és opcionálisan a változók jelentőségének táblája.

Tanítási réteg kiválasztása


Az a vektoros réteg, amely tartalmazza az előrejelzendő változót és az előrejelzés létrehozásához alkalmazandó mezőket.

Ahelyett, hogy egy réteget választ a térképéről, választhatja a legördülő lista alján lévő Eredményréteg kiválasztása lehetőséget is, ha a saját tartalomban szeretne big data-fájlmegosztó adathalmazt vagy vektoros réteget keresni.

Válasszon egy réteget, amelyre előre akar jelezni értékeket


Vektoros réteg, amely meghatározza azokat a helyeket, ahol az előrejelzések történni fognak. A vektoros rétegnek tartalmaznia kell azokat a mezőként megadott magyarázó változókat is, amelyek megfelelnek a tanítási vektoros elemekből alkalmazott mezőknek.

Ahelyett, hogy egy réteget választ a térképéről, választhatja a legördülő lista alján lévő Eredményréteg kiválasztása lehetőséget is, ha a saját tartalomban szeretne big data-fájlmegosztó adathalmazt vagy vektoros réteget keresni.

Válassza ki az előrejelzendő mezőt


Az a mező a tanítási vektoros elemekből, amely a modell tanítására használandó értékeket tartalmazza. Ez a mező ismert (tanítási) értékeket tartalmaz arra a változóra, amelyet az ismeretlen helyeken történő előrejelzésére fognak használni. Ha kategorikus értékekről (pl. juhar, fenyő, tölgy) van szó, jelölje ki a Kategorikus jelölőnégyzetet.

Válasszon ki egy vagy több magyarázó változót


Azoknak a magyarázó változóknak (mezők) megfelelő egy vagy több mező, amely magyarázó változók segítenek előrejelezni az előrejelzendő változó értékét vagy kategóriáját. Jelölje ki a Kategorikus jelölőnégyzetet olyan változók esetén, amelyek osztályokat vagy kategóriákat (pl. felszínborítás vagy jelenlét vagy távollét) reprezentálnak. A változót adja meg „igaz”-nak olyan változók esetén, amelyek osztályokat vagy kategóriákat (pl. felszínborítás vagy jelenlét vagy távollét) reprezentálnak, és „hamis”-nak a folyamatos változók esetén.

Fastruktúrák száma


A modellben létrehozandó fastruktúrák száma. Ha több fastruktúra van, annak eredményeképpen általában pontosabb lesz a modell-előrejelzés, de több időre lesz szükség az előrejelzéshez. Fastruktúrák alapértelmezett száma: 100.

Minimális levélméret


Egy levél (végső csomópont a fastruktúrán, további felosztás nem lehetséges) megtartásához szükséges megfigyelések minimális száma. Alapértelmezett minimum regresszió esetén: 5. Alapértelmezett minimum osztályozás esetén: 1. Nagyon nagy adatok esetén ezen számok növelése csökkenteni fogja az eszköz futásidejét.

Fastruktúra maximális mélysége


A fastruktúrán lefelé található felosztások maximális száma. Ha a maximális mélység nagy, azaz több felosztást hoznak létre, az növeli a modell túlillesztésének valószínűségét. Az alapértelmezett érték adatfüggő, és a létrehozott fastrukturák számától, ill. a tartalmazott változók számától függ.

Fastruktúránként elérhető adatok (%)


A döntéshozatali fastrukturákra alkalmazott tanítási rétegben található vektoros elemek százalékos arányát határozza meg. Alapértelmezett érték: az adatok 100%-a. Minden fastruktúrára véletlen mintavétel történik a megadott adatok kétharmadából.

Az erdőben található döntéshozatali fastrukturák létrehozása véletlen minta vagy részcsoport (az elérhető tanítási adatok kb. kétharmada) alkalmazásával történik. Ha a bemeneti adatok százalékos arányát a döntéshozatali fastrukturákra nézve csökkentik, akkor nagyon nagy adathalmazok esetén nő az eszköz gyorsasága.

Véletlen mintavételben részt vevő változók száma


A döntéshozatali fastrukturák létrehozásához alkalmazott magyarázó változók számát határozza meg.

Az erdőben található döntéshozatali fastrukturák létrehozása a megadott magyarázó változók véletlen részcsoportjának alkalmazásával történik. A döntéshozatali fastrukturák létrehozásához alkalmazott változók számának növelésével nőni fog a modell túlillesztésének valószínűsége, különösen akkor, ha van egy vagy néhány domináns változó. Az általános gyakorlat az, hogy numerikus előrejelzendő változó esetén a magyarázó változók teljes számának négyzetgyökét, kategorikus előrejelzendő változó esetén pedig a magyarázó változók teljes számának harmadát alkalmazzák.

Magyarázó változók párosítási módjának kiválasztása


Hogyan lesznek párosítva a tanítási réteg megfelelő változói az előrejelzési réteg változóival. A táblában csak a tanításhoz használt változók fognak szerepelni.

Érvényesítési futtatások száma


Meghatározza a tanítási réteg vektoros elemeinek azon százalékát (0% és 50% között), amely az érvényesítési teszt-adathalmazt képezi. A modell tanítása e nélkül a véletlen adat-részcsoport nélkül történik, és a program az ezekre a vektoros elemekre megfigyelt értékeket összehasonlítja az előrejelzett értékkel. Az alapértelmezett érték 10%.

Eredményréteg neve


A Saját tartalom alatt létrejövő és a térképhez hozzáadott réteg neve. Az alapértelmezett név az eszköz nevétől és a bemenő réteg nevétől függ. Ha a réteg már létezik, akkor az alkalmazás megkéri, hogy adjon meg egy másik nevet.

A kapott eredmények az elemzés típusától függenek. Ha a modellillesztés értékelését tanítja, akkor az eredmények tartalmazni fogják a tanítási adatok rétegét és a modellillesztést értékelő eredményinformációkat. Ha tanít és előrejelez, akkor az eredmények tartalmazni fogják a tanítási adatok rétegét, az előrejelzett eredmények rétegét és a modellillesztést értékelő eredményinformációkat.

Az Eredmény mentési helye legördülő mezőben megadhatja a Saját tartalom mappájának nevét, ahová az eszköz menti az eredményt.