Membuat model dan menghasilkan prediksi menggunakan adaptasi algoritme hutan acak Leo Breiman, yang mana merupakan metode pembelajaran mesin yang diawasi. Prediksi dapat dilakukan untuk kedua variabel kategoris (klasifikasi) dan variabel kontinu (regresi). Variabel penjelas adalah kolom dalam tabel atribut fitur-fitur latihan. Alat tersebut dapat dijalankan untuk menghasilkan sebuah model untuk menilai kinerja, atau menghasilkan sebuah model dan memprediksikan hasilnya ke set data lain.
Menentukan mode pengoperasian alat. Alat dapat dijalankan untuk melatih model hanya untuk menilai kinerja, atau melatih sebuah model dan memprediksikan ke fitur. Jenis prediksi adalah sebagai berikut:
Gunakan mode ini jika Anda ingin mencocokkan sebuah model, lalu selidiki kecocokannya.
Dengan pilihan ini, model akan dilatih menggunakan layer input. Gunakan opsi ini untuk menilai akurasi model Anda sebelum membuat prediksi mengenai set data baru. Opsi ini akan membuat output diagnostik model dalam jendela pesan dan menerapkan model ke data latihan Anda.
Gunakan mode ini jika Anda ingin mencocokkan sebuah model, dan menerapkan model tersebut ke set data untuk membuat prediksi.
Prediksi atau klasifikasi akan dibuat untuk fitur. Output opsi ini akan menjadi feature service, diagnostik model, dan tabel opsional tingkat kepentingan variabel.
Feature layer berisi variabel untuk memprediksikan dan kolom yang akan digunakan untuk membuat prediksi.
Selain memilih layer dari peta, Anda dapat memilih Pilih Layer Analisis di bawah daftar drop-down untuk menelusuri konten Anda untuk set data atau feature layer berbagi file big data.
Sebuah feature layer mewakili lokasi tempat prediksi akan dilakukan. Feature layer ini harus juga berisi variabel penjelas yang diberikan sebagai kolom terkait dengan yang digunakan dari fitur latihan.
Selain memilih layer dari peta, Anda dapat memilih Pilih Layer Analisis di bawah daftar drop-down untuk menelusuri konten Anda untuk set data atau feature layer berbagi file big data.
Kolom dari fitur latihan berisi nilai-nilai yang akan digunakan untuk melatih model. Kolom ini berisi nilai-nilai yang diketahui (latihan) dari variabel yang akan digunakan untuk memprediksikan lokasi-lokasi yang tidak diketahui. Jika nilai bersifat kategoris (contohnya, Maple, Pinus, Ek) pilih kotak centang Kategoris.
Satu kolom atau lebih mewakili variabel penjelas (kolom) yang membantu memprediksikan nilai atau kategori variabel yang akan diprediksikan. Gunakan kotak centang kategoris untuk variabel apa pun yang mewakili kelas atau kategori (seperti tutupan lahan atau kehadiran atau ketidakhadiran). Tentukan variabel sebagai benar untuk apa pun yang mewakili kelas atau kategori seperti tutupan lahan atau kehadiran atau ketidakhadiran, dan salah jika variabel kontinu.
Jumlah pohon yang akan dibuat dalam model. Lebih banyak pohon biasanya akan menghasilkan prediksi model yang lebih akurat, tapi model tersebut akan makan waktu yang lebih lama untuk dihitung. Jumlah pohon default adalah 100.
Jumlah pengamatan minimal yang diperlukan untuk menjaga daun (yaitu node terminal pada sebuah pohon tanpa pemisahan lebih lanjut). Minimal default untuk regresi adalah 5 dan default untuk klasifikasi adalah 1. Untuk data yang sangat besar, meningkatkan angka ini akan mengurangi waktu operasi alat.
Jumlah maksimal pemisahan yang akan dijadikan pengaturan peletakan pohon. Dengan menggunakan kedalaman maksimal, lebih banyak pemisahan akan dibuat, yang mana akan meningkatkan peluang overfitting model. Default diperoleh dari data dan tergantung pada jumlah pohon yang dibuat serta jumlah variabel yang disertakan.
Menentukan persentase fitur dalam layer latihan yang digunakan untuk setiap pohon keputusan. Default adalah 100 persen dari data. Sampel untuk setiap pohon akan diambil secara acak dari dua pertiga data yang ditentukan.
Setiap pohon keputusan dalam hutan dibuat menggunakan sampel acak atau subset (sekitar dua pertiga) dari data latihan yang tersedia. Menggunakan persentase lebih rendah dari data input untuk setiap pohon keputusan meningkatkan kecepatan alat untuk set data yang sangat besar.
Menentukan jumlah variabel penjelas yang digunakan untuk membuat setiap pohon keputusan.
Setiap pohon keputusan di hutan dibuat menggunakan subset acak dari variabel penjelas yang ditentukan. Meningkatnya jumlah variabel yang digunakan di setiap pohon keputusan akan meningkatkan peluang overfitting model Anda secara khusus jika ada satu atau beberapa variabel dominan. Praktik umumnya adalah menggunakan akar kuadrat dari total jumlah variabel penjelas jika variabel yang akan Anda prediksikan adalah numerik atau bagi jumlah total variabel penjelas dengan 3 jika variabel yang akan diprediksikan bersifat kategoris.
Bagaimana variabel terkait dalam layer pelatihan akan cocok dengan variabel dalam layer prediksi. Hanya variabel yang digunakan dalam pelatihan yang akan disertakan dalam tabel.
Menentukan persentase (antara 0 persen dan 50 persen) fitur-fitur dalam layer latihan untuk dicadangkan sebagai set data uji untuk validasi. Model akan dilatih tanpa subset data acak ini, dan nilai fitur-fitur yang diamati itu akan dibandingkan dengan nilai yang diprediksikan. Default adalah 10 persen.
Ini adalah nama layer yang akan dibuat di Konten Saya dan ditambahkan ke peta. Nama default ditetapkan berdasarkan nama layer input. Jika layer tersebut sudah ada, Anda akan diminta untuk memberi nama lain.
Hasil yang dikembalikan akan tergantung pada jenis analisis. Jika Anda melatih untuk menilai kecocokan model, hasil akan berisi layer data latihan yang cocok dengan model dan info hasil penilaian kecocokan model. Jika Anda melatih dan memprediksi, hasil akan berisi layer data pelatihan yang cocok dengan model, layer hasil yang diprediksikan, dan info hasil penilaian kecocokan model.
Dengan menggunakan kotak drop-down Simpan hasil, Anda dapat menentukan nama folder di Konten Saya sebagai tempat penyimpanan hasil.