Sử dụng thuật toán rừng ngẫu nhiên của Leo Breiman, một phương pháp machine learning có giám sát để tạo ra các mô hình và thực hiện dự đoán. Có thể thực hiện các dự đoán cho cả biến phân loại (phân loại) và biến liên tục (hồi quy). Biến giải thích là các trường trong bảng thuộc tính của các đối tượng đào tạo. Có thể chạy công cụ này để tạo ra một mô hình nhằm đánh giá hiệu suất hoặc tạo một mô hình và dự đoán kết quả cho các bộ dữ liệu khác.
Xác định chế độ hoạt động của công cụ. Có thể chạy công cụ này để đào tạo một mô hình chỉ nhằm đánh giá hiệu suất hoặc đào tạo một mô hình và dự đoán các đối tượng. Các kiểu dự đoán gồm có:
Sử dụng chế độ này nếu bạn muốn làm trùng khớp một mô hình và kiểm tra sự phù hợp.
Khi chọn lựa chọn này, mô hình sẽ được đào tạo bằng cách sử dụng một lớp đầu vào. Sử dụng tùy chọn này để đánh giá độ chính xác của mô hình trước khi tạo dự đoán với bộ dữ liệu mới. Tùy chọn này sẽ cho ra kết quả là chẩn đoán mô hình trong cửa sổ thông báo và áp dụng mô hình cho dữ liệu đào tạo của bạn.
Sử dụng chế độ này nếu bạn muốn làm trùng khớp mô hình và áp dụng mô hình cho bộ dữ liệu để tạo ra các dự đoán.
Dự đoán hoặc phân loại sẽ được tạo cho các đối tượng. Kết quả đầu ra của tùy chọn này sẽ là một dịch vụ đối tượng, chẩn đoán mô hình và một bảng mức độ quan trọng của các biến tùy chọn.
Lớp đối tượng này chứa biến để dự đoán và các trường sẽ được sử dụng để tạo dự đoán.
Bên cạnh việc chọn một lớp dữ liệu từ bản đồ, bạn có thể chọn mục Chọn Lớp Phân tích ở dưới danh sách thả xuống để tìm đến nội dung của mình cho bộ dữ liệu chia sẻ tệp dữ liệu lớn hoặc lớp đối tượng.
Một lớp đối tượng đại diện cho các vị trí thực hiện dự đoán. Lớp đối tượng này cũng phải chứa mọi biến giải thích được cung cấp dưới dạng trường tương ứng với các biến được sử dụng từ các đối tượng đào tạo.
Bên cạnh việc chọn một lớp dữ liệu từ bản đồ, bạn có thể chọn mục Chọn Lớp Phân tích ở dưới danh sách thả xuống để tìm đến nội dung của mình cho bộ dữ liệu chia sẻ tệp dữ liệu lớn hoặc lớp đối tượng.
Trường từ các đối tượng đào tạo có chứa các giá trị sẽ được sử dụng để đào tạo mô hình. Trường này chứa các giá trị đã xác định (đào tạo) của biến sẽ được sử dụng để dự đoán tại các vị trí không xác định. Nếu các giá trị là phân loại (ví dụ: Phong, Thông, Sồi), hãy đánh dấu vào hộp chọn Categorical (Phân loại).
Một hoặc nhiều trường đại diện cho các biến giải thích (các trường) giúp dự đoán giá trị hoặc danh mục của biến cần dự đoán. Sử dụng hộp chọn phân loại cho bất kỳ biến nào đại diện cho các lớp hoặc danh mục (như lớp phủ đất hoặc hiện diện hoặc không hiện diện). Xác định biến là đúng cho bất kỳ biến nào đại diện cho lớp hoặc danh mục như lớp phủ đất hoặc hiện diện hoặc không hiện diện và sai nếu biến là liên tục.
Số lượng cây cần tạo trong mô hình. Nhiều cây hơn nhìn chung sẽ dẫn đến dự đoán mô hình chính xác hơn, nhưng mất nhiều thời gian hơn để mô hình tính toán. Số cây mặc định là 100.
Số lượng quan sát tối thiểu cần thiết để giữ một chiếc lá (tức là nút cuối trên cây mà không bị phân chia thêm). Số mặc định tối thiểu cho hồi quy là 5 và cho phân loại là 1. Đối với dữ liệu rất lớn, việc tăng số này sẽ làm giảm thời gian chạy của công cụ.
Số lượng phân chia tối đa sẽ được thực hiện ở một cây. Nhiều phần phân tách sẽ được tạo ra khi sử dụng độ sâu tối đa lớn, làm tăng cơ hội trùng khớp mô hình hơn. Mặc định là dữ liệu được định hướng và phụ thuộc vào số lượng cây được tạo và số lượng biến được đưa vào.
Xác định tỷ lệ của các đối tượng trong lớp đào tạo được sử dụng cho mỗi cây quyết định. Mặc định là 100 phần trăm của dữ liệu. Các mẫu cho mỗi cây được lấy ngẫu nhiên từ hai phần ba dữ liệu được chỉ định.
Mỗi cây quyết định trong rừng được tạo bởi một mẫu hoặc tập hợp con ngẫu nhiên (khoảng hai phần ba) của dữ liệu đào tạo sẵn có. Sử dụng tỷ lệ dữ liệu đầu vào thấp hơn cho mỗi cây quyết định sẽ tăng tốc độ của công cụ cho các bộ dữ liệu cực lớn.
Xác định số lượng các biến giải thích được sử dụng để tạo mỗi cây quyết định.
Mỗi cây quyết định trong rừng được tạo ra bằng một tập hợp con ngẫu nhiên của các biến giải thích được chỉ định. Việc tăng số lượng biến sử dụng trong mỗi cây quyết định sẽ làm tăng cơ hội trùng khớp mô hình hơn, đặc biệt nếu có một hoặc một vài biến chiếm ưu thế. Một thực tế phổ biến là sử dụng căn bậc hai của tổng số biến giải thích nếu biến cần dự đoán của bạn là số hoặc chia tổng số biến giải thích cho 3 nếu biến dự đoán là phân loại.
Các biến tương ứng trong lớp đào tạo sẽ khớp với các biến trong lớp dự đoán như thế nào. Chỉ các biến được sử dụng trong đào tạo mới được đưa vào bảng.
Xác định tỷ lệ (từ 0 phần trăm đến 50 phần trăm) của các đối tượng trong lớp đào tạo để dự trữ dưới dạng bộ dữ liệu thử nghiệm dùng cho xác thực. Mô hình sẽ được đào tạo mà không có tập hợp con dữ liệu ngẫu nhiên này và các giá trị quan sát được cho các đối tượng đó sẽ được so sánh với giá trị dự đoán. Giá trị mặc định là 10 phần trăm.
Đây là tên lớp sẽ được tạo trong mục Nội dung của Tôi và thêm vào bản đồ. Tên mặc định dựa vào tên công cụ và tên lớp đầu vào. Nếu lớp đã tồn tại, bạn sẽ được yêu cầu cung cấp tên mới.
Kết quả trả về sẽ phụ thuộc vào loại phân tích. Nếu bạn đang đào tạo để đánh giá sự phù hợp của mô hình, kết quả sẽ chứa một lớp dữ liệu đào tạo trùng khớp với mô hình và thông tin kết quả đánh giá sự phù hợp của mô hình. Nếu bạn đang đào tạo và dự đoán, kết quả sẽ chứa một lớp dữ liệu đào tạo trùng khớp với mô hình, một lớp kết quả dự đoán và thông tin kết quả đánh giá sự phù hợp của mô hình.
Sử dụng chức năng Lưu kết quả trong hộp xổ xuống, bạn có thể chỉ định tên thư mục trong mục Nội dung của Tôi nơi sẽ lưu trữ kết quả của bạn.