Δημιουργεί μοντέλα και παράγει προβλέψεις χρησιμοποιώντας μια προσαρμογή του τυχαίου αλγορίθμου δασών του Leo Breiman, μια εποπτευόμενη μέθοδο μάθησης μηχανών. Μπορούν να εκτελεστούν προβλέψεις τόσο για κατηγορικές μεταβλητές (ταξινόμηση) όσο και για συνεχείς μεταβλητές (παλινδρόμηση). Οι επεξηγηματικές μεταβλητές είναι πεδία στον πίνακα γνωρισμάτων των στοιχείων εκπαίδευσης. Το εργαλείο μπορεί να εκτελεστεί για τη δημιουργία ενός μοντέλου αξιολόγησης επιδόσεων ή για τη δημιουργία ενός μοντέλου και την πρόβλεψη αποτελεσμάτων σε άλλα σύνολα δεδομένων.
Καθορίζει τον τρόπο λειτουργίας του εργαλείου. Το εργαλείο μπορεί να εκτελεστεί για την εκπαίδευση ενός μοντέλου μόνο για την αξιολόγηση επιδόσεων ή για την εκπαίδευση ενός μοντέλου και την πρόβλεψη σε στοιχεία. Οι τύποι πρόβλεψης είναι οι εξής:
Χρησιμοποιήστε τη λειτουργία αυτή αν θέλετε να προσαρμόσετε ένα μοντέλο και να διερευνήσετε την προσαρμογή του.
Με την επιλογή αυτή το μοντέλο θα εκπαιδευτεί μέσω ενός θεματικού επιπέδου εισόδου. Χρησιμοποιήστε την επιλογή αυτή για να αξιολογήσετε την ακρίβεια του μοντέλου σας προτού δημιουργήσει προβλέψεις για ένα νέο σύνολο δεδομένων. Η επιλογή αυτή θα σας δώσει διαγνωστικά για το μοντέλο στο παράθυρο των μηνυμάτων και θα εφαρμόσει το μοντέλο στα δεδομένα σας για την εκπαίδευση.
Χρησιμοποιήστε τη λειτουργία αυτή αν θέλετε να προσαρμόσετε ένα μοντέλο και να το εφαρμόσετε στο σύνολο δεδομένων για δημιουργία προβλέψεων.
Θα δημιουργούνται προβλέψεις ή ταξινομήσεις για στοιχεία. Το αποτέλεσμα της επιλογής αυτής θα είναι ένα feature service, διαγνωστικά για το μοντέλο και ένας προαιρετικός πίνακας με τη σημασία των μεταβλητών.
Το feature layer που περιέχει τη μεταβλητή προς πρόβλεψη και τα πεδία που θα χρησιμοποιηθούν για τη δημιουργία της πρόβλεψης.
Εκτός από την επιλογή ενός θεματικού επιπέδου από το χάρτη σας, μπορείτε επίσης να χρησιμοποιήσετε την Επιλογή θεματικού επιπέδου ανάλυσης στο κάτω μέρος της αναπτυσσόμενης λίστας για περιήγηση στο περιεχόμενό σας και αναζήτηση ενός κοινόχρηστου συνόλου δεδομένων αρχείων big data ή ενός feature layer.
Ένα feature layer που αναπαριστά τοποθεσίες όπου θα γίνονται προβλέψεις. Αυτό το feature layer πρέπει επίσης να περιέχει όσες επεξηγηματικές μεταβλητές παρέχονται ως πεδία που αντιστοιχούν σε εκείνα που χρησιμοποιούνται από τα στοιχεία εκπαίδευσης.
Εκτός από την επιλογή ενός θεματικού επιπέδου από το χάρτη σας, μπορείτε επίσης να χρησιμοποιήσετε την Επιλογή θεματικού επιπέδου ανάλυσης στο κάτω μέρος της αναπτυσσόμενης λίστας για περιήγηση στο περιεχόμενό σας και αναζήτηση ενός κοινόχρηστου συνόλου δεδομένων αρχείων big data ή ενός feature layer.
Το πεδίο από τα στοιχεία εκπαίδευσης το οποίο περιέχει τις τιμές που θα χρησιμοποιηθούν για την εκπαίδευση του μοντέλου. Το πεδίο αυτό περιέχει γνωστές τιμές (εκπαίδευσης) της μεταβλητής που θα χρησιμοποιηθεί για τις προβλέψεις σε άγνωστες τοποθεσίες. Αν οι τιμές είναι κατηγορικές (π.χ. Σφένδαμος, Πεύκο, Δρυς), επιλέξτε το πλαίσιο ελέγχου Κατηγορικές.
Ένα ή περισσότερα πεδία που αναπαριστούν τις επεξηγηματικές μεταβλητές (τα πεδία) οι οποίες βοηθούν στην πρόβλεψη της τιμής ή της κατηγορίας της μεταβλητής προς πρόβλεψη. Χρησιμοποιήστε το πλαίσιο ελέγχου «Κατηγορικές» για όσες μεταβλητές αναπαριστούν κλάσεις ή κατηγορίες (π.χ. κάλυψη του εδάφους ή παρουσία ή απουσία). Καθορίστε τη μεταβλητή ως αληθή αν αναπαριστά κλάσεις ή κατηγορίες, π.χ. κάλυψη του εδάφους ή παρουσία ή απουσία, και ως ψευδή αν είναι συνεχής μεταβλητή.
Ο αριθμός των δένδρων που θα δημιουργηθούν στο μοντέλο. Όσο περισσότερα δένδρα υπάρχουν τόσο πιο ακριβής θα είναι η πρόβλεψη του μοντέλου, αλλά ο υπολογισμός θα διαρκεί περισσότερη ώρα. Ο προεπιλεγμένος αριθμός δένδρων είναι 100.
Ο ελάχιστος αριθμός παρατηρήσεων που απαιτούνται για τη διατήρηση ενός φύλλου (που είναι ο τερματικός κόμβος σε ένα δένδρο χωρίς περαιτέρω διαχωρισμούς). Η προεπιλεγμένη ελάχιστη τιμή για παλινδρόμηση είναι το 5 και η αντίστοιχη προεπιλεγμένη τιμή για ταξινόμηση είναι το 1. Αν ο όγκος των δεδομένων είναι πολύ μεγάλος, όσο αυξάνονται οι αριθμοί αυτοί τόσο θα μειώνεται ο χρόνος εκτέλεσης του εργαλείου.
Ο ανώτατος αριθμός διαχωρισμών που θα γίνεται όσον αφορά ένα δένδρο. Αν χρησιμοποιήσετε μεγάλο μέγιστο βάθος, θα δημιουργηθούν περισσότεροι διαχωρισμοί όποτε ενδέχεται να αυξηθούν οι πιθανότητες υπερβολικής προσαρμογής του μοντέλου. Η προεπιλεγμένη ρύθμιση βασίζεται στα δεδομένα και εξαρτάται από τον αριθμό των δένδρων που έχουν δημιουργηθεί και από τον αριθμό των μεταβλητών που έχουν συμπεριληφθεί.
Καθορίζει το ποσοστό των στοιχείων στο θεματικό επίπεδο εκπαίδευσης το οποίο χρησιμοποιείται για κάθε δέντρο αποφάσεων. Η προεπιλεγμένη τιμή είναι το 100% των δεδομένων. Για κάθε δένδρο λαμβάνονται τυχαία δείγματα από τα δύο τρίτα των δεδομένων που έχουν καθοριστεί.
Κάθε δένδρο αποφάσεων στο δάσος δημιουργείται με τη χρήση ενός τυχαίου δείγματος ή υποσυνόλου (των δύο τρίτων, κατά προσέγγιση) των διαθέσιμων δεδομένων εκπαίδευσης. Αν χρησιμοποιήσετε χαμηλότερο ποσοστό των δεδομένων εισόδου για κάθε δένδρο αποφάσεων, αυξάνεται η ταχύτητα του εργαλείου για πολύ μεγάλα σύνολα δεδομένων.
Καθορίζει τον αριθμό των επεξηγηματικών μεταβλητών που χρησιμοποιούνται για τη δημιουργία κάθε δένδρου αποφάσεων.
Καθένα από τα δένδρα αποφάσεων στο δάσος δημιουργείται με τη χρήση ενός τυχαίου υποσυνόλου των επεξηγηματικών μεταβλητών που έχουν καθοριστεί. Αν αυξήσετε τον αριθμό των μεταβλητών που χρησιμοποιούνται σε κάθε δένδρο αποφάσεων, θα αυξηθούν οι πιθανότητες υπερβολικής προσαρμογής του μοντέλου σας και ιδίως αν υπάρχουν μία ή δύο κυρίαρχες μεταβλητές. Μια συνήθης πρακτική είναι η χρήση της τετραγωνικής ρίζας των επεξηγηματικών μεταβλητών αν η προς πρόβλεψη μεταβλητή σας είναι αριθμική ή η διαίρεση του συνολικού αριθμού των επεξηγηματικών μεταβλητών με το 3 αν η προς πρόβλεψη μεταβλητή είναι κατηγορική.
Ο τρόπος αντιστοίχισης των μεταβλητών στο θεματικό επίπεδο εκπαίδευσης με τις μεταβλητές στο θεματικό επίπεδο πρόβλεψης. Στον πίνακα θα συμπεριληφθούν μόνο οι μεταβλητές που χρησιμοποιούνται κατά την εκπαίδευση.
Καθορίζει το ποσοστό (μεταξύ 0% και 50%) των στοιχείων στο θεματικό επίπεδο εκπαίδευσης τα οποία θα διατηρούνται ως το σύνολο δεδομένων προς δοκιμή για επικύρωση. Το μοντέλο θα εκπαιδευθεί χωρίς αυτό το τυχαίο υποσύνολο δεδομένων και οι παρατηρημένες τιμές για τα στοιχεία αυτά θα συγκριθούν με την προβλεπόμενη τιμή. Η προεπιλεγμένη τιμή είναι 10%.
Αυτό είναι το όνομα του θεματικού επιπέδου που θα δημιουργηθεί στην ενότητα Περιεχόμενο και θα προστεθεί στο χάρτη. Το προεπιλεγμένο όνομα βασίζεται στο όνομα του εργαλείου και στο όνομα του θεματικού επιπέδου εισόδου. Αν το θεματικό επίπεδο υπάρχει ήδη, θα σας ζητηθεί να δώσετε άλλο όνομα.
Τα αποτελέσματα που θα επιστραφούν θα εξαρτηθούν από τον τύπο ανάλυσης. Αν πραγματοποιείτε εκπαίδευση με στόχο την αξιολόγηση της προσαρμογής του μοντέλου, τα αποτελέσματα θα περιέχουν ένα θεματικό επίπεδο προσαρμογής των δεδομένων εκπαίδευσης στο μοντέλο και πληροφορίες για τα αποτελέσματα της αξιολόγησης της προσαρμογής του μοντέλου. Αν πραγματοποιείτε εκπαίδευση και πρόβλεψη, τα αποτελέσματα θα περιέχουν ένα θεματικό επίπεδο προσαρμογής των δεδομένων εκπαίδευσης στο μοντέλο, ένα θεματικό επίπεδο προβλεπόμενων αποτελεσμάτων και πληροφορίες για τα αποτελέσματα της αξιολόγησης της προσαρμογής του μοντέλου.
Χρησιμοποιώντας το πτυσσόμενο πλαίσιο Αποθήκευση αποτελέσματος σε, μπορείτε να καθορίσετε το όνομα ενός φακέλου στην ενότητα Το περιεχόμενό μου όπου θα αποθηκευτεί το αποτέλεσμα.