Forest-Based Ταξινόμηση και Παλινδρόμηση

Διάγραμμα ροής εργασιών εργαλείου «]Forest-based Ταξινόμηση και Παλινδρόμηση»


Δημιουργεί μοντέλα και παράγει προβλέψεις χρησιμοποιώντας μια προσαρμογή του τυχαίου αλγορίθμου δασών του Leo Breiman, μια εποπτευόμενη μέθοδο μάθησης μηχανών. Μπορούν να εκτελεστούν προβλέψεις τόσο για κατηγορικές μεταβλητές (ταξινόμηση) όσο και για συνεχείς μεταβλητές (παλινδρόμηση). Οι επεξηγηματικές μεταβλητές είναι πεδία στον πίνακα γνωρισμάτων των στοιχείων εκπαίδευσης. Το εργαλείο μπορεί να εκτελεστεί για τη δημιουργία ενός μοντέλου αξιολόγησης επιδόσεων ή για τη δημιουργία ενός μοντέλου και την πρόβλεψη αποτελεσμάτων σε άλλα σύνολα δεδομένων.

Τύπος ανάλυσης


Καθορίζει τον τρόπο λειτουργίας του εργαλείου. Το εργαλείο μπορεί να εκτελεστεί για την εκπαίδευση ενός μοντέλου μόνο για την αξιολόγηση επιδόσεων ή για την εκπαίδευση ενός μοντέλου και την πρόβλεψη σε στοιχεία. Οι τύποι πρόβλεψης είναι οι εξής:

  • Εκπαίδευση ενός μοντέλου για την αξιολόγηση των επιδόσεών του—Ένα μοντέλο θα εκπαιδευτεί και θα προσαρμοστεί στα δεδομένα εισόδου. Χρησιμοποιήστε την επιλογή αυτή για να αξιολογήσετε την ακρίβεια του μοντέλου σας προτού δημιουργήσει προβλέψεις για ένα νέο σύνολο δεδομένων. Το αποτέλεσμα της επιλογής αυτής θα είναι ένα feature service των προσαρμοσμένων δεδομένων σας για την εκπαίδευση, διαγνωστικά για το μοντέλο και ένας προαιρετικός πίνακας με τη σημασία των μεταβλητών.
  • Εκπαίδευση ενός μοντέλου και πρόβλεψη τιμών—Θα δημιουργούνται προβλέψεις ή ταξινομήσεις για στοιχεία. Πρέπει να καταχωρίσετε επεξηγηματικές μεταβλητές τόσο για τα στοιχεία εκπαίδευσης όσο και για τα στοιχεία που θα προβλέπονται. Το αποτέλεσμα της επιλογής αυτής θα είναι ένα feature service των προβλεπόμενες τιμών σας, διαγνωστικά για το μοντέλο και ένας προαιρετικός πίνακας με τη σημασία των μεταβλητών.

Εκπαίδευση ενός μοντέλου για αξιολόγηση των επιδόσεών του


Χρησιμοποιήστε τη λειτουργία αυτή αν θέλετε να προσαρμόσετε ένα μοντέλο και να διερευνήσετε την προσαρμογή του.

Με την επιλογή αυτή το μοντέλο θα εκπαιδευτεί μέσω ενός θεματικού επιπέδου εισόδου. Χρησιμοποιήστε την επιλογή αυτή για να αξιολογήσετε την ακρίβεια του μοντέλου σας προτού δημιουργήσει προβλέψεις για ένα νέο σύνολο δεδομένων. Η επιλογή αυτή θα σας δώσει διαγνωστικά για το μοντέλο στο παράθυρο των μηνυμάτων και θα εφαρμόσει το μοντέλο στα δεδομένα σας για την εκπαίδευση.

Εκπαίδευση ενός μοντέλου και πρόβλεψη τιμών


Χρησιμοποιήστε τη λειτουργία αυτή αν θέλετε να προσαρμόσετε ένα μοντέλο και να το εφαρμόσετε στο σύνολο δεδομένων για δημιουργία προβλέψεων.

Θα δημιουργούνται προβλέψεις ή ταξινομήσεις για στοιχεία. Το αποτέλεσμα της επιλογής αυτής θα είναι ένα feature service, διαγνωστικά για το μοντέλο και ένας προαιρετικός πίνακας με τη σημασία των μεταβλητών.

Επιλογή θεματικού επιπέδου εκπαίδευσης


Το feature layer που περιέχει τη μεταβλητή προς πρόβλεψη και τα πεδία που θα χρησιμοποιηθούν για τη δημιουργία της πρόβλεψης.

Εκτός από την επιλογή ενός θεματικού επιπέδου από το χάρτη σας, μπορείτε επίσης να χρησιμοποιήσετε την Επιλογή θεματικού επιπέδου ανάλυσης στο κάτω μέρος της αναπτυσσόμενης λίστας για περιήγηση στο περιεχόμενό σας και αναζήτηση ενός κοινόχρηστου συνόλου δεδομένων αρχείων big data ή ενός feature layer.

Επιλογή ενός θεματικού επιπέδου για πρόβλεψη των τιμών του


Ένα feature layer που αναπαριστά τοποθεσίες όπου θα γίνονται προβλέψεις. Αυτό το feature layer πρέπει επίσης να περιέχει όσες επεξηγηματικές μεταβλητές παρέχονται ως πεδία που αντιστοιχούν σε εκείνα που χρησιμοποιούνται από τα στοιχεία εκπαίδευσης.

Εκτός από την επιλογή ενός θεματικού επιπέδου από το χάρτη σας, μπορείτε επίσης να χρησιμοποιήσετε την Επιλογή θεματικού επιπέδου ανάλυσης στο κάτω μέρος της αναπτυσσόμενης λίστας για περιήγηση στο περιεχόμενό σας και αναζήτηση ενός κοινόχρηστου συνόλου δεδομένων αρχείων big data ή ενός feature layer.

Επιλογή του πεδίου για πρόβλεψη


Το πεδίο από τα στοιχεία εκπαίδευσης το οποίο περιέχει τις τιμές που θα χρησιμοποιηθούν για την εκπαίδευση του μοντέλου. Το πεδίο αυτό περιέχει γνωστές τιμές (εκπαίδευσης) της μεταβλητής που θα χρησιμοποιηθεί για τις προβλέψεις σε άγνωστες τοποθεσίες. Αν οι τιμές είναι κατηγορικές (π.χ. Σφένδαμος, Πεύκο, Δρυς), επιλέξτε το πλαίσιο ελέγχου Κατηγορικές.

Επιλογή μιας ή περισσότερων επεξηγηματικών μεταβλητών


Ένα ή περισσότερα πεδία που αναπαριστούν τις επεξηγηματικές μεταβλητές (τα πεδία) οι οποίες βοηθούν στην πρόβλεψη της τιμής ή της κατηγορίας της μεταβλητής προς πρόβλεψη. Χρησιμοποιήστε το πλαίσιο ελέγχου «Κατηγορικές» για όσες μεταβλητές αναπαριστούν κλάσεις ή κατηγορίες (π.χ. κάλυψη του εδάφους ή παρουσία ή απουσία). Καθορίστε τη μεταβλητή ως αληθή αν αναπαριστά κλάσεις ή κατηγορίες, π.χ. κάλυψη του εδάφους ή παρουσία ή απουσία, και ως ψευδή αν είναι συνεχής μεταβλητή.

Αριθμός δένδρων


Ο αριθμός των δένδρων που θα δημιουργηθούν στο μοντέλο. Όσο περισσότερα δένδρα υπάρχουν τόσο πιο ακριβής θα είναι η πρόβλεψη του μοντέλου, αλλά ο υπολογισμός θα διαρκεί περισσότερη ώρα. Ο προεπιλεγμένος αριθμός δένδρων είναι 100.

Ελάχιστο μέγεθος φύλλων


Ο ελάχιστος αριθμός παρατηρήσεων που απαιτούνται για τη διατήρηση ενός φύλλου (που είναι ο τερματικός κόμβος σε ένα δένδρο χωρίς περαιτέρω διαχωρισμούς). Η προεπιλεγμένη ελάχιστη τιμή για παλινδρόμηση είναι το 5 και η αντίστοιχη προεπιλεγμένη τιμή για ταξινόμηση είναι το 1. Αν ο όγκος των δεδομένων είναι πολύ μεγάλος, όσο αυξάνονται οι αριθμοί αυτοί τόσο θα μειώνεται ο χρόνος εκτέλεσης του εργαλείου.

Μέγιστο βάθος δένδρων


Ο ανώτατος αριθμός διαχωρισμών που θα γίνεται όσον αφορά ένα δένδρο. Αν χρησιμοποιήσετε μεγάλο μέγιστο βάθος, θα δημιουργηθούν περισσότεροι διαχωρισμοί όποτε ενδέχεται να αυξηθούν οι πιθανότητες υπερβολικής προσαρμογής του μοντέλου. Η προεπιλεγμένη ρύθμιση βασίζεται στα δεδομένα και εξαρτάται από τον αριθμό των δένδρων που έχουν δημιουργηθεί και από τον αριθμό των μεταβλητών που έχουν συμπεριληφθεί.

Διαθέσιμα δεδομένα ανά δένδρο (%)


Καθορίζει το ποσοστό των στοιχείων στο θεματικό επίπεδο εκπαίδευσης το οποίο χρησιμοποιείται για κάθε δέντρο αποφάσεων. Η προεπιλεγμένη τιμή είναι το 100% των δεδομένων. Για κάθε δένδρο λαμβάνονται τυχαία δείγματα από τα δύο τρίτα των δεδομένων που έχουν καθοριστεί.

Κάθε δένδρο αποφάσεων στο δάσος δημιουργείται με τη χρήση ενός τυχαίου δείγματος ή υποσυνόλου (των δύο τρίτων, κατά προσέγγιση) των διαθέσιμων δεδομένων εκπαίδευσης. Αν χρησιμοποιήσετε χαμηλότερο ποσοστό των δεδομένων εισόδου για κάθε δένδρο αποφάσεων, αυξάνεται η ταχύτητα του εργαλείου για πολύ μεγάλα σύνολα δεδομένων.

Αριθμός τυχαία δειγματοληπτούμενων μεταβλητών


Καθορίζει τον αριθμό των επεξηγηματικών μεταβλητών που χρησιμοποιούνται για τη δημιουργία κάθε δένδρου αποφάσεων.

Καθένα από τα δένδρα αποφάσεων στο δάσος δημιουργείται με τη χρήση ενός τυχαίου υποσυνόλου των επεξηγηματικών μεταβλητών που έχουν καθοριστεί. Αν αυξήσετε τον αριθμό των μεταβλητών που χρησιμοποιούνται σε κάθε δένδρο αποφάσεων, θα αυξηθούν οι πιθανότητες υπερβολικής προσαρμογής του μοντέλου σας και ιδίως αν υπάρχουν μία ή δύο κυρίαρχες μεταβλητές. Μια συνήθης πρακτική είναι η χρήση της τετραγωνικής ρίζας των επεξηγηματικών μεταβλητών αν η προς πρόβλεψη μεταβλητή σας είναι αριθμική ή η διαίρεση του συνολικού αριθμού των επεξηγηματικών μεταβλητών με το 3 αν η προς πρόβλεψη μεταβλητή είναι κατηγορική.

Επιλογή τρόπου αντιστοίχισης επεξηγηματικών πεδίων


Ο τρόπος αντιστοίχισης των μεταβλητών στο θεματικό επίπεδο εκπαίδευσης με τις μεταβλητές στο θεματικό επίπεδο πρόβλεψης. Στον πίνακα θα συμπεριληφθούν μόνο οι μεταβλητές που χρησιμοποιούνται κατά την εκπαίδευση.

Αριθμός εκτελέσεων για επικύρωση


Καθορίζει το ποσοστό (μεταξύ 0% και 50%) των στοιχείων στο θεματικό επίπεδο εκπαίδευσης τα οποία θα διατηρούνται ως το σύνολο δεδομένων προς δοκιμή για επικύρωση. Το μοντέλο θα εκπαιδευθεί χωρίς αυτό το τυχαίο υποσύνολο δεδομένων και οι παρατηρημένες τιμές για τα στοιχεία αυτά θα συγκριθούν με την προβλεπόμενη τιμή. Η προεπιλεγμένη τιμή είναι 10%.

Όνομα εξαγόμενου θεματικού επιπέδου


Αυτό είναι το όνομα του θεματικού επιπέδου που θα δημιουργηθεί στην ενότητα Περιεχόμενο και θα προστεθεί στο χάρτη. Το προεπιλεγμένο όνομα βασίζεται στο όνομα του εργαλείου και στο όνομα του θεματικού επιπέδου εισόδου. Αν το θεματικό επίπεδο υπάρχει ήδη, θα σας ζητηθεί να δώσετε άλλο όνομα.

Τα αποτελέσματα που θα επιστραφούν θα εξαρτηθούν από τον τύπο ανάλυσης. Αν πραγματοποιείτε εκπαίδευση με στόχο την αξιολόγηση της προσαρμογής του μοντέλου, τα αποτελέσματα θα περιέχουν ένα θεματικό επίπεδο προσαρμογής των δεδομένων εκπαίδευσης στο μοντέλο και πληροφορίες για τα αποτελέσματα της αξιολόγησης της προσαρμογής του μοντέλου. Αν πραγματοποιείτε εκπαίδευση και πρόβλεψη, τα αποτελέσματα θα περιέχουν ένα θεματικό επίπεδο προσαρμογής των δεδομένων εκπαίδευσης στο μοντέλο, ένα θεματικό επίπεδο προβλεπόμενων αποτελεσμάτων και πληροφορίες για τα αποτελέσματα της αξιολόγησης της προσαρμογής του μοντέλου.

Χρησιμοποιώντας το πτυσσόμενο πλαίσιο Αποθήκευση αποτελέσματος σε, μπορείτε να καθορίσετε το όνομα ενός φακέλου στην ενότητα Το περιεχόμενό μου όπου θα αποθηκευτεί το αποτέλεσμα.