giorgos147 Δημοσ. 17 Σεπτεμβρίου 2017 Δημοσ. 17 Σεπτεμβρίου 2017 Θα ήθελα να θέσω ένα ερώτημα/προβληματισμό που αφορά τον τίτλο του θέματος, ενώ θα προσπαθήσω να το θέσω όσο το δυνατόν πιο σύντομα. Έχω ένα σετ από δεδομένα, το οποίο αποτελείται από Χ κατηγορίες και οι οποίες είναι balanced. Όπως καταλαβαίνετε, αφορά supervised learning. Αρχικά, κάνω train έναν classifier σε ολόκληρο το σετ, παράγω κατά κατηγορία και συνολικά τα F1, accuracy, recall κλπ. και το confusion matrix, του οποίου οι τιμές είναι σε ποσοστά. Στη συνέχεια, "σπάω" αυτό το σετ και με το 1/3 του κάνω πάλι train τον classifier, ενώ αυτή τη φορά πάω και κάνω classify τα άλλα 2/3 (το set παραμένει balanced). Αυτό το κάνω 3 φορές, με κάθε φορά αυτό το 1/3 να είναι ένα μέρος από τα "3/3" που δε χρησιμοποιήθηκε. Δεν ξέρω αν είμαι κατανοητός σε αυτό το σημείο. Αφού, λοιπόν, αυτό το κάνω 3 φορές, και έχω φτιάξει τους πίνακες σύγχυσης μου για κάθε μία από τις επαναλήψεις, υπολογίζω το τελικό confusion matrix που παράγεται από τα προηγούμενα 3. Οπότε τώρα, πρέπει να συγκρίνω αυτούς τους 2 πίνακες σύγχυσης. Όμως, ειλικρινά δεν ξέρω που πρέπει να σταθώ, αφού είναι λογικό στον πρώτο πίνακα οι τιμές να είναι άκρως ικανοποιητικές, ενώ σε αυτόν που παράγεται από τις τρεις επαναλήψεις, η απόδοση να μειώνεται σε καλό βαθμό. Δε θέλω να συγκρίνω στον αέρα, όπως είναι φυσιολογικό, όμως ούτε η αναζήτηση με βοήθησε αρκετά. Το μόνο που βρήκα και φαίνεται να έχει μία βάση, είναι αυτό. Θυμίζω και πάλι, μιλάμε για ποσοστά στους πίνακες σύγχυσης, και στο πρώτο σετ έχω ολόκληρο το σετ δεδομένων, ενώ στη συνέχεια το σπάω σε τρία μέρη. Ελπίζω να ήμουν σαφής. Οποιαδήποτε διευκρίνιση/πρόταση κ.λπ., θα ληφθεί υπόψιν.
k33theod Δημοσ. 17 Σεπτεμβρίου 2017 Δημοσ. 17 Σεπτεμβρίου 2017 Ελπίζω να ήμουν σαφής. Ποιο σαφής δεν γίνεται καίγεσαι. Μου έχεις δημιουργήσει βέβαια ένα confusion matrix 100% αλλά κατά την σύγκριση των δύο πινάκων σύγχησης που μου προκληθηκε το accuracy έπαιξε καθοριστικό ρόλο και σε συνδυασμό με το καλό F1 στο recall training του 2ου 1/3 του classifier ήταν όλα balanced. 1
giorgos147 Δημοσ. 17 Σεπτεμβρίου 2017 Μέλος Δημοσ. 17 Σεπτεμβρίου 2017 Ποιο σαφής δεν γίνεται καίγεσαι. Μου έχεις δημιουργήσει βέβαια ένα confusion matrix 100% αλλά κατά την σύγκριση των δύο πινάκων σύγχησης που μου προκληθηκε το accuracy έπαιξε καθοριστικό ρόλο και σε συνδυασμό με το καλό F1 στο recall training του 2ου 1/3 του classifier ήταν όλα balanced. Πρακτικά αυτό έχω κάνει. Χρησιμοποίησα Accuracy και F1, δίνοντας παραπάνω βαρύτητα στο F1. Βέβαια, δεν έδωσα σημασία στα μεμονωμένα "1/3 trainings" ( ) αλλά στο συνολικό (μέσο) Confusion Matrix που παράγω από αυτά, σε σύγκριση με το άλλο confusion matrix που το training εμπεριείχε μέσα και τα "3/3". Δεν ξέρω αν αξίζει να αναπτύξω παραπάνω το πρόβλημα, αλλά νομίζω το θέμα το πιάνετε. Θέλω απλά να συγκρίνω 2 Confusion Matrices, με το ένα Confusion Matrix να είναι απόρροια τριών άλλων. 1
k33theod Δημοσ. 17 Σεπτεμβρίου 2017 Δημοσ. 17 Σεπτεμβρίου 2017 Δεν ξέρω αν αξίζει να αναπτύξω παραπάνω το πρόβλημα, αλλά νομίζω το θέμα το πιάνετε. Εννοείται 1
giorgos147 Δημοσ. 17 Σεπτεμβρίου 2017 Μέλος Δημοσ. 17 Σεπτεμβρίου 2017 Εννοείται Από τη στιγμή που ούτε το Google δίνει πολλές απαντήσεις για Confusion Matrix VS Confusion Matrix, τρόλλαρε άφοβα. Παρ'όλα αυτά, ας κάνω μία μίνι επεξήγηση. Έχω 3 πράγματα, ας πούμε βίντεο. Αρχικά, τροφοδοτώ το training set και με τα τρία και παράγω ένα confusion matrix το οποίο κάτι θα αφορά κι'αυτό. Στη συνέχεια, τροφοδοτώ το training με το ένα από τα τρία και προσπαθώ να δω τη δυνατότητα ταξινόμησης των άλλων δύο. Και ξανά η ίδια διαδικασία με άλλο βίντεο ως training και τα άλλα δύο για testing set κ.λπ. Τελικά, παράγω το τελικό τους confusion matrix, το οποίο αποτελείται από τα 3 προηγούμενα trainings. Αυτό που τελικά θέλω, είναι να συγκρίνω αυτά τα conf. matrices. Ξέρω, και πάλι δεν ήμουν αρκετά σαφής, απλά αναφέρω κι'αυτό μήπως πιάσετε καλύτερα το νόημα. Όχι ότι χρειαζεται... 1
k33theod Δημοσ. 17 Σεπτεμβρίου 2017 Δημοσ. 17 Σεπτεμβρίου 2017 Δεν τρολλάρω. Η όποια απάντησή μου στο θέμα προέρχεται από το confussion μου, το οποίο κατά 1/2 μόνο προέρχεται από το δικό σου θέμα. Το άλλο μισό από άλλα matrices. Αν διαβάσεις και τα άλλα posts θα καταλάβεις Δεν μπορώ να το αναλύσω άλλο αυτή τη στιγμή γιατί Sorry φίλε αλλά είχα λίγο stress σήμερα. Τώρα νιώθω πάλι balanced 1
giorgos147 Δημοσ. 17 Σεπτεμβρίου 2017 Μέλος Δημοσ. 17 Σεπτεμβρίου 2017 Όλα καλά. Οκ, γενικά το θέμα μου είναι ένα μπάχαλο, όμως, τουλάχιστον, νομίζω βρήκα λύση. Τώρα πόσο ισχύει δεν ξέρω. Οπότε, confussed/ξεconfussed, βοήθησες. Ευχαριστώ^. 1
basilis5 Δημοσ. 20 Σεπτεμβρίου 2017 Δημοσ. 20 Σεπτεμβρίου 2017 δεν σε νοιαζει αν εχεις overfit εκπαιδευοντας το μοντελο σου με ολα τα δαθεσιμα data? Επισης αν καταλαβα καλα, τελικα εκπαιδευσες 4 μοντελα, στα οποια: στο 1 ειχες χρησιμοποιησει ολο το dataset στα 2-4 χρησιμοποιουσες 1/3 train και 2/3 test (με διαφορετικο split καθε φορα); Αν οντως καταλαβα καλα, λογικο δεν ειναι να εχεις μεγαλυτερο accuracy στην 1η περιπτωση αφου εχεις overfit; Επισης, δεν ειναι χαμηλο το 33% των data για train; 2
Lanike71 Δημοσ. 21 Σεπτεμβρίου 2017 Δημοσ. 21 Σεπτεμβρίου 2017 Εγώ πάλι δεν κατάλαβα προς τι η όλη διαδικασία. Πού βοηθά όλο αυτό σε σχέση με το learning; Γίνεται να έχεις καλύτερα αποτελέσματα μόνο με 1/3 του δείγματος κάθε φορά; Αν πάλι σε ενδιαφέρει, ίσως να σχετίζεται με το stacking που χρησιμοποιείς διαφορετικούς αλγορίθμους για τμήματα του data και η έξοδος τους γίνεται είσοδος σε άλλο αλγόριθμο, τελικό αυτή τη φορά.
pkatsou Δημοσ. 23 Σεπτεμβρίου 2017 Δημοσ. 23 Σεπτεμβρίου 2017 Προσπαθείς να κανεις bagging manually με αυτόν τον τροπο και κανεις τρεις φορές split και ανασυνθέτεις το σκοράρισμα; και πως ακριβώς κανεις ανασύνθεση; και όπως ανάφερε και ο basilis5 πιο πριν, με όλο το dataset για train και test ταυτόχρονα θα εχεις το καλύτερο accuracy λόγω overfit. Αλλά όταν κανεις split, το ROC προφανώς θα μειωθεί. Ίσως κάτι χάνω σε όλο αυτο που ανέφερες
Προτεινόμενες αναρτήσεις
Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε
Πρέπει να είστε μέλος για να αφήσετε σχόλιο
Δημιουργία λογαριασμού
Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!
Δημιουργία νέου λογαριασμούΣύνδεση
Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.
Συνδεθείτε τώρα