LSTM-RNN κώδικας

pi314 · 17 Ιανουαρίου 2022

.

Επεξ/σία 20 Ιανουαρίου 2022 από pi314

DrKo · 17 Ιανουαρίου 2022

22 λεπτά πριν, pi314 είπε

Thanx, το κοιτάω..! Τί άλλα λάθη βλέπεις? Απλά να καταλάβω και εγώ τι φταίει...

Είναι αρκετά. Δεν έχω τον χρόνο να σου κάνω μία ανάλυση σωστή. Εν γένει, είναι στα bullet points: data leakage, χρήση των RNN, modeling.

masteripper · 17 Ιανουαρίου 2022

Πάντως συγκρίνοντας το MachineLearnigMaster και τον "ανταγωνιστή" ...ΔΕΝ αναφέρεται πουθενά το Leakage στα 1349 comments του MLM(!!!) ενώ στα 2 comments του "ανταγωνιστή" υπάρχει σαφής αναφορά για Leakage(??)... ο νοών νοείτο.

Επεξ/σία 17 Ιανουαρίου 2022 από masteripper

pi314 · 17 Ιανουαρίου 2022

.

Επεξ/σία 20 Ιανουαρίου 2022 από pi314

DrKo · 17 Ιανουαρίου 2022

1 ώρα πριν, pi314 είπε

Με ένα πρόχειρο ψάξιμο, βλέπω αρκετά papers, ok στο δικό του site ως επί των πλείστων, αλλά έχει κάμποσα citation και paper σε IEEE που γενικά ΙΕΕΕ είναι δύσκολο να βγάλει κάποιος αν δεν έχει ιδέα. https://scholar.google.com/citations?hl=en&user=hVaJhRYAAAAJ&view_op=list_works&sortby=pubdate

Δεν αμφισβητώ κάνενα από τους 2 σας..., απλά το ψάχνω λίγο...

Ό,τι νομίζεις. Σου έστειλα ακριβείς λόγους, με σαφείς μαθηματικές εξηγήσεις γιατί και πού είναι το λάθος. Στην περίπτωση του κώδικα που έχει στο σημείο που θέλεις, είναι εντελώς gray area γιατί υπάρχει η ίδια γεννήτρια από κάτω που παράγει του αριθμούς. Το οποίο σημαίνει πως τα statistics θα είναι τα ίδια στα data splits. Αυτό δεν αναιρεί το γεγονός πως είναι βασικότατο λάθος αυτό που κάνει.

Εσύ πιστεύεις ότι είναι ΟΚ πρώτα να κάνεις scaling και μετά να κάνεις splitting. Κάνε το. Εγώ φταίω που ασχολήθηκα. Υπάρχουν τύποι σαν τον από πάνω να σε βοηθήσουν.

Όσο για τα citations, εάν παρατηρήσεις τα πιο πολλά τα έχει από το website. Τα ΙΕΕΕ δεν τα είδα πάνω πάνω.

pi314 · 17 Ιανουαρίου 2022

.

Επεξ/σία 20 Ιανουαρίου 2022 από pi314

DrKo · 17 Ιανουαρίου 2022

Μόλις τώρα, pi314 είπε

Φίλε μου με παρεξήγησες! Από το πρωί διαβάζω τα λινκς που μου έστειλες και σε ευχαριστώ! Αυτό που μου κάνει εντύπωση, είναι πως ένας τύπος με PhD, όπως λέει, να κάνει τόσο κραυγαλέα λάθη και να παίρνει και άλλους στον λαιμό του...

Ξαναλέω, το κάνει πάνω σε αποτέλεσμα από το random generator, το οποίο σημαίνει ότι τα underlying statistics θα είναι τα ίδια στο set των αριθμών που έχει. Δηλαδή, σαν πρακτική είναι κραυγαλέο λάθος, σαν ουσιαστικό αποτέλεσμα και ΑΚΡΙΒΩΣ ΕΠΕΙΔΗ έχει το αποτέλεσμα από το ίδο random generator να κάνει split, δεν έχει σημασία.

Αυτό όμως οδηγεί τυπάκια σαν εσένα και άλλους, που θα αναπαράξουν τον ίδιο κώδικα σε dataset που δεν είναι από το ίδιο random generator, να κάνουν ένα από τα βασικότερα λάθη. Όμως, εφόσον "το αμφισβιτείς", συνέχισε έτσι. Αυτό ήταν και το τελευταίο μου post σε αυτό το θέμα.

Καλή τύχη.

masteripper · 17 Ιανουαρίου 2022

Το ανέκδοτο της εβδομάδος, αν είσαι τόσο μάγκας κοντραρισε τον Jason για να δούμε πόσα ψάρια πιάνεις...εγώ τουλάχιστον όσες φορές έχουμε διασταυρώσει απόψεις το μόνο που βλέπω είναι παχιά λογια, παπαγαλιστικη ακαδημαϊκού τύπου παράθεση όρων χωρίς αντίκρυσμα και αυτό είναι όλο... ουσία πάντα 0.

Οπότε ιδού η πρόκληση ....ή ξέρεις ή δεν ξέρεις.

Κατά τα άλλα @pi314 σε τέτοιες περιπτώσεις πάντα πας στην αρχή...κοπιαρεις τον κώδικα επακριβώς και ακολουθείς τυφλά.

Αν κάτι πάει στραβά αν και με Phd και συγγραφέας ο άνθρωπος απαντάει και μοιράζει γνώση μετά χαράς...παρόλο που δεν το κόβω ότι τον βοηθάει να κολυμπάει στο χρήμα.

Οχι σαν κάποιους άλλους φωστήρες

17 Ιανουαρίου 2022

Δεν είμαι ειδικός σε machine learning. Αλλά νομίζω ότι αυτό που προσπαθεί να σας πει ο DrKo είναι ότι το data leakage οδηγεί σε overfitting:

https://en.wikipedia.org/wiki/Overfitting

Δηλαδή, η ακρίβεια είναι "μαγειρεμένη" επειδή υπάρχει σχέση ανάμεσα στα δεδομένα του training και του prediction. Αν πάρεις το μοντέλο και δοκιμάσεις άλλα δεδομένα, τότε η ακρίβεια θα είναι πολύ χειρότερη.

pi314 · 17 Ιανουαρίου 2022

.

Επεξ/σία 20 Ιανουαρίου 2022 από pi314

DrKo · 17 Ιανουαρίου 2022

7 λεπτά πριν, pi314 είπε

To έχω δοκιμάσει με τα εξής dataset: 1) επισκεψιμότητα σε σαιτ, 2) επιβάτες αεροπλάνων, 3)επιβάτες μετρό και οι προβλέψεις που κάνει (σε unseen, πάντα, data) είναι απίστευτα καλές.... Επισης σε αυτά τα δίκτυα δεν μπορείς να μετρήσεις accuracy, δηλαδή δεν είναι όπως τα CNN που του πετάς 100 εικόνες, πετυχαίνει τις 99 σωστές και λες έχω ακρίβεια 99%...

Αχ αχ αχ! Τα πετάτε το ένα μετά το άλλο!

Το μετρικό, π.χ. accuracy, δεν έχει καμία μα καμία σχέση με τον αλγόριθμο που θα χρησιμοποιήσεις, δηλαδή CNN, RNN, ή ό,τι άλλο.

Άλλο σου είπε ο από πάνω, άλλα αντ’ άλλων λες εσύ. Πφφφ.

Ό,τι και να πεις, έχεις δίκιο. Είχα πει ότι δεν θα ξανά απαντήσω εδώ. Αλλά με τέτοια διαμάντια, δεν κρατιέμαι.

pi314 · 17 Ιανουαρίου 2022

.

Επεξ/σία 20 Ιανουαρίου 2022 από pi314

DrKo · 17 Ιανουαρίου 2022

21 λεπτά πριν, bdarla είπε

Δεν είμαι ειδικός σε machine learning. Αλλά νομίζω ότι αυτό που προσπαθεί να σας πει ο DrKo είναι ότι το data leakage οδηγεί σε overfitting:

https://en.wikipedia.org/wiki/Overfitting

Δηλαδή, η ακρίβεια είναι "μαγειρεμένη" επειδή υπάρχει σχέση ανάμεσα στα δεδομένα του training και του prediction. Αν πάρεις το μοντέλο και δοκιμάσεις άλλα δεδομένα, τότε η ακρίβεια θα είναι πολύ χειρότερη.

Περίπου.

Το scaling των δεδομένων γίνεται κάνοντας την παραδοχή πως «αυτά έχω, με αυτά θα μάθω». Οπότε, δέχεσαι ότι έχεις ένα υποσύνολο του πληθυσμού και υπολογίζεις μέσες τιμές και διακυμάνσεις. Τις χρησιμοποιείς για να αλλάξεις την κατανομή των δεδομένων, ώστε να βοηθήσει τον αλγόριθμο να μάθει καλύτερα τα underlying causes/variables που γεννούν τα δεδομένα που έχεις ή/και εκφράζουν την σχέση και συσχέτιση εισόδου εξόδου.

Αφού το κάνεις αυτό, τότε μετράς πόσο καλά τα πάει το μοντέλο που δημιούργησες σε δεδομένα που ΔΕΝ ΓΝΩΡΙΖΕΙΣ. Αφού δεν τα γνωρίζεις, τότε δεν μπορείς να ξέρεις και στατιστικά των δεδομένων, όπως τα πρώτα moments τους (μέση τιμή κτλ).

Στο παράδειγμα που έγινε ο λόγος, το scaling των δεδομένων γίνεται χρησιμοποιώντας και τα άγνωστα δεδομένα. Βέβαια, όπως ήδη έγραψα, επειδή τα δεδομένα έρχονται από την ίδια γεννήτρια ψευδοτυχαίων αριθμών, τα στατιστικά τους θα είναι ίδια. Δηλαδή, θα γίνει leakage μεταξύ training και testing data, αλλά αυτό που θα γίνει leak θα είναι ήδη γνωστό. Σε κάθε περίπτωση, δεν αλλάζει το λάθος.

Αλλά, τι λέω τώρα εγώ; Τεσ’πα.

Επεξ/σία 17 Ιανουαρίου 2022 από DrKo

pi314 · 17 Ιανουαρίου 2022

.

Επεξ/σία 20 Ιανουαρίου 2022 από pi314

DrKo · 17 Ιανουαρίου 2022

8 λεπτά πριν, pi314 είπε
αναφέρεσαι σε αυτό?:
# fix random seed for reproducibility
numpy.random.seed(7)

Πραγματικά, ό,τι να ‘ναι.

Είναι τόσα πολλά αυτά που φαίνεται ότι έχεις άγνοια, που (με κάθε καλή διάθεση) παράτα τα νευρωνικά και κάτσε δες τα βασικά.

Σύνδεση

LSTM-RNN κώδικας

Προτεινόμενες αναρτήσεις

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συχνή συμμετοχή στο θέμα

Δημοφιλείς Ημέρες

Συχνή συμμετοχή στο θέμα

Δημοφιλείς Ημέρες

Δημοφιλή Μηνύματα

pi314

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Επισκέπτης

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

Σύνδεση