Προς το περιεχόμενο

LSTM-RNN κώδικας


pi314

Προτεινόμενες αναρτήσεις

  • Απαντ. 41
  • Δημ.
  • Τελ. απάντηση

Συχνή συμμετοχή στο θέμα

Συχνή συμμετοχή στο θέμα

22 λεπτά πριν, pi314 είπε

Thanx, το κοιτάω..! Τί άλλα λάθη βλέπεις? Απλά να καταλάβω και εγώ τι φταίει...

Είναι αρκετά. Δεν έχω τον χρόνο να σου κάνω μία ανάλυση σωστή. Εν γένει, είναι στα bullet points: data leakage, χρήση των RNN, modeling. 

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δημοσ. (επεξεργασμένο)

Πάντως συγκρίνοντας το MachineLearnigMaster και τον "ανταγωνιστή" ...ΔΕΝ αναφέρεται πουθενά το Leakage στα 1349 comments του MLM(!!!) ενώ στα 2 comments του "ανταγωνιστή" υπάρχει σαφής αναφορά για Leakage(??)... ο νοών νοείτο.

Επεξ/σία από masteripper
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

1 ώρα πριν, pi314 είπε

Με ένα πρόχειρο ψάξιμο, βλέπω αρκετά papers, ok στο δικό του site ως επί των πλείστων, αλλά έχει κάμποσα citation και paper σε IEEE που γενικά ΙΕΕΕ είναι δύσκολο να βγάλει κάποιος αν δεν έχει ιδέα. https://scholar.google.com/citations?hl=en&user=hVaJhRYAAAAJ&view_op=list_works&sortby=pubdate

Δεν αμφισβητώ κάνενα από τους 2 σας..., απλά το ψάχνω λίγο...

Ό,τι νομίζεις. Σου έστειλα ακριβείς λόγους, με σαφείς μαθηματικές εξηγήσεις γιατί και πού είναι το λάθος. Στην περίπτωση του κώδικα που έχει στο σημείο που θέλεις, είναι εντελώς gray area γιατί υπάρχει η ίδια γεννήτρια από κάτω που παράγει του αριθμούς. Το οποίο σημαίνει πως τα statistics θα είναι τα ίδια στα data splits. Αυτό δεν αναιρεί το γεγονός πως είναι βασικότατο λάθος αυτό που κάνει.

Εσύ πιστεύεις ότι είναι ΟΚ πρώτα να κάνεις scaling και μετά να κάνεις splitting. Κάνε το. Εγώ φταίω που ασχολήθηκα. Υπάρχουν τύποι σαν τον από πάνω να σε βοηθήσουν. 

Όσο για τα citations, εάν παρατηρήσεις τα πιο πολλά τα έχει από το website. Τα ΙΕΕΕ δεν τα είδα πάνω πάνω. 

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Μόλις τώρα, pi314 είπε

Φίλε μου με παρεξήγησες! Από το πρωί διαβάζω τα λινκς που μου έστειλες και σε ευχαριστώ! Αυτό που μου κάνει εντύπωση, είναι πως ένας τύπος με PhD, όπως λέει, να κάνει τόσο κραυγαλέα λάθη και να παίρνει και άλλους στον λαιμό του...

Ξαναλέω, το κάνει πάνω σε αποτέλεσμα από το random generator, το οποίο σημαίνει ότι τα underlying statistics θα είναι τα ίδια στο set των αριθμών που έχει. Δηλαδή, σαν πρακτική είναι κραυγαλέο λάθος, σαν ουσιαστικό αποτέλεσμα και ΑΚΡΙΒΩΣ ΕΠΕΙΔΗ έχει το αποτέλεσμα από το ίδο random generator να κάνει split, δεν έχει σημασία. 

Αυτό όμως οδηγεί τυπάκια σαν εσένα και άλλους, που θα αναπαράξουν τον ίδιο κώδικα σε dataset που δεν είναι από το ίδιο random generator, να κάνουν ένα από τα βασικότερα λάθη. Όμως, εφόσον "το αμφισβιτείς", συνέχισε έτσι. Αυτό ήταν και το τελευταίο μου post σε αυτό το θέμα. 

Καλή τύχη. 

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Το ανέκδοτο της εβδομάδος, αν είσαι τόσο μάγκας κοντραρισε τον Jason για να δούμε πόσα ψάρια πιάνεις...εγώ τουλάχιστον όσες φορές έχουμε διασταυρώσει απόψεις το μόνο που βλέπω είναι παχιά λογια, παπαγαλιστικη ακαδημαϊκού τύπου παράθεση όρων χωρίς αντίκρυσμα και αυτό είναι όλο... ουσία πάντα 0.

Οπότε ιδού η πρόκληση ....ή ξέρεις ή δεν ξέρεις.

Κατά τα άλλα @pi314 σε τέτοιες περιπτώσεις πάντα πας στην αρχή...κοπιαρεις τον κώδικα επακριβώς και ακολουθείς τυφλά.

Αν κάτι πάει στραβά αν και με Phd και συγγραφέας ο άνθρωπος απαντάει και μοιράζει γνώση μετά χαράς...παρόλο που δεν το κόβω ότι τον βοηθάει να κολυμπάει στο χρήμα.

Οχι σαν κάποιους άλλους φωστήρες

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

 Δεν είμαι ειδικός σε machine learning. Αλλά νομίζω ότι αυτό που προσπαθεί να σας πει ο DrKo είναι ότι το data leakage οδηγεί σε overfitting:

https://en.wikipedia.org/wiki/Overfitting

Δηλαδή, η ακρίβεια είναι "μαγειρεμένη" επειδή υπάρχει σχέση ανάμεσα στα δεδομένα του training και του prediction. Αν πάρεις το μοντέλο και δοκιμάσεις άλλα δεδομένα, τότε η ακρίβεια θα είναι πολύ χειρότερη.

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

7 λεπτά πριν, pi314 είπε

To έχω δοκιμάσει με τα εξής dataset: 1) επισκεψιμότητα σε σαιτ, 2) επιβάτες αεροπλάνων, 3)επιβάτες μετρό και οι προβλέψεις που κάνει (σε unseen, πάντα, data) είναι απίστευτα καλές.... Επισης σε αυτά τα δίκτυα δεν μπορείς να μετρήσεις accuracy, δηλαδή δεν είναι όπως τα CNN που του πετάς 100 εικόνες, πετυχαίνει τις 99 σωστές και λες έχω ακρίβεια 99%...

Αχ αχ αχ! Τα πετάτε το ένα μετά το άλλο!

Το μετρικό, π.χ. accuracy, δεν έχει καμία μα καμία σχέση με τον αλγόριθμο που θα χρησιμοποιήσεις, δηλαδή CNN, RNN, ή ό,τι άλλο.

Άλλο σου είπε ο από πάνω, άλλα αντ’ άλλων λες εσύ. Πφφφ.

Ό,τι και να πεις, έχεις δίκιο. Είχα πει ότι δεν θα ξανά απαντήσω εδώ. Αλλά με τέτοια διαμάντια, δεν κρατιέμαι. 

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δημοσ. (επεξεργασμένο)
21 λεπτά πριν, bdarla είπε

 Δεν είμαι ειδικός σε machine learning. Αλλά νομίζω ότι αυτό που προσπαθεί να σας πει ο DrKo είναι ότι το data leakage οδηγεί σε overfitting:

https://en.wikipedia.org/wiki/Overfitting

Δηλαδή, η ακρίβεια είναι "μαγειρεμένη" επειδή υπάρχει σχέση ανάμεσα στα δεδομένα του training και του prediction. Αν πάρεις το μοντέλο και δοκιμάσεις άλλα δεδομένα, τότε η ακρίβεια θα είναι πολύ χειρότερη.

Περίπου.

Το scaling των δεδομένων γίνεται κάνοντας την παραδοχή πως «αυτά έχω, με αυτά θα μάθω». Οπότε, δέχεσαι ότι έχεις ένα υποσύνολο του πληθυσμού και υπολογίζεις μέσες τιμές και διακυμάνσεις. Τις χρησιμοποιείς για να αλλάξεις την κατανομή των δεδομένων, ώστε να βοηθήσει τον αλγόριθμο να μάθει καλύτερα τα underlying causes/variables που γεννούν τα δεδομένα που έχεις ή/και εκφράζουν την σχέση και συσχέτιση εισόδου εξόδου.

Αφού το κάνεις αυτό, τότε μετράς πόσο καλά τα πάει το μοντέλο που δημιούργησες σε δεδομένα που ΔΕΝ ΓΝΩΡΙΖΕΙΣ. Αφού δεν τα γνωρίζεις, τότε δεν μπορείς να ξέρεις και στατιστικά των δεδομένων, όπως τα πρώτα moments τους (μέση τιμή κτλ).

Στο παράδειγμα που έγινε ο λόγος, το scaling των δεδομένων γίνεται χρησιμοποιώντας και τα άγνωστα δεδομένα. Βέβαια, όπως ήδη έγραψα, επειδή τα δεδομένα έρχονται από την ίδια γεννήτρια ψευδοτυχαίων αριθμών, τα στατιστικά τους θα είναι ίδια. Δηλαδή, θα γίνει leakage μεταξύ training και testing data, αλλά αυτό που θα γίνει leak θα είναι ήδη γνωστό. Σε κάθε περίπτωση, δεν αλλάζει το λάθος.

Αλλά, τι λέω τώρα εγώ; Τεσ’πα. 

Επεξ/σία από DrKo
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

8 λεπτά πριν, pi314 είπε

αναφέρεσαι σε αυτό?:

 

# fix random seed for reproducibility
numpy.random.seed(7)

 

Πραγματικά, ό,τι να ‘ναι.

Είναι τόσα πολλά αυτά που φαίνεται ότι έχεις άγνοια, που (με κάθε καλή διάθεση) παράτα τα νευρωνικά και κάτσε δες τα βασικά. 

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα

  • Δημιουργία νέου...