Πρόβλεψη απάτης - Data analysis με Python

13 Μαρτίου 2022

Καλημέρα παιδιά. Δοκίμασα Gaussian Naive Bayes κ πέτυχα μέχρι 0.72 score. Ότι άλλο μοντέλο χρησιμοποιώ, το πολύ μέχρι 0.65 score μου δίνει.

Επίσης επισυνάπτω το heat map των μεταβλητών μου.

Πάντως στο πρόβλημα λέει το εξής

"Το ιστορικό προσφορών 2010-2015 χρησιμοποιήθηκε για τη δημιουργία συνόλων δεδομένων για αυτόν τον διαγωνισμό. Τα αρχικά δεδομένα περιείχαν περίπου 16 εκατομμύρια παρατηρήσεις (η μεταβλητή obs). Χρησιμοποιήθηκε για την εύρεση χαρακτηριστικών διανομής προσφοράς. "

58 λεπτά πριν, cchrm97 είπε

Καλημέρα παιδιά. Δοκίμασα Gaussian Naive Bayes κ πέτυχα μέχρι 0.72 score. Ότι άλλο μοντέλο χρησιμοποιώ, το πολύ μέχρι 0.65 score μου δίνει.

Επίσης επισυνάπτω το heat map των μεταβλητών μου.

Πάντως στο πρόβλημα λέει το εξής

"Το ιστορικό προσφορών 2010-2015 χρησιμοποιήθηκε για τη δημιουργία συνόλων δεδομένων για αυτόν τον διαγωνισμό. Τα αρχικά δεδομένα περιείχαν περίπου 16 εκατομμύρια παρατηρήσεις (η μεταβλητή obs). Χρησιμοποιήθηκε για την εύρεση χαρακτηριστικών διανομής προσφοράς. "

Τροποποίησα λίγο τα δεδομένα μου και πήρα 0.78 score με Gaussian Naive Bayes. Άλλα 0.02 θέλω να περάσω το μάθημα

Επεξ/σία 13 Μαρτίου 2022 από cchrm97

13 Μαρτίου 2022

1 ώρα πριν, cchrm97 είπε

Καλημέρα παιδιά. Δοκίμασα Gaussian Naive Bayes κ πέτυχα μέχρι 0.72 score. Ότι άλλο μοντέλο χρησιμοποιώ, το πολύ μέχρι 0.65 score μου δίνει.

Επίσης επισυνάπτω το heat map των μεταβλητών μου.

Πάντως στο πρόβλημα λέει το εξής

"Το ιστορικό προσφορών 2010-2015 χρησιμοποιήθηκε για τη δημιουργία συνόλων δεδομένων για αυτόν τον διαγωνισμό. Τα αρχικά δεδομένα περιείχαν περίπου 16 εκατομμύρια παρατηρήσεις (η μεταβλητή obs). Χρησιμοποιήθηκε για την εύρεση χαρακτηριστικών διανομής προσφοράς. "

Τροποποίησα λίγο τα δεδομένα μου και πήρα 0.78 score με Gaussian Naive Bayes. Άλλα 0.02 θέλω να περάσω το μάθημα

Επεξ/σία 13 Μαρτίου 2022 από cchrm97

DrKo · 13 Μαρτίου 2022

Και έτσι ακριβώς, βγαίνουν απόφοιτοι που δεν σκαμπάσουν τίποτα, έχοντας μάθει τίποτα, και το ρίχνουν στο Wordpress για να ζήσουν.

Ως αποτέλεσμα είναι η πληροφορική/επιστήμη υπολογιστών στην Ελλάδα να έχει ως μόνη διέξοδο το web dev.

@cchrm97

Από αυτά που γράφεις εγώ καταλαβαίνω πως δεν ξέρεις ούτε τι κάνεις αλλά ούτε και τι γίνεται. Καταλαβαίνω ότι απλά παπαγαλίζεις όρους, προσπαθώντας να πετύχεις 0.8 ως έξοδο μίας συνάντησης του sklearn. Φιλικά σου λέω πως τώρα είναι η ώρα να διαβάσεις και να μάθεις τι κάνεις και τι γίνεται.

13 Μαρτίου 2022

9 λεπτά πριν, DrKo είπε

Και έτσι ακριβώς, βγαίνουν απόφοιτοι που δεν σκαμπάσουν τίποτα, έχοντας μάθει τίποτα, και το ρίχνουν στο Wordpress για να ζήσουν.

Ως αποτέλεσμα είναι η πληροφορική/επιστήμη υπολογιστών στην Ελλάδα να έχει ως μόνη διέξοδο το web dev.

@cchrm97

Από αυτά που γράφεις εγώ καταλαβαίνω πως δεν ξέρεις ούτε τι κάνεις αλλά ούτε και τι γίνεται. Καταλαβαίνω ότι απλά παπαγαλίζεις όρους, προσπαθώντας να πετύχεις 0.8 ως έξοδο μίας συνάντησης του sklearn. Φιλικά σου λέω πως τώρα είναι η ώρα να διαβάσεις και να μάθεις τι κάνεις και τι γίνεται.

Δεν προσπαθω να πετυχω 0.8 ως εξοδο μιας συναρτησης του sklearn. Εκτος αυτου δεν γεννηθηκαν ολοι εμπειροι απο την μια μερα στην αλλη. Απο τα λαθη μαθαινουμε και συνεχιζουμε.

Πρωτοετης ειμαι.Θα μπορουσα πολυ απλα, να επιλεξω τον ευκολο δρομο να πληρωσω καποιον να μου το λυσει. Αλλα θελω να προσπαθησω μονος.

vs_skg · 13 Μαρτίου 2022

α οποτε η πληρωνεις η πετας σκατα στον τοιχο και οτι κολλησει. Αντε με το καλο να βρεις το 0.02 AUC που σου λειπει, αυτο ειναι το νοημα αλλωστε.

DrKo · 13 Μαρτίου 2022

59 λεπτά πριν, vs_skg είπε

α οποτε η πληρωνεις η πετας σκατα στον τοιχο και οτι κολλησει. Αντε με το καλο να βρεις το 0.02 AUC που σου λειπει, αυτο ειναι το νοημα αλλωστε.

Ακριβώς.

Theo1903 · 14 Μαρτίου 2022

Κοίτα, μπορεί λίγο οι προηγούμενοι να τσαντίστηκαν και να μίλησαν απότομα (εν μέρη με το δίκιο τους), αλλα και εσύ πρέπει να ξεχωρίσεις τι ζητάς.
Ψάχνεις κάποιον να σου λύσει την άσκηση "για να περάσεις" ή ψάχνεις να καταλάβεις όντως τι κάνεις και να λύσεις απορίες ?

Για το 1ο να ξες πολύ δύσκολα θα σε βοηθήσει κάποιος...

Αν ενδιαφέρεσαι για το 2ο, πρέπει και εσύ να βοηθήσεις για να βοηθηθείς. Για αρχή φαίνεται οτι δεν έχεις καταλάβει τι κάνεις αν απλά αντιγράφεις 7 σειρές απο την εκφώνηση της άσκησης, την στιγμή που όλοι θα καταλαβαίναμε τι θες αν έλεγες "έχω ένα binary classification πρόβλημα". Έπειτα και εφόσον καταλάβεις ΤΙ κάνεις (αν συνεχίζεις να μην ξέρεις googlαρε machine learning) το πιο σημαντικό πράγμα είναι τα δεδομένα σου. έχεις έναν αριθμό που είναι τα "obs" και 4 ακόμα στήλες που είναι αποτελεσματα απο αναλυση άλλων αριθμών χωρίς να μας λες που ανήκουν. Τι θα πεί μεσος όρος ? Μέσος όρος ποιου πράγματος ? Αυτό σε ρωτάει ο φίλος πιο πάνω και του ξαναστέλνεις τα ίδια..... Απο τα συμφραζόμενα μάλλον καταλαβαίνω πως το αρχικό dataset έχει αυτά τα "obs" για διαφορετικές χρονιές για κάθε νοσοκομείο και οι 4 στήλες αυτές σου δίνουν μια έξτρα πληροφορία για την συμπεριφορά της μεταβλητής στης χρονιές....μάλλον.
Αν αυτά ισχύουν, αυτό που σου ζητάει η άσκηση πρακτικά είναι να κατανοήσεις το dataset (ίσως να κάνεις και κάποιο preprocessing pipeline) και μετά να κάνεις fit ιδανικό μοντέλο για τα δεδομένα σου....αν υποθέσουμε κάποια πολύ βασική περίπτωση εφόσον είσαι και πρωτοετής μάλλον κάποιον decision tree αλγόριθμο όπως αναφέρθηκε πιο πάνω για την συσχέτιση των features σου. Σίγουρα όμως αν οι όροι που ανέφερα μεσα στο κείμενο δεν σου λένε τίποτα, πρέπει πρώτα να διαβάσεις....

Όπως και να έχει, καλη επιτυχία.

masteripper · 14 Μαρτίου 2022

Αν οι απαιτήσεις της άσκησης είναι πάνω απο 80% και εσύ ότι και να κάνεις βγαίνεις μονίμως χαμηλά (αν και το 78% είναι σουπερ σε σχέση με το αρχικό 65%) τότε ή στραβός είναι ο γιαλός ή στραβά αρμενίζουμε....ή πρέπει να δεις λίγο την όλη υπόθεση απο μια άλλη γωνία...π.χ. αντι για μαύρο - άσπρο --> άσπρο - μαύρο....ή ο εμπνευστής της άσκησης μπορεί να έχει ρίξει να πιάσει γεμάτα (ή και φυσικά να έκανε κάποιες λάθος παραδοχές και να νομίζει ότι είναι σωστό...μου έχει τύχει και αυτό , καθηγητής να πετάει όλους τους περιορισμούς της άσκησης και περήφανα να γράφει την "λύση" του)

Επεξ/σία 14 Μαρτίου 2022 από masteripper

basilis5 · 16 Μαρτίου 2022

Στις 13/3/2022 στις 5:24 ΠΜ, DrKo είπε

Συνήθως κάποιος που γνωρίζει τι κάνει κάθε μέθοδος, δοκιμάζει μία, το πολύ δύο μεθόδους. Το «πέτα τα δεδομένα σε κάθε function του sklearn/weka και δες τι βγαίνει» είναι εντελώς κακή πρακτική και δείχνει πως δεν υπάρχει καμία γνώση του τι γίνεται.

Θες να μας παραθεσεις καποια πηγη κατι, ποτε χρησιμοποιουμε logistic regr, ποτε naive bayes, ποτε nn, ποτε svm κοκ ;

DrKo · 16 Μαρτίου 2022

1 ώρα πριν, basilis5 είπε

Θες να μας παραθεσεις καποια πηγη κατι, ποτε χρησιμοποιουμε logistic regr, ποτε naive bayes, ποτε nn, ποτε svm κοκ ;

Καταλαβαίνω ότι η ερώτηση σου είναι:

"Ναι ΟΚ, εσύ είσαι ένας τυχαίος σε ένα forum, εγώ πώς μπορώ να μάθω που να χρησιμοποιώ το κάθε τι από κάτι έγκυρο και όχι από τα λόγια ενός τυχαίου;"

η οποία είναι εντελώς valid και εύλογη απορία, αλλά δεν έχω δει (εγώ προσωπικά) κάποια πηγή που να έχει αποκρυσταλωμένη αυτή την πληροφορία που ζητάς. Εικάζω γιατί η απάντηση είναι κυρίως διαδικασία. Για παράδειγμα, εάν διαβάσεις τι ακριβώς κάνει το logistic regression, πώς ένα ΝΝ είναι ένα απλό logistic regression με extra πραματάκια, τι κάνουν αυτά τα extra πραματάκια, και πώς ακριβώς έχουν μοντελοποιηθεί προηγουμένος (π.χ. η προσέγγιση με τα hyperplanes που βρίσκεις στα SVMs και τα kernel tricks), τότε θα μπορείς να καταλάβεις ποιες μεθόδοι είναι προτιμητέες για το εκάστοτε πρόβλημα και δεν θα κάνεις brute force στις functions του sklearn ή/και του Weka. Συγκεκριμένα, εάν δεις τα παραπάνω, τότε η απάντηση είναι NN.

Μετά έχεις να δεις και διαφορές και εφαρμογές για parametric και non-parametric, και γενικά, θέλει διάβασμα. Εάν έχεις απορίες συγκεκριμένες, μπορείς να ρωτήσεις εδώ.

Και για να το κάνω λίγο πιο απτό, έστω στο πρόβλημα του παιδιού που έγραψε εδώ:

Όποια μέθοδο χρησιμοποιήσεις, δεν πρόκειται να πάρεις αποτέλεσμα "Σόρρυ, δεν λειτουργεί". Όλες οι μέθοδοι θα σου βγάλουν έναν αριθμό στο τέλος.

Εκεί, ακριβώς, είναι η ανάγκη για σοβαρές σπουδές στο machine learning/data science, γιατί δεν είναι θέμα εάν θα βγάλει ή όχι αριθμό στο τέλος (όλες οι functions θα βγάλουν) αλλά τι είναι αυτός ο αριθμός, τι αντιπροσωπεύει, και τι κρύβει.

Οπότε, δεν υπάρχει ένα βιβλίο που να σου λέει ότι "Εάν έχεις Χ, τότε πρέπει το Υ, αλλιώς το Ζ". Δεν πρόκεται να γίνει κάτι τέτοιο.

Και σίγουρα, το brute force σε όλες τις μεθόδους και όλες τις υπέρ-παραμέτρους, είναι μία approach που δείχνει έλλειψη στην κατανόηση και την γνώση του τι κρύβεται από πίσω και τι πραγματικά γίνεται.

masteripper · 16 Μαρτίου 2022

Λόγια...λόγια και άλλα λόγια

Στο κομμάτι που τουλάχιστον με ενδιαφέρει εμένα απο αναγνώσεις άρθρων , μελετών κτλ ... κτλ το μόνο συμπέρασμα που βγαίνει είναι ότι η όλη υπόθεση με το ML - AI κτλ..(οπως θέλετε βαφτίστε το) είναι ότι είναι ελαφρώς υπερκτιμημένη...πολύ απλά αν τα δεδομένα ΔΕΝ...δεν υπάρχει αλγόριθμος που θα σου λύσει το πρόβλημα...ειδάλλως κάποιοι θα ήταν πολυεκατομμυριούχοι και φυσικά δεν θα ασχολούνταν με το να δίνουν συμβουλές σε forum.

Σε όλη την ιστορία με το ML απλώς ψάχνουμε να βρούμε ομοιότητες...μοτίβα κτλ...κτλ..κάποιοι αλγόριθμοι είναι απλώς πιο καλοί στον να προωθούν κάποια χαρακτηριστικά και φυσικά να υστερούν κάπου αλλού...ΑΝ όμως τα δεδομένα απλώς δεν ακολουθούν μια πεπατημένη του τύπου (κάπου καπως κάποτε αυτό που ψάχνω υπήρχε αυτούσιο) τότε ...όλα κουβά.

DrKo · 16 Μαρτίου 2022

44 λεπτά πριν, masteripper είπε

Λόγια...λόγια και άλλα λόγια

Στο κομμάτι που τουλάχιστον με ενδιαφέρει εμένα απο αναγνώσεις άρθρων , μελετών κτλ ... κτλ το μόνο συμπέρασμα που βγαίνει είναι ότι η όλη υπόθεση με το ML - AI κτλ..(οπως θέλετε βαφτίστε το) είναι ότι είναι ελαφρώς υπερκτιμημένη...πολύ απλά αν τα δεδομένα ΔΕΝ...δεν υπάρχει αλγόριθμος που θα σου λύσει το πρόβλημα...ειδάλλως κάποιοι θα ήταν πολυεκατομμυριούχοι και φυσικά δεν θα ασχολούνταν με το να δίνουν συμβουλές σε forum.

Σε όλη την ιστορία με το ML απλώς ψάχνουμε να βρούμε ομοιότητες...μοτίβα κτλ...κτλ..κάποιοι αλγόριθμοι είναι απλώς πιο καλοί στον να προωθούν κάποια χαρακτηριστικά και φυσικά να υστερούν κάπου αλλού...ΑΝ όμως τα δεδομένα απλώς δεν ακολουθούν μια πεπατημένη του τύπου (κάπου καπως κάποτε αυτό που ψάχνω υπήρχε αυτούσιο) τότε ...όλα κουβά.

Ό,τι να ΄ναι, τρικυμία εν κρανίο. Δεν φτάνει που δνε ξέρεις που σου πάνε τα 4, έχεις και άποψη.

masteripper · 16 Μαρτίου 2022

38 λεπτά πριν, DrKo είπε

Ό,τι να ΄ναι, τρικυμία εν κρανίο. Δεν φτάνει που δνε ξέρεις που σου πάνε τα 4, έχεις και άποψη.

Εως τώρα δεν έχουμε δει ούτε δείγμα των "ικανοτήτων" σου ..μόνο λόγια, λογάκια και θεωρίες της θεωρίας ... οπότε οι εξυπνάδες σου μόνο μειδίαμα προκαλούν

DrKo · 16 Μαρτίου 2022

1 λεπτό πριν, masteripper είπε

Εως τώρα δεν έχουμε δει ούτε δείγμα των "ικανοτήτων" σου ..μόνο λόγια, λογάκια και θεωρίες της θεωρίας ... οπότε οι εξυπνάδες σου μόνο μειδίαμα προκαλούν

Αυτό που προκαλεί "μειδίαμα" είναι πως δεν καταλαβαίνεις τα μισά από όσα γράφονται και πως θαρρείς ότι και να σου δείξουνε κάτι, ότι θα το καταλάβεις.

Theo1903 · 16 Μαρτίου 2022

5 hours ago, masteripper said:

Λόγια...λόγια και άλλα λόγια

Στο κομμάτι που τουλάχιστον με ενδιαφέρει εμένα απο αναγνώσεις άρθρων , μελετών κτλ ... κτλ το μόνο συμπέρασμα που βγαίνει είναι ότι η όλη υπόθεση με το ML - AI κτλ..(οπως θέλετε βαφτίστε το) είναι ότι είναι ελαφρώς υπερκτιμημένη...πολύ απλά αν τα δεδομένα ΔΕΝ...δεν υπάρχει αλγόριθμος που θα σου λύσει το πρόβλημα...ειδάλλως κάποιοι θα ήταν πολυεκατομμυριούχοι και φυσικά δεν θα ασχολούνταν με το να δίνουν συμβουλές σε forum.

Σε όλη την ιστορία με το ML απλώς ψάχνουμε να βρούμε ομοιότητες...μοτίβα κτλ...κτλ..κάποιοι αλγόριθμοι είναι απλώς πιο καλοί στον να προωθούν κάποια χαρακτηριστικά και φυσικά να υστερούν κάπου αλλού...ΑΝ όμως τα δεδομένα απλώς δεν ακολουθούν μια πεπατημένη του τύπου (κάπου καπως κάποτε αυτό που ψάχνω υπήρχε αυτούσιο) τότε ...όλα κουβά.

Μα αυτός ακριβώς είναι ο λόγος που ασχολούμαστε τα τελευταία χρόνια με αυτές τις τεχνολογίες... Σαν θεωρία είναι λυμμένα πολλά χρόνια πριν (σύμφωνα με την φίλη google η ιδέα για το ML παρουσιαστηκε το 1952), αυτό που άλλαξε τα τελευταία χρόνια είναι οι big data τεχνολογίες και τα διάφορα frameworks για εύκολο και γρήγορο integration. Πλέον έχουμε τόσα δεδομένα και πηγές που μπορει ο καθένας να ξεκινήσει απο το dataset και να αρχίσει να "τρέχει" τυφλά learning αλγοριθμους χωρίς να ασχοληθεί με το τι κάνει ο κάθενας (προφανώς με αμφιβόλου ποιότητας αποτελέσματα), αντί να πρέπει να αποδείξει μαθηματικά ΓΙΑΤΙ δουλεύει το συγκεκριμένο pipe.

Σύνδεση

Πρόβλεψη απάτης - Data analysis με Python

Προτεινόμενες αναρτήσεις

Επισκέπτης

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συχνή συμμετοχή στο θέμα

Δημοφιλείς Ημέρες

Συχνή συμμετοχή στο θέμα

Δημοφιλείς Ημέρες

Δημοφιλή Μηνύματα

DrKo

Lanike71

vs_skg

Δημοσιευμένες Εικόνες

Επισκέπτης

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Επισκέπτης

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

Σύνδεση