Πρόβλεψη απάτης - Data analysis με Python

9 Μαρτίου 2022

Καλησπέρα παιδιά,

Έχω μια εργασία και θέλω την γνώμη σας.

Στόχος της είναι η πρόβλεψη απάτης σε διαγωνισμούς φαρμάκων από νοσοκομεία. Για κάθε αναγνωριστικό στο δοκιμαστικό σύνολο, πρέπει να προβλέψω μια τιμή 0 (χωρίς απάτη) ή 1 (απάτη) για τη μεταβλητή y.

Δηλαδή πρέπει να εντοπίσω δόλια νοσοκομεία, που παρουσιάζουν κάποια ανωμαλία στο ιστορικό των προσφορών τους.

Τα δεδομένα μου είναι ένα train set, test set και ένα sample_submission(με δύο μεταβλητές id , y).

Το train set έχει 6 μεταβλητές

id - Κωδικός νοσοκομείου
obs - αριθμός παρατηρήσεων για το νοσοκομείο στο αρχικό σύνολο δεδομένων
std - τυπική απόκλιση;
median -
mean -
skew -
y - απάτη (0 - όχι, 1 - ναι).

Το metric αξιολογείται σε AUC.

Στην εργασία αυτή μπόρεσα να προβλέψω σωστά μόνο με 0.65, ενώ θέλω πάνω από 0.8+

Πως πιστεύετε μπορώ να αυξήσω την ακρίβεια της πρόβλεψης μου με δεδομένα αυτές τις μεταβλητές που έχω;

Επεξ/σία 9 Μαρτίου 2022 από cchrm97

DrKo · 9 Μαρτίου 2022

40 λεπτά πριν, cchrm97 είπε

Καλησπέρα παιδιά,

Έχω μια εργασία και θέλω την γνώμη σας.

Στόχος της είναι η πρόβλεψη απάτης σε διαγωνισμούς φαρμάκων από νοσοκομεία. Για κάθε αναγνωριστικό στο δοκιμαστικό σύνολο, πρέπει να προβλέψω μια τιμή 0 (χωρίς απάτη) ή 1 (απάτη) για τη μεταβλητή y.

Δηλαδή πρέπει να εντοπίσω δόλια νοσοκομεία, που παρουσιάζουν κάποια ανωμαλία στο ιστορικό των προσφορών τους.

Τα δεδομένα μου είναι ένα train set, test set και ένα sample_submission(με δύο μεταβλητές id , y).

Το train set έχει 6 μεταβλητές

id - Κωδικός νοσοκομείου
obs - αριθμός παρατηρήσεων για το νοσοκομείο στο αρχικό σύνολο δεδομένων
std - τυπική απόκλιση;
median -
mean -
skew -
y - απάτη (0 - όχι, 1 - ναι).

Το metric αξιολογείται σε AUC.

Στην εργασία αυτή μπόρεσα να προβλέψω σωστά μόνο με 0.65, ενώ θέλω πάνω από 0.8+

Πως πιστεύετε μπορώ να αυξήσω την ακρίβεια της πρόβλεψης μου με δεδομένα αυτές τις μεταβλητές που έχω;

Είναι πολύ γενική η ερώτηση σου. Τι έχεις κάνει; Για να λες ότι έχεις απόδοση λίγο πιο πάνω από τυχαία μαντεψιά, μάλλον δεν έχεις κάνει πολλά.

Επίσης, τα στοιχεία που παράθεσες, δεν βγάζουν και πολύ νόημα. Για παράδειγμα, τίνος είναι τα statistics που έχει κάθε νοσοκομείο; Δηλαδή, από τι ακριβώς υπολογίζεται το mean για παράδειγμα;

9 Μαρτίου 2022

1 ώρα πριν, DrKo είπε

Είναι πολύ γενική η ερώτηση σου. Τι έχεις κάνει; Για να λες ότι έχεις απόδοση λίγο πιο πάνω από τυχαία μαντεψιά, μάλλον δεν έχεις κάνει πολλά.

Επίσης, τα στοιχεία που παράθεσες, δεν βγάζουν και πολύ νόημα. Για παράδειγμα, τίνος είναι τα statistics που έχει κάθε νοσοκομείο; Δηλαδή, από τι ακριβώς υπολογίζεται το mean για παράδειγμα;

Ναι δεν έχω κάνει πολλά παρά μόνο έχω κάνει προβλέψεις μοντέλων από το test data.

Τα στοιχεία που παρέθεσα είναι ακριβώς αυτά που μου δόθηκαν. Επίσης, το ιστορικό προσφορών νοσοκομείων 2012-2018 χρησιμοποιήθηκε για τη δημιουργία συνόλων δεδομένων για αυτήν την εργασία.

Επεξ/σία 9 Μαρτίου 2022 από cchrm97

DrKo · 9 Μαρτίου 2022

27 λεπτά πριν, cchrm97 είπε

Ναι δεν έχω κάνει πολλά παρά μόνο έχω κάνει προβλέψεις μοντέλων από το test data.

Τα στοιχεία που παρέθεσα είναι ακριβώς αυτά που μου δόθηκαν. Επίσης, το ιστορικό προσφορών νοσοκομείων 2012-2018 χρησιμοποιήθηκε για τη δημιουργία συνόλων δεδομένων για αυτήν την εργασία.

Παραθέτω κ τα γραφήματα των μεταβλητών μου από το train set.

Σόρρυ, δεν καταλαβαίνω. Τι εννοείς έχεις κάνει προβλέψεις μοντέλων από τα test data;

Έχεις καμία ιδέα τι ακριβώς είναι τα δεδομένα σου;

9 Μαρτίου 2022

10 λεπτά πριν, DrKo είπε

Σόρρυ, δεν καταλαβαίνω. Τι εννοείς έχεις κάνει προβλέψεις μοντέλων από τα test data;

Έχεις καμία ιδέα τι ακριβώς είναι τα δεδομένα σου;

εννοώ ότι έχω προσαρμόσει ένα μοντέλο με την μεταβλητή 'y' (απάτη ή όχι) χρησιμοποιώντας όλες τις άλλες μεταβλητές στο σύνολο δεδομένων ως προγνωστικούς παράγοντες όπως 'obs', 'std' , 'mean', 'median':

Ούτε εγώ δεν μπορώ να καταλάβω τι ακριβώς είναι τα δεδομένα μου

DrKo · 9 Μαρτίου 2022

10 λεπτά πριν, cchrm97 είπε

εννοώ ότι έχω προσαρμόσει ένα μοντέλο με την μεταβλητή 'y' (απάτη ή όχι) χρησιμοποιώντας όλες τις άλλες μεταβλητές στο σύνολο δεδομένων ως προγνωστικούς παράγοντες όπως 'obs', 'std' , 'mean', 'median':

Ούτε εγώ δεν μπορώ να καταλάβω τι ακριβώς είναι τα δεδομένα μου

Ναι, δεν βοηθάς όμως.

Τι μοντέλο/αλγόριθμο χρησιμοποιείς; Πώς ακριβώς χρησιμοποιείς τα δεδομένα σου; Τι εννοείς με το «στο σύνολο των δεδομένων», χρησιμοποιείς και τα training και τα testing δεδομένα για να προσαρμόσεις το μοντέλο σου; Ποια πολιτική training χρησιμοποιείς; Ποια συνάρτηση χρησιμοποιείς για το error κατά το for/training;

Δηλαδή, προσπαθεί κάποιος να σε βοηθήσει και στα βγάζει με το τσιγκέλι.

archer100 · 9 Μαρτίου 2022

4 ώρες πριν, cchrm97 είπε

Καλησπέρα παιδιά,

Έχω μια εργασία και θέλω την γνώμη σας.

Στόχος της είναι η πρόβλεψη απάτης σε διαγωνισμούς φαρμάκων από νοσοκομεία. Για κάθε αναγνωριστικό στο δοκιμαστικό σύνολο, πρέπει να προβλέψω μια τιμή 0 (χωρίς απάτη) ή 1 (απάτη) για τη μεταβλητή y.

Δηλαδή πρέπει να εντοπίσω δόλια νοσοκομεία, που παρουσιάζουν κάποια ανωμαλία στο ιστορικό των προσφορών τους.

Τα δεδομένα μου είναι ένα train set, test set και ένα sample_submission(με δύο μεταβλητές id , y).

Το train set έχει 6 μεταβλητές

id - Κωδικός νοσοκομείου
obs - αριθμός παρατηρήσεων για το νοσοκομείο στο αρχικό σύνολο δεδομένων
std - τυπική απόκλιση;
median -
mean -
skew -
y - απάτη (0 - όχι, 1 - ναι).

Το metric αξιολογείται σε AUC.

Στην εργασία αυτή μπόρεσα να προβλέψω σωστά μόνο με 0.65, ενώ θέλω πάνω από 0.8+

Πως πιστεύετε μπορώ να αυξήσω την ακρίβεια της πρόβλεψης μου με δεδομένα αυτές τις μεταβλητές που έχω;

Με τι μοντελο προβλεψες; πχ regression η κατι αλλο;

DrKo · 9 Μαρτίου 2022

5 λεπτά πριν, archer100 είπε

Με τι μοντελο προβλεψες; πχ regression η κατι αλλο;

Το «regression» δεν είναι μοντέλο.

Με target values 0 και 1, το να λες για regression είναι λίγο εκτός τόπου. Ίσως λιγότερο από το να αποκαλείς το regression μοντέλο.

9 Μαρτίου 2022

10 λεπτά πριν, DrKo είπε

Το «regression» δεν είναι μοντέλο.

Με target values 0 και 1, το να λες για regression είναι λίγο εκτός τόπου. Ίσως λιγότερο από το να αποκαλείς το regression μοντέλο.

Καλησπέρα.

Κατάλαβα το νόημα πάντως.

Το train set εχει 7 μεταβλητές , ενώ το test set 6 ( δεν εχει δηλαδη την y που θελουμε να προβλεψουμε).

Αρα αφου η y παιρνει μονο τιμες 0 και 1 , θα χρησιμοποιησω λογιστικη παλινδρομηση.

Ευχομαι να βγει ετσι.

Επεξ/σία 9 Μαρτίου 2022 από cchrm97

basilis5 · 11 Μαρτίου 2022

Δοκιμασε επιπλεον μεθοδους classification, πχ svm, decision trees, xgboost ή random forests.

Το youtube ειναι γεματο βιβτεακια αν δεν εχεις ασχοληθει.

επισης παιξε με το οριο του prediction στην λογιστικη. Πχ μην φλαγκαρεις true οτι ειναι πανω απο 0.50

μπορει να βγαζει νοημα στο προβλημα σου το 0.6 πχ

Κανε δοκιμες και δες auc/confusion matrix with

Lanike71 · 12 Μαρτίου 2022

Στις 11/3/2022 στις 9:32 ΜΜ, basilis5 είπε

Δοκιμασε επιπλεον μεθοδους classification, πχ svm, decision trees, xgboost ή random forests.

Το youtube ειναι γεματο βιβτεακια αν δεν εχεις ασχοληθει.

επισης παιξε με το οριο του prediction στην λογιστικη. Πχ μην φλαγκαρεις true οτι ειναι πανω απο 0.50

μπορει να βγαζει νοημα στο προβλημα σου το 0.6 πχ

Κανε δοκιμες και δες auc/confusion matrix with

Αν τα δεδομένα από μόνα τους δε δίνουν πληροφορία, δε νομίζω ο αλγόριθμος να κάνει τη διαφορά.

Επίσης δε γίνεται κατανοητό τι είδους δεδομένα είναι αυτά...Mean, skew κλπ από τι ακριβώς;

Επεξ/σία 12 Μαρτίου 2022 από Lanike71

basilis5 · 12 Μαρτίου 2022

7 λεπτά πριν, Lanike71 είπε

Αν τα δεδομένα από μόνα τους δε δίνουν πληροφορία, δε νομίζω ο αλγόριθμος να κάνει τη διαφορά.

Επίσης δε γίνεται κατανοητό τι είδους δεδομένα είναι αυτά...Mean, skew κλπ από τι ακριβώς;

Δεν εχει να κανει αυτο που λες. Αν ηταν ετσι για καθε προβλημα θα δοκιμαζαμε μονο μια μεθοδο. Αλλα στην πραξη δοκιμαζουμε πολλες, ενω καποιες στην συνεχεια τις κανουμε και fine tune

Lanike71 · 12 Μαρτίου 2022

4 λεπτά πριν, basilis5 είπε

Δεν εχει να κανει αυτο που λες. Αν ηταν ετσι για καθε προβλημα θα δοκιμαζαμε μονο μια μεθοδο. Αλλα στην πραξη δοκιμαζουμε πολλες, ενω καποιες στην συνεχεια τις κανουμε και fine tune

Και όμως έχει να κάνει. Τα σωστά δεδομένα είναι το 90% της επιτυχίας. Οι αλγόριθμοι μπορεί να δώσουν μία διαφορά του 1-2%, όχι 15% που ζητάει ο OP.

Δεν ξέρω αν παίρνουν feauture engineering τα δεδομένα του OP. Μου φαίνεται λιγάκι δύσκολο ο ένας φοιτητής να πέτυχε 80% και ο άλλος 65% με ίδια δεδομένα αλλά άλλο αλγόριθμο.

vs_skg · 13 Μαρτίου 2022

Χωρίς

Στις 9/3/2022 στις 2:06 ΜΜ, cchrm97 είπε

obs - αριθμός παρατηρήσεων για το νοσοκομείο στο αρχικό σύνολο δεδομένων
std - τυπική απόκλιση;
median -
mean -
skew

δεν γραφεις ΤΙ ειναι οι παρατηρησεις.

Επειδη μας τα λες μισα, και πιστευω δεν καταλαβαίνεις και πολυ τι κανεις, ελπίζω να βγαλεις ακρη με αυτο που θα πω: μαλλον decision tree θελει ο καθηγητης να φτιαξετε.

https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html

DrKo · 13 Μαρτίου 2022

6 ώρες πριν, Lanike71 είπε

Μου φαίνεται λιγάκι δύσκολο ο ένας φοιτητής να πέτυχε 80% και ο άλλος 65% με ίδια δεδομένα αλλά άλλο αλγόριθμο.

Καθόλου δύσκολο. Γίνεται πολύ άνετα. Αυτό δεν αναιρεί την αξία καλών δεδομένων, αλλά με τις σύγχρονες μεθόδους η αξία των καλών δεδομένων δεν είναι τόση όση λες.

7 ώρες πριν, basilis5 είπε

Αν ηταν ετσι για καθε προβλημα θα δοκιμαζαμε μονο μια μεθοδο. Αλλα στην πραξη δοκιμαζουμε πολλες, ενω καποιες στην συνεχεια τις κανουμε και fine tune

Συνήθως κάποιος που γνωρίζει τι κάνει κάθε μέθοδος, δοκιμάζει μία, το πολύ δύο μεθόδους. Το «πέτα τα δεδομένα σε κάθε function του sklearn/weka και δες τι βγαίνει» είναι εντελώς κακή πρακτική και δείχνει πως δεν υπάρχει καμία γνώση του τι γίνεται.

Σύνδεση

Πρόβλεψη απάτης - Data analysis με Python

Προτεινόμενες αναρτήσεις

Επισκέπτης

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συχνή συμμετοχή στο θέμα

Δημοφιλείς Ημέρες

Συχνή συμμετοχή στο θέμα

Δημοφιλείς Ημέρες

Δημοφιλή Μηνύματα

DrKo

Lanike71

vs_skg

Δημοσιευμένες Εικόνες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Επισκέπτης

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Επισκέπτης

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Επισκέπτης

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

Σύνδεση