Προς το περιεχόμενο

Πρόβλεψη απάτης - Data analysis με Python


Επισκέπτης

Προτεινόμενες αναρτήσεις

Επισκέπτης
Δημοσ. (επεξεργασμένο)

Καλησπέρα παιδιά,

Έχω μια εργασία και θέλω την γνώμη σας.

Στόχος της είναι η πρόβλεψη απάτης σε διαγωνισμούς φαρμάκων από νοσοκομεία. Για κάθε αναγνωριστικό στο δοκιμαστικό σύνολο, πρέπει να προβλέψω μια τιμή 0 (χωρίς απάτη) ή 1 (απάτη) για τη μεταβλητή y.

Δηλαδή πρέπει να εντοπίσω δόλια νοσοκομεία, που παρουσιάζουν κάποια ανωμαλία στο ιστορικό των προσφορών τους.

Τα δεδομένα μου είναι ένα train set, test set και ένα sample_submission(με δύο μεταβλητές id , y).

Το train set έχει 6 μεταβλητές

id - Κωδικός νοσοκομείου
obs - αριθμός παρατηρήσεων για το νοσοκομείο στο αρχικό σύνολο δεδομένων
std - τυπική απόκλιση;
median - 
mean - 
skew - 
y - απάτη (0 - όχι, 1 - ναι).

Το metric αξιολογείται σε AUC.

Στην εργασία αυτή μπόρεσα να προβλέψω σωστά μόνο με 0.65, ενώ θέλω πάνω από 0.8+

Πως πιστεύετε μπορώ να αυξήσω την ακρίβεια της πρόβλεψης μου με δεδομένα αυτές τις μεταβλητές που έχω;

Επεξ/σία από cchrm97
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

  • Απαντ. 45
  • Δημ.
  • Τελ. απάντηση

Συχνή συμμετοχή στο θέμα

40 λεπτά πριν, cchrm97 είπε

Καλησπέρα παιδιά,

Έχω μια εργασία και θέλω την γνώμη σας.

Στόχος της είναι η πρόβλεψη απάτης σε διαγωνισμούς φαρμάκων από νοσοκομεία. Για κάθε αναγνωριστικό στο δοκιμαστικό σύνολο, πρέπει να προβλέψω μια τιμή 0 (χωρίς απάτη) ή 1 (απάτη) για τη μεταβλητή y.

Δηλαδή πρέπει να εντοπίσω δόλια νοσοκομεία, που παρουσιάζουν κάποια ανωμαλία στο ιστορικό των προσφορών τους.

Τα δεδομένα μου είναι ένα train set, test set και ένα sample_submission(με δύο μεταβλητές id , y).

Το train set έχει 6 μεταβλητές

id - Κωδικός νοσοκομείου
obs - αριθμός παρατηρήσεων για το νοσοκομείο στο αρχικό σύνολο δεδομένων
std - τυπική απόκλιση;
median - 
mean - 
skew - 
y - απάτη (0 - όχι, 1 - ναι).

Το metric αξιολογείται σε AUC.

Στην εργασία αυτή μπόρεσα να προβλέψω σωστά μόνο με 0.65, ενώ θέλω πάνω από 0.8+

Πως πιστεύετε μπορώ να αυξήσω την ακρίβεια της πρόβλεψης μου με δεδομένα αυτές τις μεταβλητές που έχω;

Είναι πολύ γενική η ερώτηση σου. Τι έχεις κάνει; Για να λες ότι έχεις απόδοση λίγο πιο πάνω από τυχαία μαντεψιά, μάλλον δεν έχεις κάνει πολλά.

Επίσης, τα στοιχεία που παράθεσες, δεν βγάζουν και πολύ νόημα. Για παράδειγμα, τίνος είναι τα statistics που έχει κάθε νοσοκομείο; Δηλαδή, από τι ακριβώς υπολογίζεται το mean για παράδειγμα;

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Επισκέπτης
Δημοσ. (επεξεργασμένο)
1 ώρα πριν, DrKo είπε

Είναι πολύ γενική η ερώτηση σου. Τι έχεις κάνει; Για να λες ότι έχεις απόδοση λίγο πιο πάνω από τυχαία μαντεψιά, μάλλον δεν έχεις κάνει πολλά.

Επίσης, τα στοιχεία που παράθεσες, δεν βγάζουν και πολύ νόημα. Για παράδειγμα, τίνος είναι τα statistics που έχει κάθε νοσοκομείο; Δηλαδή, από τι ακριβώς υπολογίζεται το mean για παράδειγμα;

Ναι δεν έχω κάνει πολλά παρά μόνο έχω κάνει προβλέψεις μοντέλων από το test data. 

Τα στοιχεία που παρέθεσα είναι ακριβώς αυτά που μου δόθηκαν. Επίσης, το ιστορικό προσφορών νοσοκομείων 2012-2018 χρησιμοποιήθηκε για τη δημιουργία συνόλων δεδομένων για αυτήν την εργασία.

 

 

Επεξ/σία από cchrm97
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

27 λεπτά πριν, cchrm97 είπε

Ναι δεν έχω κάνει πολλά παρά μόνο έχω κάνει προβλέψεις μοντέλων από το test data. 

Τα στοιχεία που παρέθεσα είναι ακριβώς αυτά που μου δόθηκαν. Επίσης, το ιστορικό προσφορών νοσοκομείων 2012-2018 χρησιμοποιήθηκε για τη δημιουργία συνόλων δεδομένων για αυτήν την εργασία.

Παραθέτω κ τα γραφήματα των μεταβλητών μου από το train set.

1171052279_ScreenShot2022-03-09at6_00_06PM.png.07e2686ed92f309f768dfcdc60fb47e7.png

Σόρρυ, δεν καταλαβαίνω. Τι εννοείς έχεις κάνει προβλέψεις μοντέλων από τα test data;

Έχεις καμία ιδέα τι ακριβώς είναι τα δεδομένα σου;

 

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Επισκέπτης
10 λεπτά πριν, DrKo είπε

Σόρρυ, δεν καταλαβαίνω. Τι εννοείς έχεις κάνει προβλέψεις μοντέλων από τα test data;

Έχεις καμία ιδέα τι ακριβώς είναι τα δεδομένα σου;

 

εννοώ ότι έχω προσαρμόσει ένα μοντέλο με την μεταβλητή 'y' (απάτη ή όχι)  χρησιμοποιώντας όλες τις άλλες μεταβλητές στο σύνολο δεδομένων ως προγνωστικούς παράγοντες όπως 'obs', 'std' , 'mean', 'median':

Ούτε εγώ δεν μπορώ να καταλάβω τι ακριβώς είναι τα δεδομένα μου

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

10 λεπτά πριν, cchrm97 είπε

εννοώ ότι έχω προσαρμόσει ένα μοντέλο με την μεταβλητή 'y' (απάτη ή όχι)  χρησιμοποιώντας όλες τις άλλες μεταβλητές στο σύνολο δεδομένων ως προγνωστικούς παράγοντες όπως 'obs', 'std' , 'mean', 'median':

Ούτε εγώ δεν μπορώ να καταλάβω τι ακριβώς είναι τα δεδομένα μου

Ναι, δεν βοηθάς όμως.

Τι μοντέλο/αλγόριθμο χρησιμοποιείς; Πώς ακριβώς χρησιμοποιείς τα δεδομένα σου; Τι εννοείς με το «στο σύνολο των δεδομένων», χρησιμοποιείς και τα training και τα testing δεδομένα για να προσαρμόσεις το μοντέλο σου; Ποια πολιτική training χρησιμοποιείς; Ποια συνάρτηση χρησιμοποιείς για το error κατά το for/training;

Δηλαδή, προσπαθεί κάποιος να σε βοηθήσει και στα βγάζει με το τσιγκέλι. 

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

4 ώρες πριν, cchrm97 είπε

Καλησπέρα παιδιά,

Έχω μια εργασία και θέλω την γνώμη σας.

Στόχος της είναι η πρόβλεψη απάτης σε διαγωνισμούς φαρμάκων από νοσοκομεία. Για κάθε αναγνωριστικό στο δοκιμαστικό σύνολο, πρέπει να προβλέψω μια τιμή 0 (χωρίς απάτη) ή 1 (απάτη) για τη μεταβλητή y.

Δηλαδή πρέπει να εντοπίσω δόλια νοσοκομεία, που παρουσιάζουν κάποια ανωμαλία στο ιστορικό των προσφορών τους.

Τα δεδομένα μου είναι ένα train set, test set και ένα sample_submission(με δύο μεταβλητές id , y).

Το train set έχει 6 μεταβλητές

id - Κωδικός νοσοκομείου
obs - αριθμός παρατηρήσεων για το νοσοκομείο στο αρχικό σύνολο δεδομένων
std - τυπική απόκλιση;
median - 
mean - 
skew - 
y - απάτη (0 - όχι, 1 - ναι).

Το metric αξιολογείται σε AUC.

Στην εργασία αυτή μπόρεσα να προβλέψω σωστά μόνο με 0.65, ενώ θέλω πάνω από 0.8+

Πως πιστεύετε μπορώ να αυξήσω την ακρίβεια της πρόβλεψης μου με δεδομένα αυτές τις μεταβλητές που έχω;

Με τι μοντελο προβλεψες; πχ regression η κατι αλλο;

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

5 λεπτά πριν, archer100 είπε

Με τι μοντελο προβλεψες; πχ regression η κατι αλλο;

Το «regression» δεν είναι μοντέλο. 

Με target values 0 και 1, το να λες για regression είναι λίγο εκτός τόπου. Ίσως λιγότερο από το να αποκαλείς το regression μοντέλο. 

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Επισκέπτης
Δημοσ. (επεξεργασμένο)
10 λεπτά πριν, DrKo είπε

Το «regression» δεν είναι μοντέλο. 

Με target values 0 και 1, το να λες για regression είναι λίγο εκτός τόπου. Ίσως λιγότερο από το να αποκαλείς το regression μοντέλο. 

Καλησπέρα.

Κατάλαβα το νόημα πάντως.

Το train set εχει 7 μεταβλητές , ενώ το test set 6 ( δεν εχει δηλαδη την y που θελουμε να προβλεψουμε).

Αρα αφου η y παιρνει μονο τιμες 0 και 1 , θα χρησιμοποιησω λογιστικη παλινδρομηση.

Ευχομαι να βγει ετσι.

Επεξ/σία από cchrm97
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δοκιμασε επιπλεον μεθοδους classification, πχ svm, decision trees, xgboost ή random forests.

Το youtube ειναι γεματο βιβτεακια αν δεν εχεις ασχοληθει.

επισης παιξε με το οριο του prediction στην λογιστικη. Πχ μην φλαγκαρεις true οτι ειναι πανω απο 0.50 

μπορει να βγαζει νοημα στο προβλημα σου το 0.6 πχ

Κανε δοκιμες και δες auc/confusion matrix with 

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δημοσ. (επεξεργασμένο)
Στις 11/3/2022 στις 9:32 ΜΜ, basilis5 είπε

Δοκιμασε επιπλεον μεθοδους classification, πχ svm, decision trees, xgboost ή random forests.

Το youtube ειναι γεματο βιβτεακια αν δεν εχεις ασχοληθει.

επισης παιξε με το οριο του prediction στην λογιστικη. Πχ μην φλαγκαρεις true οτι ειναι πανω απο 0.50 

μπορει να βγαζει νοημα στο προβλημα σου το 0.6 πχ

Κανε δοκιμες και δες auc/confusion matrix with 

Αν τα δεδομένα από μόνα τους δε δίνουν πληροφορία, δε νομίζω ο αλγόριθμος να κάνει τη διαφορά.

 

Επίσης δε γίνεται κατανοητό τι είδους δεδομένα είναι αυτά...Mean, skew κλπ από τι ακριβώς;

Επεξ/σία από Lanike71
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

7 λεπτά πριν, Lanike71 είπε

Αν τα δεδομένα από μόνα τους δε δίνουν πληροφορία, δε νομίζω ο αλγόριθμος να κάνει τη διαφορά.

 

Επίσης δε γίνεται κατανοητό τι είδους δεδομένα είναι αυτά...Mean, skew κλπ από τι ακριβώς;

Δεν εχει να κανει αυτο που λες. Αν ηταν ετσι για καθε προβλημα θα δοκιμαζαμε μονο μια μεθοδο. Αλλα στην πραξη δοκιμαζουμε πολλες, ενω καποιες στην συνεχεια τις κανουμε και fine tune 

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

4 λεπτά πριν, basilis5 είπε

Δεν εχει να κανει αυτο που λες. Αν ηταν ετσι για καθε προβλημα θα δοκιμαζαμε μονο μια μεθοδο. Αλλα στην πραξη δοκιμαζουμε πολλες, ενω καποιες στην συνεχεια τις κανουμε και fine tune 

Και όμως έχει να κάνει. Τα σωστά δεδομένα είναι το 90% της επιτυχίας. Οι αλγόριθμοι μπορεί να δώσουν μία διαφορά του 1-2%, όχι 15% που ζητάει ο OP.

Δεν ξέρω αν παίρνουν feauture engineering τα δεδομένα του OP. Μου φαίνεται λιγάκι δύσκολο ο ένας φοιτητής να πέτυχε 80% και ο άλλος 65% με ίδια δεδομένα αλλά άλλο αλγόριθμο.

  • Like 1
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Χωρίς 

Στις 9/3/2022 στις 2:06 ΜΜ, cchrm97 είπε

obs - αριθμός παρατηρήσεων για το νοσοκομείο στο αρχικό σύνολο δεδομένων
std - τυπική απόκλιση;
median - 
mean - 
skew

δεν γραφεις ΤΙ ειναι οι παρατηρησεις. 

Επειδη μας τα λες μισα, και πιστευω δεν καταλαβαίνεις και πολυ τι κανεις, ελπίζω να βγαλεις ακρη με αυτο που θα πω: μαλλον decision tree θελει ο καθηγητης να φτιαξετε. 

https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

6 ώρες πριν, Lanike71 είπε

Μου φαίνεται λιγάκι δύσκολο ο ένας φοιτητής να πέτυχε 80% και ο άλλος 65% με ίδια δεδομένα αλλά άλλο αλγόριθμο.

Καθόλου δύσκολο. Γίνεται πολύ άνετα. Αυτό δεν αναιρεί την αξία καλών δεδομένων, αλλά με τις σύγχρονες μεθόδους η αξία των καλών δεδομένων δεν είναι τόση όση λες.

7 ώρες πριν, basilis5 είπε

Αν ηταν ετσι για καθε προβλημα θα δοκιμαζαμε μονο μια μεθοδο. Αλλα στην πραξη δοκιμαζουμε πολλες, ενω καποιες στην συνεχεια τις κανουμε και fine tune 

Συνήθως κάποιος που γνωρίζει τι κάνει κάθε μέθοδος, δοκιμάζει μία, το πολύ δύο μεθόδους.  Το «πέτα τα δεδομένα σε κάθε function του sklearn/weka και δες τι βγαίνει» είναι εντελώς κακή πρακτική και δείχνει πως δεν υπάρχει καμία γνώση του τι γίνεται. 

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα

  • Δημιουργία νέου...