Πρόβλεψη απάτης - Data analysis με Python

TzafTzaf · 12 Ιουλίου 2022

Στις 9/3/2022 στις 4:06 ΜΜ, Επισκέπτης είπε

Καλησπέρα παιδιά,

Έχω μια εργασία και θέλω την γνώμη σας.

Στόχος της είναι η πρόβλεψη απάτης σε διαγωνισμούς φαρμάκων από νοσοκομεία. Για κάθε αναγνωριστικό στο δοκιμαστικό σύνολο, πρέπει να προβλέψω μια τιμή 0 (χωρίς απάτη) ή 1 (απάτη) για τη μεταβλητή y.

Δηλαδή πρέπει να εντοπίσω δόλια νοσοκομεία, που παρουσιάζουν κάποια ανωμαλία στο ιστορικό των προσφορών τους.

Τα δεδομένα μου είναι ένα train set, test set και ένα sample_submission(με δύο μεταβλητές id , y).

Το train set έχει 6 μεταβλητές

id - Κωδικός νοσοκομείου
obs - αριθμός παρατηρήσεων για το νοσοκομείο στο αρχικό σύνολο δεδομένων
std - τυπική απόκλιση;
median -
mean -
skew -
y - απάτη (0 - όχι, 1 - ναι).

Το metric αξιολογείται σε AUC.

Στην εργασία αυτή μπόρεσα να προβλέψω σωστά μόνο με 0.65, ενώ θέλω πάνω από 0.8+

Πως πιστεύετε μπορώ να αυξήσω την ακρίβεια της πρόβλεψης μου με δεδομένα αυτές τις μεταβλητές που έχω;

Αυτό όπως το λες είναι ένα classification problem!

Δηλαδή δε σου ζητάει να βρεις μια συνεχή τιμή κάποιας μετάβλητης από το dataset αλλά το αν κάτι ισχύει η όχι!

Regression μπορείς να χρησιμοποιήσεις ωστόσο σε καμία περίπτωση linear!

Λογιστική παλινδρόμηση και άλλους πολλούς αλγόριθμους μηχανικής μάθησης όπως K-NN,Random Forest,κλπ!

Ωστόσο ούτε και εγώ κατάλαβα πολύ φόντο θες να κάνεις!

Γενικά είναι πολύ πιο δύσκολο το να φέρεις τα δεδομένα σε μια μορφή που θα μπορεί να τα διαβάσει ο αλγόριθμος παρά το κομμάτι της μηχανικής μάθησης αυτό καθ' αυτό!

Σύνδεση

Πρόβλεψη απάτης - Data analysis με Python

Προτεινόμενες αναρτήσεις

TzafTzaf

Συνδέστε για να σχολιάσετε

Κοινοποίηση σε άλλες σελίδες

Συχνή συμμετοχή στο θέμα

Δημοφιλείς Ημέρες

Συχνή συμμετοχή στο θέμα

Δημοφιλείς Ημέρες

Δημοφιλή Μηνύματα

DrKo

Lanike71

vs_skg

Δημοσιευμένες Εικόνες

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

DrKo

Lanike71

vs_skg

Σύνδεση