Κανονικοποίηση Δεδομένων στην Python

Normalization Data Python



Η ομαλοποίηση των δεδομένων είναι μια τεχνική που βοηθά στο να επιτευχθεί το αποτέλεσμα πιο γρήγορα καθώς το μηχάνημα πρέπει να επεξεργάζεται μικρότερο εύρος δεδομένων. Η κανονικοποίηση δεν είναι εύκολη υπόθεση γιατί όλα τα αποτελέσματά σας εξαρτώνται από την επιλογή της μεθόδου κανονικοποίησης. Έτσι, εάν έχετε επιλέξει λάθος μέθοδο για την ομαλοποίηση των δεδομένων σας, μπορεί να έχετε κάτι διαφορετικό από τις προσδοκίες σας.

Η κανονικοποίηση εξαρτάται επίσης από τον τύπο δεδομένων, όπως εικόνες, κείμενο, αριθμητικά κλπ. Έτσι, κάθε τύπος δεδομένων έχει διαφορετική μέθοδο κανονικοποίησης. Έτσι, σε αυτό το άρθρο, εστιάζουμε σε αριθμητικά δεδομένα.







Μέθοδος 1: Χρήση του sklearn

Η μέθοδος sklearn είναι μια πολύ γνωστή μέθοδος για την ομαλοποίηση των δεδομένων.





Σε αριθμό κελιού [83] : Εισάγουμε όλες τις απαιτούμενες βιβλιοθήκες, NumPy και sklearn. Μπορείτε να δείτε ότι εισάγουμε την προεπεξεργασία από το ίδιο το sklearn. Αυτός είναι ο λόγος για τον οποίο αυτή είναι η μέθοδος κανονικοποίησης sklearn.





Σε αριθμό κελιού [84] : Δημιουργήσαμε έναν πίνακα NumPy με κάποια ακέραιη τιμή που δεν είναι η ίδια.

Σε αριθμό κελιού [85] : Καλέσαμε τη μέθοδο κανονικοποίησης από την προεπεξεργασία και περάσαμε τον numpy_array, τον οποίο μόλις δημιουργήσαμε ως παράμετρο.



Σε αριθμό κελιού [86] : Μπορούμε να δούμε από τα αποτελέσματα, ότι όλα τα ακέραια δεδομένα μας είναι πλέον κανονικοποιημένα μεταξύ 0 και 1.

Μέθοδος 2: Κανονικοποίηση μιας συγκεκριμένης στήλης σε ένα σύνολο δεδομένων χρησιμοποιώντας το sklearn

Μπορούμε επίσης να ομαλοποιήσουμε τη συγκεκριμένη στήλη συνόλου δεδομένων. Σε αυτό, πρόκειται να συζητήσουμε για αυτό.


Στον αριθμό κελιού [87] : Εισάγουμε τα pandas της βιβλιοθήκης και sklearn.

Στο κελί αριθμός [88] : Δημιουργήσαμε ένα εικονικό αρχείο CSV και τώρα φορτώνουμε αυτό το αρχείο CSV με τη βοήθεια του πακέτου pandas (read_csv).

Στο κελί αριθμός [89] : Εκτυπώνουμε αυτό το αρχείο CSV που φορτώσαμε πρόσφατα.

Στον αριθμό κελιού [90] : Διαβάζουμε τη συγκεκριμένη στήλη του αρχείου CSV χρησιμοποιώντας το np. πίνακα και αποθηκεύστε το αποτέλεσμα στο value_array.

Σε αριθμό κελιού [92] , καλέσαμε τη μέθοδο κανονικοποίησης από την προεπεξεργασία και περάσαμε την παράμετρο value_array.

Μέθοδος 3: Μετατροπή σε κανονικοποίηση χωρίς τη χρήση των στηλών στον πίνακα (χρησιμοποιώντας sklearn)

Στην προηγούμενη μέθοδο 2, συζητήσαμε πώς να ομαλοποιήσουμε μια συγκεκριμένη στήλη αρχείου CSV. Αλλά μερικές φορές χρειάζεται να ομαλοποιήσουμε ολόκληρο το σύνολο δεδομένων, στη συνέχεια μπορούμε να χρησιμοποιήσουμε την παρακάτω μέθοδο όπου κανονικοποιούμε ολόκληρο το σύνολο δεδομένων αλλά κατά στήλη (άξονας = 0). Αν αναφέρουμε τον άξονα = 1, τότε θα κανονικοποιηθεί κατά σειρά. Ο άξονας = 1 είναι από προεπιλεγμένη τιμή.


Σε αριθμό κελιού [93] : Εισάγουμε τα pandas της βιβλιοθήκης και sklearn.

Σε αριθμό κελιού [94] : Δημιουργήσαμε ένα εικονικό αρχείο CSV (demo_numeric.csv) και τώρα φορτώνουμε αυτό το αρχείο CSV με τη βοήθεια του πακέτου pandas (read_csv).

Σε αριθμό κελιού [95] : Εκτυπώνουμε αυτό το αρχείο CSV που φορτώσαμε πρόσφατα.

Σε αριθμό κελιού [96] : Τώρα, περνάμε ολόκληρο το αρχείο CSV μαζί με έναν επιπλέον άξονα παραμέτρου = 0, που είπε στη βιβλιοθήκη ότι ο χρήστης ήθελε να ομαλοποιήσει ολόκληρο το σύνολο δεδομένων ως προς τη στήλη.

Στον αριθμό κελιού [97] , εκτυπώνουμε το αποτέλεσμα και κανονικοποιούμε δεδομένα με τιμή μεταξύ 0 και 1.

Μέθοδος 4: Χρήση MinMaxScaler ()

Το sklearn παρέχει επίσης μια άλλη μέθοδο κανονικοποίησης, την οποία ονομάσαμε MinMaxScalar. Αυτή είναι επίσης μια πολύ δημοφιλής μέθοδος επειδή είναι εύκολη στη χρήση.


Σε αριθμό κελιού [98] : Εισάγουμε όλα τα απαιτούμενα πακέτα.

Σε αριθμό κελιού [99] : Δημιουργήσαμε ένα εικονικό αρχείο CSV (demo_numeric.csv) και τώρα φορτώνουμε αυτό το αρχείο CSV με τη βοήθεια του πακέτου pandas (read_csv).

Σε αριθμό κελιού [100] : Εκτυπώνουμε αυτό το αρχείο CSV που φορτώσαμε πρόσφατα.

Στον αριθμό κελιού [101] : Καλέσαμε το MinMaxScalar από τη μέθοδο προεπεξεργασίας και δημιουργήσαμε ένα αντικείμενο (min_max_Scalar) γι 'αυτό. Δεν περάσαμε παραμέτρους επειδή πρέπει να ομαλοποιήσουμε τα δεδομένα μεταξύ 0 και 1. Αλλά αν θέλετε, μπορείτε να προσθέσετε τις τιμές σας που θα εμφανιστούν στην επόμενη μέθοδο.

Σε αριθμό κελιού [102] : Διαβάζουμε πρώτα όλα τα ονόματα των στηλών για περαιτέρω χρήση για την εμφάνιση αποτελεσμάτων. Στη συνέχεια, καλούμε το fit_tranform από το δημιουργημένο αντικείμενο min_max_Scalar και περάσαμε το αρχείο CSV σε αυτό.

Σε αριθμό κελιού [103] : Λαμβάνουμε τα κανονικοποιημένα αποτελέσματα που είναι μεταξύ 0 και 1.

Μέθοδος 5: Χρήση MinMaxScaler (feature_range = (x, y))

Το sklearn παρέχει επίσης την επιλογή να αλλάξετε την κανονικοποιημένη τιμή αυτού που θέλετε. Από προεπιλογή, κανονικοποιούν την τιμή μεταξύ 0 και 1. Αλλά υπάρχει μια παράμετρος που ονομάσαμε feature_range, η οποία μπορεί να ορίσει την κανονικοποιημένη τιμή σύμφωνα με τις απαιτήσεις μας.

Σε αριθμό κελιού [104] : Εισάγουμε όλα τα απαιτούμενα πακέτα.

Στο κελί αριθμός [105] : Δημιουργήσαμε ένα εικονικό αρχείο CSV (demo_numeric.csv) και τώρα φορτώνουμε αυτό το αρχείο CSV με τη βοήθεια του πακέτου pandas (read_csv).

Σε αριθμό κελιού [106] : Εκτυπώνουμε αυτό το αρχείο CSV που φορτώσαμε πρόσφατα.

Σε αριθμό κελιού [107] : Καλέσαμε το MinMaxScalar από τη μέθοδο προεπεξεργασίας και δημιουργήσαμε ένα αντικείμενο (min_max_Scalar) γι 'αυτό. Αλλά περνάμε επίσης μια άλλη παράμετρο στο εσωτερικό του MinMaxScaler (feature_range). Αυτή η τιμή παραμέτρου ορίσαμε 0 σε 2. Έτσι, τώρα, το MinMaxScaler θα ομαλοποιήσει τις τιμές δεδομένων μεταξύ 0 και 2.

Σε αριθμό κελιού [108] : Διαβάζουμε πρώτα όλα τα ονόματα των στηλών για περαιτέρω χρήση για την εμφάνιση αποτελεσμάτων. Στη συνέχεια, καλούμε το fit_tranform από το δημιουργημένο αντικείμενο min_max_Scalar και περάσαμε το αρχείο CSV σε αυτό.

Σε αριθμό κελιού [109] : Λαμβάνουμε τα κανονικοποιημένα αποτελέσματα που είναι μεταξύ 0 και 2.

Μέθοδος 6: Χρήση της μέγιστης απόλυτης κλιμάκωσης

Μπορούμε επίσης να κανονικοποιήσουμε τα δεδομένα χρησιμοποιώντας τα pandas. Αυτές οι δυνατότητες είναι επίσης πολύ δημοφιλείς στην ομαλοποίηση των δεδομένων. Η μέγιστη απόλυτη κλιμάκωση κανονικοποιεί τις τιμές μεταξύ 0 και 1. Εφαρμόζουμε εδώ .max () και .abs () όπως φαίνεται παρακάτω:

Στον αριθμό κελιού [110] : Εισάγουμε τη βιβλιοθήκη των pandas.

Στον αριθμό κελιού [111] : Δημιουργήσαμε ένα εικονικό πλαίσιο δεδομένων και εκτυπώσαμε αυτό το πλαίσιο δεδομένων.

Σε αριθμό κελιού [113] : Καλούμε κάθε στήλη και στη συνέχεια διαιρούμε τις τιμές της στήλης με τα .max () και .abs ().

Σε αριθμό κελιού [114] : Εκτυπώνουμε το αποτέλεσμα και από το αποτέλεσμα, επιβεβαιώνουμε ότι τα δεδομένα μας ομαλοποιούνται μεταξύ 0 και 1.

Μέθοδος 7: Χρήση της μεθόδου z-score

Η επόμενη μέθοδος που πρόκειται να συζητήσουμε είναι η μέθοδος z-score. Αυτή η μέθοδος μετατρέπει τις πληροφορίες στη διανομή. Αυτή η μέθοδος υπολογίζει το μέσο όρο κάθε στήλης και στη συνέχεια αφαιρεί από κάθε στήλη και, τέλος, τη διαιρεί με την τυπική απόκλιση. Αυτό ομαλοποιεί τα δεδομένα μεταξύ -1 και 1.

Στον αριθμό κελιού [115] : Δημιουργήσαμε ένα εικονικό πλαίσιο δεδομένων και εκτυπώσαμε αυτό το πλαίσιο δεδομένων.

Σε αριθμό κελιού [117] : Υπολογίζουμε τη μέση τιμή της στήλης και την αφαιρούμε από τη στήλη. Στη συνέχεια διαιρούμε την τιμή της στήλης με την τυπική απόκλιση.

Στο κελί [118] : Εκτυπώνουμε τα κανονικοποιημένα δεδομένα μεταξύ -1 και 1.

Συμπέρασμα: Έχουμε δει διαφορετικά είδη κανονικοποιημένων μεθόδων. Μεταξύ αυτών, το sklearn είναι πολύ διάσημο λόγω της υποστήριξης μηχανικής μάθησης. Αλλά αυτό εξαρτάται από τις απαιτήσεις του χρήστη. Μερικές φορές η λειτουργία pandas για την ομαλοποίηση των δεδομένων είναι αρκετή. Δεν μπορούμε να πούμε ότι υπάρχουν μόνο παραπάνω μέθοδοι κανονικοποίησης. Υπάρχουν πολυάριθμες μέθοδοι για την ομαλοποίηση δεδομένων που εξαρτώνται επίσης από τον τύπο δεδομένων σας όπως εικόνες, αριθμητικά, κείμενο κ.λπ. Επικεντρωνόμαστε σε αυτά τα αριθμητικά δεδομένα και την Python.