Κανονικοποίηση Δεδομένων στην Python

Η ομαλοποίηση των δεδομένων είναι μια τεχνική που βοηθά στο να επιτευχθεί το αποτέλεσμα πιο γρήγορα καθώς το μηχάνημα πρέπει να επεξεργάζεται μικρότερο εύρος δεδομένων. Η κανονικοποίηση δεν είναι εύκολη υπόθεση γιατί όλα τα αποτελέσματά σας εξαρτώνται από την επιλογή της μεθόδου κανονικοποίησης. Έτσι, εάν έχετε επιλέξει λάθος μέθοδο για την ομαλοποίηση των δεδομένων σας, μπορεί να έχετε κάτι διαφορετικό από τις προσδοκίες σας.

Η κανονικοποίηση εξαρτάται επίσης από τον τύπο δεδομένων, όπως εικόνες, κείμενο, αριθμητικά κλπ. Έτσι, κάθε τύπος δεδομένων έχει διαφορετική μέθοδο κανονικοποίησης. Έτσι, σε αυτό το άρθρο, εστιάζουμε σε αριθμητικά δεδομένα.

Μέθοδος 1: Χρήση του sklearn

Η μέθοδος sklearn είναι μια πολύ γνωστή μέθοδος για την ομαλοποίηση των δεδομένων.

Σε αριθμό κελιού [83] : Εισάγουμε όλες τις απαιτούμενες βιβλιοθήκες, NumPy και sklearn. Μπορείτε να δείτε ότι εισάγουμε την προεπεξεργασία από το ίδιο το sklearn. Αυτός είναι ο λόγος για τον οποίο αυτή είναι η μέθοδος κανονικοποίησης sklearn.

Σε αριθμό κελιού [84] : Δημιουργήσαμε έναν πίνακα NumPy με κάποια ακέραιη τιμή που δεν είναι η ίδια.

Σε αριθμό κελιού [85] : Καλέσαμε τη μέθοδο κανονικοποίησης από την προεπεξεργασία και περάσαμε τον numpy_array, τον οποίο μόλις δημιουργήσαμε ως παράμετρο.

Σε αριθμό κελιού [86] : Μπορούμε να δούμε από τα αποτελέσματα, ότι όλα τα ακέραια δεδομένα μας είναι πλέον κανονικοποιημένα μεταξύ 0 και 1.

Μέθοδος 2: Κανονικοποίηση μιας συγκεκριμένης στήλης σε ένα σύνολο δεδομένων χρησιμοποιώντας το sklearn

Μπορούμε επίσης να ομαλοποιήσουμε τη συγκεκριμένη στήλη συνόλου δεδομένων. Σε αυτό, πρόκειται να συζητήσουμε για αυτό.

Στον αριθμό κελιού [87] : Εισάγουμε τα pandas της βιβλιοθήκης και sklearn.

Στο κελί αριθμός [88] : Δημιουργήσαμε ένα εικονικό αρχείο CSV και τώρα φορτώνουμε αυτό το αρχείο CSV με τη βοήθεια του πακέτου pandas (read_csv).

Στο κελί αριθμός [89] : Εκτυπώνουμε αυτό το αρχείο CSV που φορτώσαμε πρόσφατα.

Στον αριθμό κελιού [90] : Διαβάζουμε τη συγκεκριμένη στήλη του αρχείου CSV χρησιμοποιώντας το np. πίνακα και αποθηκεύστε το αποτέλεσμα στο value_array.

Σε αριθμό κελιού [92] , καλέσαμε τη μέθοδο κανονικοποίησης από την προεπεξεργασία και περάσαμε την παράμετρο value_array.

Μέθοδος 3: Μετατροπή σε κανονικοποίηση χωρίς τη χρήση των στηλών στον πίνακα (χρησιμοποιώντας sklearn)

Στην προηγούμενη μέθοδο 2, συζητήσαμε πώς να ομαλοποιήσουμε μια συγκεκριμένη στήλη αρχείου CSV. Αλλά μερικές φορές χρειάζεται να ομαλοποιήσουμε ολόκληρο το σύνολο δεδομένων, στη συνέχεια μπορούμε να χρησιμοποιήσουμε την παρακάτω μέθοδο όπου κανονικοποιούμε ολόκληρο το σύνολο δεδομένων αλλά κατά στήλη (άξονας = 0). Αν αναφέρουμε τον άξονα = 1, τότε θα κανονικοποιηθεί κατά σειρά. Ο άξονας = 1 είναι από προεπιλεγμένη τιμή.

Σε αριθμό κελιού [93] : Εισάγουμε τα pandas της βιβλιοθήκης και sklearn.

Σε αριθμό κελιού [94] : Δημιουργήσαμε ένα εικονικό αρχείο CSV (demo_numeric.csv) και τώρα φορτώνουμε αυτό το αρχείο CSV με τη βοήθεια του πακέτου pandas (read_csv).

Σε αριθμό κελιού [95] : Εκτυπώνουμε αυτό το αρχείο CSV που φορτώσαμε πρόσφατα.

Σε αριθμό κελιού [96] : Τώρα, περνάμε ολόκληρο το αρχείο CSV μαζί με έναν επιπλέον άξονα παραμέτρου = 0, που είπε στη βιβλιοθήκη ότι ο χρήστης ήθελε να ομαλοποιήσει ολόκληρο το σύνολο δεδομένων ως προς τη στήλη.

Στον αριθμό κελιού [97] , εκτυπώνουμε το αποτέλεσμα και κανονικοποιούμε δεδομένα με τιμή μεταξύ 0 και 1.

Μέθοδος 4: Χρήση MinMaxScaler ()

Το sklearn παρέχει επίσης μια άλλη μέθοδο κανονικοποίησης, την οποία ονομάσαμε MinMaxScalar. Αυτή είναι επίσης μια πολύ δημοφιλής μέθοδος επειδή είναι εύκολη στη χρήση.

Σε αριθμό κελιού [98] : Εισάγουμε όλα τα απαιτούμενα πακέτα.

Σε αριθμό κελιού [99] : Δημιουργήσαμε ένα εικονικό αρχείο CSV (demo_numeric.csv) και τώρα φορτώνουμε αυτό το αρχείο CSV με τη βοήθεια του πακέτου pandas (read_csv).

Σε αριθμό κελιού [100] : Εκτυπώνουμε αυτό το αρχείο CSV που φορτώσαμε πρόσφατα.

Στον αριθμό κελιού [101] : Καλέσαμε το MinMaxScalar από τη μέθοδο προεπεξεργασίας και δημιουργήσαμε ένα αντικείμενο (min_max_Scalar) γι 'αυτό. Δεν περάσαμε παραμέτρους επειδή πρέπει να ομαλοποιήσουμε τα δεδομένα μεταξύ 0 και 1. Αλλά αν θέλετε, μπορείτε να προσθέσετε τις τιμές σας που θα εμφανιστούν στην επόμενη μέθοδο.

Σε αριθμό κελιού [102] : Διαβάζουμε πρώτα όλα τα ονόματα των στηλών για περαιτέρω χρήση για την εμφάνιση αποτελεσμάτων. Στη συνέχεια, καλούμε το fit_tranform από το δημιουργημένο αντικείμενο min_max_Scalar και περάσαμε το αρχείο CSV σε αυτό.

Σε αριθμό κελιού [103] : Λαμβάνουμε τα κανονικοποιημένα αποτελέσματα που είναι μεταξύ 0 και 1.

Μέθοδος 5: Χρήση MinMaxScaler (feature_range = (x, y))

Το sklearn παρέχει επίσης την επιλογή να αλλάξετε την κανονικοποιημένη τιμή αυτού που θέλετε. Από προεπιλογή, κανονικοποιούν την τιμή μεταξύ 0 και 1. Αλλά υπάρχει μια παράμετρος που ονομάσαμε feature_range, η οποία μπορεί να ορίσει την κανονικοποιημένη τιμή σύμφωνα με τις απαιτήσεις μας.

Σε αριθμό κελιού [104] : Εισάγουμε όλα τα απαιτούμενα πακέτα.

Στο κελί αριθμός [105] : Δημιουργήσαμε ένα εικονικό αρχείο CSV (demo_numeric.csv) και τώρα φορτώνουμε αυτό το αρχείο CSV με τη βοήθεια του πακέτου pandas (read_csv).

Σε αριθμό κελιού [106] : Εκτυπώνουμε αυτό το αρχείο CSV που φορτώσαμε πρόσφατα.

Σε αριθμό κελιού [107] : Καλέσαμε το MinMaxScalar από τη μέθοδο προεπεξεργασίας και δημιουργήσαμε ένα αντικείμενο (min_max_Scalar) γι 'αυτό. Αλλά περνάμε επίσης μια άλλη παράμετρο στο εσωτερικό του MinMaxScaler (feature_range). Αυτή η τιμή παραμέτρου ορίσαμε 0 σε 2. Έτσι, τώρα, το MinMaxScaler θα ομαλοποιήσει τις τιμές δεδομένων μεταξύ 0 και 2.

Σε αριθμό κελιού [108] : Διαβάζουμε πρώτα όλα τα ονόματα των στηλών για περαιτέρω χρήση για την εμφάνιση αποτελεσμάτων. Στη συνέχεια, καλούμε το fit_tranform από το δημιουργημένο αντικείμενο min_max_Scalar και περάσαμε το αρχείο CSV σε αυτό.

Σε αριθμό κελιού [109] : Λαμβάνουμε τα κανονικοποιημένα αποτελέσματα που είναι μεταξύ 0 και 2.

Μέθοδος 6: Χρήση της μέγιστης απόλυτης κλιμάκωσης

Μπορούμε επίσης να κανονικοποιήσουμε τα δεδομένα χρησιμοποιώντας τα pandas. Αυτές οι δυνατότητες είναι επίσης πολύ δημοφιλείς στην ομαλοποίηση των δεδομένων. Η μέγιστη απόλυτη κλιμάκωση κανονικοποιεί τις τιμές μεταξύ 0 και 1. Εφαρμόζουμε εδώ .max () και .abs () όπως φαίνεται παρακάτω:

Στον αριθμό κελιού [110] : Εισάγουμε τη βιβλιοθήκη των pandas.

Στον αριθμό κελιού [111] : Δημιουργήσαμε ένα εικονικό πλαίσιο δεδομένων και εκτυπώσαμε αυτό το πλαίσιο δεδομένων.

Σε αριθμό κελιού [113] : Καλούμε κάθε στήλη και στη συνέχεια διαιρούμε τις τιμές της στήλης με τα .max () και .abs ().

Σε αριθμό κελιού [114] : Εκτυπώνουμε το αποτέλεσμα και από το αποτέλεσμα, επιβεβαιώνουμε ότι τα δεδομένα μας ομαλοποιούνται μεταξύ 0 και 1.

Μέθοδος 7: Χρήση της μεθόδου z-score

Η επόμενη μέθοδος που πρόκειται να συζητήσουμε είναι η μέθοδος z-score. Αυτή η μέθοδος μετατρέπει τις πληροφορίες στη διανομή. Αυτή η μέθοδος υπολογίζει το μέσο όρο κάθε στήλης και στη συνέχεια αφαιρεί από κάθε στήλη και, τέλος, τη διαιρεί με την τυπική απόκλιση. Αυτό ομαλοποιεί τα δεδομένα μεταξύ -1 και 1.

Στον αριθμό κελιού [115] : Δημιουργήσαμε ένα εικονικό πλαίσιο δεδομένων και εκτυπώσαμε αυτό το πλαίσιο δεδομένων.

Σε αριθμό κελιού [117] : Υπολογίζουμε τη μέση τιμή της στήλης και την αφαιρούμε από τη στήλη. Στη συνέχεια διαιρούμε την τιμή της στήλης με την τυπική απόκλιση.

Στο κελί [118] : Εκτυπώνουμε τα κανονικοποιημένα δεδομένα μεταξύ -1 και 1.

Συμπέρασμα: Έχουμε δει διαφορετικά είδη κανονικοποιημένων μεθόδων. Μεταξύ αυτών, το sklearn είναι πολύ διάσημο λόγω της υποστήριξης μηχανικής μάθησης. Αλλά αυτό εξαρτάται από τις απαιτήσεις του χρήστη. Μερικές φορές η λειτουργία pandas για την ομαλοποίηση των δεδομένων είναι αρκετή. Δεν μπορούμε να πούμε ότι υπάρχουν μόνο παραπάνω μέθοδοι κανονικοποίησης. Υπάρχουν πολυάριθμες μέθοδοι για την ομαλοποίηση δεδομένων που εξαρτώνται επίσης από τον τύπο δεδομένων σας όπως εικόνες, αριθμητικά, κείμενο κ.λπ. Επικεντρωνόμαστε σε αυτά τα αριθμητικά δεδομένα και την Python.

Κανονικοποίηση Δεδομένων στην Python

Μέθοδος 1: Χρήση του sklearn

Μέθοδος 2: Κανονικοποίηση μιας συγκεκριμένης στήλης σε ένα σύνολο δεδομένων χρησιμοποιώντας το sklearn

Μέθοδος 3: Μετατροπή σε κανονικοποίηση χωρίς τη χρήση των στηλών στον πίνακα (χρησιμοποιώντας sklearn)

Μέθοδος 4: Χρήση MinMaxScaler ()

Μέθοδος 5: Χρήση MinMaxScaler (feature_range = (x, y))

Μέθοδος 6: Χρήση της μέγιστης απόλυτης κλιμάκωσης

Μέθοδος 7: Χρήση της μεθόδου z-score

Κατηγορία

Δημοφιλείς Αναρτήσεις

Πώς να εκτυπώσετε τον αριθμό των παραμέτρων μοντέλου στο PyTorch

Αντιστροφή συμβολοσειράς σε C++

Πώς να εγκαταστήσετε το FlashArch – Adobe Flash SWF Player στο Linux Mint

Πώς να χρησιμοποιήσετε την κληρονομικότητα στο C#

Επιλέξτε την πιο πρόσφατη εγγραφή κατά ημερομηνία στο SQL

Δήλωση, αρχικοποίηση, εκτύπωση και αντιγραφή συμβολοσειρών στο C

[Μέρος 3] Πώς να χρησιμοποιήσετε το AWS CLI για τη διαχείριση παρουσιών EC2

10 Cool και Awesome Bash Loop Παραδείγματα

Λήψη ταπετσαριών Bing χωρίς υδατογράφημα - Winhelponline

Ποια είναι η προεπιλεγμένη θέση του Elasticsearch καταγραφής σφαλμάτων;

Πώς να εγκαταστήσετε το Onedrive στο Linux Mint 21

Οι καλύτεροι σαρωτές για υπολογιστή και πώς να επιλέξετε έναν σαρωτή

Υπάρχει ισοδύναμο PHP Echo/Print στο JavaScript

Πώς να διαβάσετε έναν πίνακα στο MATLAB;

Πώς να επιδιορθώσετε τα Windows 10 χρησιμοποιώντας το βοηθητικό πρόγραμμα DISM και SFC

Τρόπος αντιμετώπισης προβλημάτων κάμερας των Windows 11

Μπορεί το Arduino να τρέξει ρελέ 12 V;

Πώς να εργαστείτε με αρχεία CSV στο PowerShell

Πώς να μεταφέρετε δεδομένα μέσω Bluetooth στο Raspberry Pi

Πώς να εγκαταστήσετε το Git στο Pop!_OS