Pandas Fill Nan με 0

Pandas Fill Nan Me 0



Η επιστήμη δεδομένων συνήθως περιλαμβάνει δεδομένα που λείπουν. Είτε ολόκληρη η σειρά μπορεί να απορριφθεί είτε μια τιμή μπορεί να προστεθεί στον συνδυασμό γραμμής-στήλης. Η απόρριψη της γραμμής/στήλης θα ήταν παράλογη επειδή εξαλείφει μια συγκεκριμένη μέτρηση για κάθε σειρά. Το NaN, που σημαίνει 'Not a Number', είναι ένας από τους τυπικούς τρόπους εμφάνισης μιας τιμής που λείπει από ένα σύνολο δεδομένων. Για να επιτευχθούν τα επιδιωκόμενα αποτελέσματα, ο χειρισμός του NaN είναι πολύ σημαντικός. Λοιπόν, ας μάθουμε πώς να αλλάξουμε τις τιμές NaN σε μια γραμμή ή στήλη ενός Pandas DataFrame σε 0.

Τα πάντα γεμίζουν τιμές NaN

Εάν μια στήλη στο πλαίσιο δεδομένων σας έχει τιμές NaN ή None, μπορείτε να χρησιμοποιήσετε τις συναρτήσεις 'fillna()' ή 'replace()' για να τις συμπληρώσετε με μηδέν (0).

γέμισμα()







Οι τιμές NA/NaN συμπληρώνονται με την παρεχόμενη προσέγγιση χρησιμοποιώντας τη συνάρτηση «fillna()». Μπορεί να χρησιμοποιηθεί λαμβάνοντας υπόψη την ακόλουθη σύνταξη:



Εάν θέλετε να συμπληρώσετε τις τιμές NaN για μία στήλη, η σύνταξη είναι η εξής:




Όταν απαιτείται να συμπληρώσετε τις τιμές NaN για το πλήρες DataFrame, η σύνταξη είναι όπως παρέχεται:






Αντικαθιστώ()

Για να αντικαταστήσετε μια στήλη τιμών NaN, η σύνταξη που παρέχεται είναι η εξής:




Ενώ, για να αντικαταστήσουμε το σύνολο των τιμών NaN του DataFrame, πρέπει να χρησιμοποιήσουμε την ακόλουθη αναφερόμενη σύνταξη:


Σε αυτό το κείμενο, θα εξερευνήσουμε και θα μάθουμε την πρακτική εφαρμογή και των δύο αυτών μεθόδων για να συμπληρώσουμε τις τιμές NaN στο Pandas DataFrame μας.

Παράδειγμα 1: Συμπλήρωση τιμών NaN με χρήση της μεθόδου Pandas “Fillna()”.

Αυτή η εικόνα δείχνει την εφαρμογή της συνάρτησης Pandas 'DataFrame.fillna()' για τη συμπλήρωση των τιμών NaN στο δεδομένο DataFrame με 0. Μπορείτε είτε να συμπληρώσετε τις τιμές που λείπουν σε μία στήλη είτε μπορείτε να τις συμπληρώσετε για ολόκληρο το DataFrame. Εδώ, θα δούμε και τις δύο αυτές τεχνικές.

Για να εφαρμόσουμε αυτές τις στρατηγικές, πρέπει να αποκτήσουμε μια κατάλληλη πλατφόρμα για την εκτέλεση του προγράμματος. Έτσι, αποφασίσαμε να χρησιμοποιήσουμε το εργαλείο 'Spyder'. Ξεκινήσαμε τον κώδικα Python εισάγοντας την εργαλειοθήκη «pandas» στο πρόγραμμα επειδή πρέπει να χρησιμοποιήσουμε τη δυνατότητα Pandas για να κατασκευάσουμε το DataFrame καθώς και για να συμπληρώσουμε τις τιμές που λείπουν σε αυτό το DataFrame. Το 'pd' χρησιμοποιείται ως ψευδώνυμο 'pandas' σε όλο το πρόγραμμα.

Τώρα, έχουμε πρόσβαση στις λειτουργίες του Panda. Χρησιμοποιούμε πρώτα τη συνάρτηση 'pd.DataFrame()' για να δημιουργήσουμε το DataFrame μας. Επικαλεστήκαμε αυτήν τη μέθοδο και την αρχικοποιήσαμε με τρεις στήλες. Οι τίτλοι αυτών των στηλών είναι 'M1', 'M2' και 'M3'. Οι τιμές στη στήλη «M1» είναι «1», «Καμία», «5», «9» και «3». Οι εγγραφές στο 'M2' είναι 'Καμία', '3', '8', '4' και '6'. Ενώ το 'M3' αποθηκεύει τα δεδομένα ως '1', '2', '3', '5' και 'Κανένα'. Χρειαζόμαστε ένα αντικείμενο DataFrame στο οποίο μπορούμε να αποθηκεύσουμε αυτό το DataFrame όταν καλείται η μέθοδος 'pd.DataFrame()'. Δημιουργήσαμε ένα αντικείμενο DataFrame που «λείπει» και το εκχωρήσαμε με το αποτέλεσμα που λάβαμε από τη συνάρτηση «pd.DataFrame()». Στη συνέχεια, χρησιμοποιήσαμε τη μέθοδο «print()» της Python για να εμφανίσουμε το DataFrame στην κονσόλα Python.


Όταν εκτελούμε αυτό το κομμάτι κώδικα, ένα DataFrame με τρεις στήλες μπορεί να προβληθεί στο τερματικό. Εδώ, μπορούμε να παρατηρήσουμε ότι και οι τρεις στήλες περιέχουν τις μηδενικές τιμές σε αυτές.


Δημιουργήσαμε ένα DataFrame με μερικές μηδενικές τιμές για να εφαρμόσουμε τη συνάρτηση 'fillna()' του Panda για να συμπληρώσουμε τις τιμές που λείπουν με 0. Ας μάθουμε πώς μπορούμε να το κάνουμε αυτό.

Μετά την εμφάνιση του DataFrame, χρησιμοποιήσαμε τη συνάρτηση «fillna()» των Pandas. Εδώ, θα μάθουμε να συμπληρώνουμε τις τιμές που λείπουν σε μία στήλη. Η σύνταξη για αυτό αναφέρεται ήδη στην αρχή του σεμιναρίου. Δώσαμε το όνομα του DataFrame και καθορίσαμε τον συγκεκριμένο τίτλο στήλης με τη συνάρτηση “.fillna()”. Ανάμεσα στις παρενθέσεις αυτής της μεθόδου, δώσαμε την τιμή που θα τεθεί στις μηδενικές θέσεις. Το όνομα DataFrame 'λείπει' και η στήλη που επιλέξαμε εδώ είναι 'M2'. Η τιμή που παρέχεται μεταξύ των αγκύλων του 'fillna()' είναι '0'. Τέλος, καλέσαμε τη συνάρτηση «print()» για να προβάλουμε το ενημερωμένο DataFrame.


Εδώ, μπορείτε να δείτε ότι η στήλη 'M2' του DataFrame δεν περιέχει τιμές που λείπουν τώρα επειδή η τιμή NaN είναι γεμάτη με 0.


Για να συμπληρώσουμε τις τιμές NaN για ένα ολόκληρο DataFrame με την ίδια μέθοδο, καλέσαμε την 'fillna()'. Αυτό είναι αρκετά απλό. Δώσαμε στο όνομα DataFrame τη συνάρτηση “fillna()” και εκχωρήσαμε την τιμή της συνάρτησης “0” ανάμεσα στις παρενθέσεις. Τέλος, η συνάρτηση “print()” μας έδειξε το γεμάτο DataFrame.


Αυτό μας δίνει ένα DataFrame χωρίς τιμές NaN καθώς όλες οι τιμές συμπληρώνονται ξανά με 0 τώρα.

Παράδειγμα 2: Συμπληρώστε τιμές NaN χρησιμοποιώντας τη μέθοδο Pandas 'Replace()'.

Αυτό το μέρος του άρθρου παρουσιάζει μια άλλη μέθοδο συμπλήρωσης των τιμών NaN σε ένα DataFrame. Θα χρησιμοποιήσουμε τη συνάρτηση “replace()” των Panda για να συμπληρώσουμε τις τιμές σε μία στήλη και σε ένα πλήρες DataFrame.

Αρχίζουμε να γράφουμε τον κώδικα στο εργαλείο 'Spyder'. Αρχικά, εισάγαμε τις απαιτούμενες βιβλιοθήκες. Εδώ, φορτώσαμε τη βιβλιοθήκη Pandas για να επιτρέψουμε στο πρόγραμμα Python να χρησιμοποιεί τις μεθόδους Pandas. Η δεύτερη βιβλιοθήκη που φορτώσαμε είναι η NumPy και το ψευδώνυμο 'np'. Το NumPy χειρίζεται τα δεδομένα που λείπουν με τη μέθοδο 'replace()'.

Στη συνέχεια, δημιουργήσαμε ένα DataFrame με τρεις στήλες – «βίδα», «καρφί» και «τρυπάνι». Οι τιμές σε κάθε στήλη δίνονται αντίστοιχα. Η στήλη 'βίδα' έχει τιμές '112', '234', 'Καμία' και '650'. Η στήλη 'καρφί' έχει '123', '145', 'Καμία' και '711'. Τέλος, η στήλη 'τρυπάνι' έχει τιμές '312', 'Καμία', '500' και 'Καμία'. Το DataFrame αποθηκεύεται στο αντικείμενο DataFrame 'εργαλείο' και εμφανίζεται χρησιμοποιώντας τη μέθοδο 'print()'.


Ένα DataFrame με τέσσερις τιμές NaN στην εγγραφή φαίνεται στην ακόλουθη εικόνα εξόδου:


Τώρα, χρησιμοποιούμε τη μέθοδο 'replace()' του Pandas για να συμπληρώσουμε τις μηδενικές τιμές σε μία στήλη του DataFrame. Για την εργασία, χρησιμοποιήσαμε τη συνάρτηση 'replace()'. Παρέχαμε το όνομα DataFrame 'εργαλείο' και τη στήλη 'screw' με τη μέθοδο '.replace()'. Ανάμεσα στις αγκύλες του, ορίζουμε την τιμή '0' για τις καταχωρήσεις 'np.nan' στο DataFrame. Η μέθοδος 'print()' χρησιμοποιείται για την εμφάνιση της εξόδου.


Το προκύπτον DataFrame μας δείχνει την πρώτη στήλη με τις καταχωρήσεις NaN να αντικαθίστανται με 0 στη στήλη 'βίδα'.


Τώρα, θα μάθουμε να συμπληρώνουμε τις τιμές σε ολόκληρο το DataFrame. Καλέσαμε τη μέθοδο 'replace()' με το όνομα του DataFrame και δώσαμε την τιμή που θέλουμε να αντικαταστήσουμε με καταχωρήσεις np.nan. Τέλος, εκτυπώσαμε το ενημερωμένο DataFrame με τη συνάρτηση “print()”.


Αυτό μας δίνει το προκύπτον DataFrame χωρίς να λείπουν εγγραφές.

συμπέρασμα

Η αντιμετώπιση των εγγραφών που λείπουν σε ένα DataFrame είναι θεμελιώδης και απαραίτητη προϋπόθεση για τη μείωση της πολυπλοκότητας και τον προκλητικό χειρισμό των δεδομένων στη διαδικασία ανάλυσης δεδομένων. Το Pandas μας παρέχει μερικές επιλογές για να αντιμετωπίσουμε αυτό το πρόβλημα. Φέραμε δύο εύχρηστες στρατηγικές σε αυτόν τον οδηγό. Εφαρμόσαμε και τις δύο τεχνικές με τη βοήθεια του εργαλείου 'Spyder' για την εκτέλεση των δειγμάτων κωδικών για να κάνουμε τα πράγματα λίγο κατανοητά και πιο εύκολα για εσάς. Η απόκτηση γνώσης αυτών των λειτουργιών θα ενισχύσει τις δεξιότητές σας στα Panda.