Πώς να εκτελέσετε καθαρισμό δεδομένων με Python και Panda

Η εκμάθηση του καθαρισμού των δεδομένων χρησιμοποιώντας Python και Pandas είναι ζωτικής σημασίας για όποιον εργάζεται με δεδομένα. Ο καθαρισμός δεδομένων χρησιμοποιείται κυρίως για ακριβή ανάλυση και μοντελοποίηση αφαιρώντας τα σφάλματα και τις ασυνέπειες. Αυτός ο οδηγός περιγράφει τη διαδικασία βήμα προς βήμα με την οποία μας δείχνει πώς να χειριζόμαστε τα δεδομένα που λείπουν και να εντοπίζουμε ή να αναγνωρίζουμε τα ακραία σημεία. Με την Python και τα Panda ως εργαλεία μας, μπορούμε να μετατρέψουμε τα ακατάστατα δεδομένα σε καθαρές, εύχρηστες πληροφορίες. Αυτός ο οδηγός μας βοηθά επίσης να βελτιώσουμε την ποιότητα των δεδομένων μας και να τα προετοιμάσουμε για ανάλυση και λήψη αποφάσεων.

Καθαρισμός των δεδομένων με Python και Pandas

Τα δεδομένα είναι σαν τα δομικά στοιχεία της λήψης αποφάσεων σήμερα. Φανταστείτε όμως να έχετε μια ομάδα μπλοκ διαφορετικών σχημάτων και μεγεθών από αυτή τη συλλογή. είναι δύσκολο να φτιάξεις οτιδήποτε ουσιαστικό. Εδώ έρχεται να βοηθήσει ο καθαρισμός δεδομένων.

Αυτός ο οδηγός διερευνά πώς να καθαρίσετε τα δεδομένα χρησιμοποιώντας το πλαίσιο της Python που είναι τα Panda για καλύτερη λήψη αποφάσεων. Ο καθαρισμός δεδομένων είναι επίσης απαραίτητος, δεδομένου ότι εργαζόμαστε με μια λίστα με αρχεία πωλήσεων για ένα κατάστημα. Μπορεί να παρατηρήσουμε μερικούς αριθμούς που λείπουν, περίεργες ημερομηνίες και επαναλαμβανόμενα στοιχεία χωρίς λόγο στη λίστα. Εάν κάνουμε τους υπολογισμούς ή τις εγγραφές με βάση αυτές τις πληροφορίες, αυτά τα ζητήματα μπορεί να χαλάσουν τους υπολογισμούς και τις προβλέψεις μας. Ο καθαρισμός δεδομένων βοηθά στην επίλυση αυτών των προβλημάτων, διασφαλίζοντας ότι τα δεδομένα μας είναι ακριβή και έτοιμα για χρήση.

Ο καθαρισμός δεδομένων περιλαμβάνει το χειρισμό των δεδομένων που λείπουν και τι να κάνετε όταν λείπουν ορισμένα δεδομένα, την αφαίρεση των διπλότυπων, την απαλλαγή από αντιγραμμένα στοιχεία, τη διόρθωση των τύπων δεδομένων, τη διασφάλιση ότι όλα είναι στη σωστή μορφή και την αντιμετώπιση ακραίων στοιχείων ή τον χειρισμό των αριθμών Αυτά τα λάθη κάνουν τα δεδομένα να φαίνονται ίδια και τυποποιούν τον τρόπο εμφάνισης των δεδομένων.

Για να ξεκινήσετε, βεβαιωθείτε πρώτα ότι έχουμε εγκαταστήσει Python και Panda. Μπορούμε να το κάνουμε αυτό πληκτρολογώντας τις εντολές στο τερματικό ή στη γραμμή εντολών του υπολογιστή μας. Για να εφαρμόσουμε τους κώδικες που αναφέρονται σε αυτόν τον οδηγό, μπορούμε να χρησιμοποιήσουμε το Python Pycharm IDE που είναι εγκατεστημένο στο σύστημά μας ή την ηλεκτρονική πλατφόρμα Python που είναι το «Google Colab» και να εγκαταστήσουμε τις εντολές «pip» για να εγκαταστήσουμε τις σημαντικές βιβλιοθήκες.

Τώρα, ας εισαγάγουμε τα Panda και ας φορτώσουμε τα δείγματα δεδομένων μας. Για αυτό το παράδειγμα, χρησιμοποιούμε το Google Colab για την εκτέλεση των κωδικών. Έτσι, εισάγουμε πρώτα τα Panda εισάγοντας την ακόλουθη εντολή:

! pip install panda

εισαγωγή παντα όπως και πδ

εισαγωγή μουδιασμένος όπως και π.χ.

Στη συνέχεια, φορτώνουμε το σύνολο δεδομένων που θέλουμε να εμφανίσουμε χρησιμοποιώντας τη μέθοδο pd.read() που παίρνει τη διαδρομή του αρχείου ως παράμετρο εισόδου.

# Φορτώστε το σύνολο δεδομένων

δεδομένα = πδ. read_csv ( '/content/sample_data/california_housing_test.csv' )

# Εμφάνιση των πρώτων σειρών

Τυπώνω ( δεδομένα. κεφάλι ( ) )

Στο επόμενο παράδειγμα, χρησιμοποιούμε τα δεδομένα σχετικά με τις πωλήσεις σε ένα μικρό κατάστημα. Για τον χειρισμό των δεδομένων που λείπουν, μερικές φορές λείπουν οι πληροφορίες στα δεδομένα μας. Ονομάζουμε αυτά τα μέρη που λείπουν ως 'NaN' (που σημαίνει 'όχι αριθμός'). Για να βρούμε αυτές τις τιμές που λείπουν στο σενάριο Python, φορτώνουμε πρώτα το σύνολο δεδομένων όπως κάναμε στο προηγούμενο παράδειγμα. Στη συνέχεια, βρίσκουμε τυχόν τιμές που λείπουν στο σύνολο δεδομένων χρησιμοποιώντας τη συνάρτηση 'missing_values = data.isnull().sum()'. Αυτή η συνάρτηση βρίσκει όλες τις τιμές που λείπουν στο σύνολο δεδομένων. Στη συνέχεια, τα εμφανίζουμε χρησιμοποιώντας τη λειτουργία εκτύπωσης ().

! pip install panda
εισαγωγή παντα όπως και πδ
εισαγωγή μουδιασμένος όπως και π.χ.

# Φορτώστε το σύνολο δεδομένων
δεδομένα = πδ. read_csv ( '/content/sample_data/california_housing_test.csv' )

# Εμφάνιση των πρώτων σειρών
Τυπώνω ( δεδομένα. κεφάλι ( ) )

# Ελέγξτε για τιμές που λείπουν
ελλείπουσες_τιμές = δεδομένα. είναι μηδενικό ( ) . άθροισμα ( )

# Εμφάνιση τιμών που λείπουν μετρώντας ανά στήλη
Τυπώνω ( ελλείπουσες_τιμές )

Αφού βρούμε τυχόν δεδομένα που λείπουν σε οποιαδήποτε σειρά που εκτελεί τον κώδικα που αναφέρθηκε προηγουμένως, μπορούμε να αφαιρέσουμε αυτές τις σειρές, καθώς αυτές οι σειρές δεν έχουν πολλά χρήσιμα δεδομένα. Μπορούμε ακόμη να μαντέψουμε αυτές τις τιμές που λείπουν και να συμπληρώσουμε τα κενά με μορφωμένες εικασίες υπολογίζοντας τα δεδομένα που βασίζονται στο χρόνο με βάση τα κοντινά σημεία.

Τώρα, αφαιρούμε τα διπλότυπα που είναι αντίγραφα του ίδιου πράγματος επειδή μπορεί να μπερδέψουν την ανάλυσή μας. Για να βρούμε τις διπλότυπες τιμές στο σύνολο δεδομένων, χρησιμοποιούμε τη συνάρτηση “duplicate_rows = data[data.duplicated()]”. Για να απορρίψουμε αυτές τις διπλότυπες τιμές, καλούμε τη συνάρτηση data.drop_duplicates(). Μπορούμε να τα βρούμε και να τα αφαιρέσουμε χρησιμοποιώντας τον ακόλουθο κώδικα:

! pip install panda
εισαγωγή παντα όπως και πδ
εισαγωγή μουδιασμένος όπως και π.χ.
# Φορτώστε το σύνολο δεδομένων
δεδομένα = πδ. read_csv ( '/content/sample_data/california_housing_test.csv' )
# Εμφάνιση των πρώτων σειρών
Τυπώνω ( δεδομένα. κεφάλι ( ) )

# Ελέγξτε για διπλότυπες σειρές
duplicate_rows = δεδομένα [ δεδομένα. διπλό ( ) ]

# Αφαιρέστε τα διπλότυπα
δεδομένα = δεδομένα. drop_duplicates ( )

# Εμφάνιση των πρώτων σειρών μετά την αφαίρεση των διπλότυπων
Τυπώνω ( δεδομένα. κεφάλι ( ) )

Οι τύποι δεδομένων αποφασίζουν ποια δεδομένα μπορούν να αποθηκευτούν για να διορθωθούν οι τύποι δεδομένων. Είναι σημαντικό να έχετε τον σωστό τύπο για κάθε είδος δεδομένων. Για παράδειγμα, οι ημερομηνίες θα πρέπει να έχουν τον τύπο δεδομένων της ημερομηνίας ώρας και οι αριθμοί θα πρέπει να είναι σε τύπο δεδομένων όπως int, float κ.λπ. Για να ελέγξουμε τους τύπους δεδομένων των δεδομένων μας, χρησιμοποιούμε τη συνάρτηση 'data.dtypes'. Αυτή η λειτουργία μπορεί να χρησιμοποιηθεί με τον ακόλουθο τρόπο:

Εάν εντοπίσουμε προβλήματα, μπορούμε να αλλάξουμε τον τύπο δεδομένων χρησιμοποιώντας το Panda. Για παράδειγμα, μπορούμε να κάνουμε τις ημερομηνίες σε μορφή ημερομηνίας. Το χαρακτηριστικό 'dtypes' ενός DataFrame παρέχει πληροφορίες σχετικά με τους τύπους δεδομένων κάθε στήλης. Εάν διαπιστώσουμε ότι ο τύπος δεδομένων δεν ταιριάζει, μπορούμε να χρησιμοποιήσουμε τη συνάρτηση astype() του Pandas για να μετατρέψουμε τις στήλες στους επιθυμητούς τύπους.

Μετά τους τύπους δεδομένων, μερικές φορές συναντάμε ακραίες τιμές που είναι τιμές πολύ διαφορετικές από τις άλλες. Μπορούν να χαλάσουν τους υπολογισμούς μας. Για την αντιμετώπιση των ακραίων τιμών, ορίζουμε μια συνάρτηση που χρησιμοποιεί τη συνάρτηση z-score 'np.abs(stats.zscore(data))' η οποία συγκρίνει τις τιμές που υπάρχουν στα δεδομένα μας με την τιμή κατωφλίου. Οποιαδήποτε τιμή εκτός από το εύρος αυτού του ορίου θεωρείται ως ακραία τιμή . Ας δούμε πώς να βρείτε και να χειριστείτε τα ακραία:

! pip install panda
εισαγωγή τα πάντα όπως και πδ
εισαγωγή μουδιασμένος όπως και π.χ.

# Φορτώστε το σύνολο δεδομένων
δεδομένα = πδ. read_csv ( '/content/sample_data/california_housing_test.csv' )

# Εμφάνιση των πρώτων σειρών
Τυπώνω ( δεδομένα. κεφάλι ( ) )
από πικάντικη εισαγωγή στατιστικά

def ανίχνευση ακραίων ( δεδομένα ) :
z_scores = π.χ. κοιλιακούς ( στατιστικά. zscore ( δεδομένα ) )
ΕΠΙΣΤΡΟΦΗ π.χ. που ( z_scores > 3 )

# Εντοπισμός και χειρισμός ακραίων τιμών στη στήλη «Πωλήσεις».
ακραίες τιμές = ανίχνευση ακραίων ( δεδομένα [ 'γεωγραφικό μήκος' ] )
δεδομένα [ 'γεωγραφικό μήκος' ] . θέση [ ακραίες τιμές ] = δεδομένα [ 'γεωγραφικό μήκος' ] . διάμεσος ( )

# Εντοπίστε και χειριστείτε ακραίες τιμές στη στήλη «Πωλημένες μονάδες».
ακραίες τιμές = ανίχνευση ακραίων ( δεδομένα [ 'γεωγραφικό πλάτος' ] )
δεδομένα [ 'γεωγραφικό πλάτος' ] . θέση [ ακραίες τιμές ] = δεδομένα [ 'γεωγραφικό πλάτος' ] . διάμεσος ( )

# Εμφανίστε τις πρώτες σειρές μετά το χειρισμό των ακραίων τιμών
Τυπώνω ( δεδομένα. κεφάλι ( ) )

Χρησιμοποιούμε μια απλή μέθοδο για να βρούμε και να διορθώσουμε τις ακραίες τιμές στον προηγούμενο κώδικα. Περιλαμβάνει την αντικατάσταση των ακραίων τιμών με τη μεσαία τιμή των δεδομένων. Αυτός ο κώδικας χρησιμοποιεί τη μέθοδο Z-score για να ανιχνεύσει τα ακραία σημεία στις στήλες 'γεωγραφικό μήκος' και 'γεωγραφικό πλάτος' του συνόλου δεδομένων μας. Οι ακραίες τιμές αντικαθίστανται με τις διάμεσες τιμές των αντίστοιχων στηλών τους.

Για να κάνουν τα δεδομένα να φαίνονται ίδια, τα δεδομένα μπορεί μερικές φορές να φαίνονται διαφορετικά ακόμα κι αν σημαίνουν το ίδιο πράγμα. Για παράδειγμα, οι ημερομηνίες μπορούν να γραφτούν σε διάφορες μορφές. Η τυποποίηση περιλαμβάνει τη διασφάλιση συνεπούς μορφής και αναπαράστασης δεδομένων. Αυτό μπορεί να περιλαμβάνει τη μορφοποίηση των ημερομηνιών, τη μετατροπή του κειμένου σε πεζά ή την κανονικοποίηση των αριθμητικών τιμών. Ας τυποποιήσουμε τη στήλη 'Ημερομηνία' στο σύνολο δεδομένων μας και ας βεβαιωθούμε ότι τα δεδομένα μας έχουν την ίδια εμφάνιση:

εισαγωγή τα πάντα όπως και πδ
εισαγωγή μουδιασμένος όπως και π.χ. # Εισαγωγή numpy

# Φορτώστε τα δεδομένα
δεδομένα = πδ. read_csv ( 'sales_data.csv' )

# Κάντε τη στήλη 'Ημερομηνία' να φαίνεται συνεπής
δεδομένα [ 'Ημερομηνία' ] = πδ. to_datetime ( δεδομένα [ 'Ημερομηνία' ] )

# Δείτε πώς φαίνεται τώρα
Τυπώνω ( δεδομένα. κεφάλι ( ) )

Σε αυτό το παράδειγμα, τυποποιούμε τη μορφή ημερομηνίας στο σύνολο δεδομένων μας στη μορφή ημερομηνίας της Python χρησιμοποιώντας τη συνάρτηση 'pd.to_datetime(data['Date'])'. Μετατρέποντας τη στήλη «Ημερομηνία» στην ίδια μορφή, διευκολύνουμε την εργασία με αυτά τα δεδομένα. Η έξοδος εμφανίζει τις πρώτες λίγες σειρές του συνόλου δεδομένων με την τυποποιημένη στήλη 'Ημερομηνία'.

συμπέρασμα

Στο ταξίδι μας στον καθαρισμό δεδομένων χρησιμοποιώντας Python και Panda, μάθαμε πώς να βελτιώνουμε τα δεδομένα μας για ανάλυση. Ξεκινήσαμε κατανοώντας γιατί ο καθαρισμός των δεδομένων είναι τόσο σημαντικός. Μας βοηθά να παίρνουμε καλύτερες αποφάσεις. Εξερευνήσαμε πώς να αντιμετωπίσουμε τα δεδομένα που λείπουν, να αφαιρέσουμε τα διπλότυπα, να διορθώσουμε τους τύπους δεδομένων, να χειριστούμε τα ακραία στοιχεία και να κάνουμε τα δεδομένα μας να φαίνονται ίδια. Με αυτές τις δεξιότητες, είμαστε καλύτερα προετοιμασμένοι να μετατρέψουμε τα ακατάστατα δεδομένα σε κάτι που μπορούμε να εμπιστευτούμε και να χρησιμοποιήσουμε για να ανακαλύψουμε μια σημαντική πληροφορία. Ο καθαρισμός δεδομένων είναι μια συνεχής διαδικασία, όπως η διατήρηση του δωματίου μας τακτοποιημένου, και κάνει το ταξίδι ανάλυσης δεδομένων μας πιο επιτυχημένο.

Πώς να εκτελέσετε καθαρισμό δεδομένων με Python και Panda

Καθαρισμός των δεδομένων με Python και Pandas

συμπέρασμα

Κατηγορία

Δημοφιλείς Αναρτήσεις

Πώς να συνδεθείτε σε παρουσία Linux από τα Windows χρησιμοποιώντας PuTTY

Ποια είναι η χρήση της εφήμερης αποθήκευσης;

Πώς να χρησιμοποιήσετε την ετικέτα διεύθυνσης HTML;

Πώς να διορθώσετε το 'Πρόβλημα θολή γραμματοσειρά' στα Windows 10

Πώς να καρφιτσώσετε μηνύματα στο Discord

Πώς να δημιουργήσετε κάθετες γραμμές κύλισης με 'window.open()' σε JavaScript;

Τι είναι το Chorus.ai και πώς λειτουργεί;

Πώς να βγείτε από τον βρόχο foreach στο C# χρησιμοποιώντας τη λέξη-κλειδί διάλειμμα

Πώς να ρυθμίσετε εκ νέου τα εγκατεστημένα πακέτα στο Debian 11

C# Χρήση δήλωσης

Δώστε δικαιώματα τερματισμού λειτουργίας και επανεκκίνησης χρήστη στο Raspberry Pi

Εισαγωγή στους τύπους εγγραφών στο C# με παραδείγματα

Τι είναι το nullptr στη C++

Pip Εγκαταστήστε το Tkinter

Τρόπος κατάργησης των Dangling Docker Images

Ένθετες δηλώσεις If στην Python

Πώς να εφαρμόσετε τη λογική ReAct για εργασία με το Document Store;

Τι είναι ένα απροσδιόριστο σφάλμα ευρετηρίου στην PHP και πώς μπορεί να διορθωθεί;

Πρωτόκολλο επικοινωνίας Arduino

Πώς να εγκαταστήσετε VirtIO προγράμματα οδήγησης και QEMU Guest Agent σε Windows 10/11 Proxmox VE Virtual Machines