Πώς να εκτελέσετε καθαρισμό δεδομένων με Python και Panda

Pos Na Ektelesete Katharismo Dedomenon Me Python Kai Panda



Η εκμάθηση του καθαρισμού των δεδομένων χρησιμοποιώντας Python και Pandas είναι ζωτικής σημασίας για όποιον εργάζεται με δεδομένα. Ο καθαρισμός δεδομένων χρησιμοποιείται κυρίως για ακριβή ανάλυση και μοντελοποίηση αφαιρώντας τα σφάλματα και τις ασυνέπειες. Αυτός ο οδηγός περιγράφει τη διαδικασία βήμα προς βήμα με την οποία μας δείχνει πώς να χειριζόμαστε τα δεδομένα που λείπουν και να εντοπίζουμε ή να αναγνωρίζουμε τα ακραία σημεία. Με την Python και τα Panda ως εργαλεία μας, μπορούμε να μετατρέψουμε τα ακατάστατα δεδομένα σε καθαρές, εύχρηστες πληροφορίες. Αυτός ο οδηγός μας βοηθά επίσης να βελτιώσουμε την ποιότητα των δεδομένων μας και να τα προετοιμάσουμε για ανάλυση και λήψη αποφάσεων.

Καθαρισμός των δεδομένων με Python και Pandas

Τα δεδομένα είναι σαν τα δομικά στοιχεία της λήψης αποφάσεων σήμερα. Φανταστείτε όμως να έχετε μια ομάδα μπλοκ διαφορετικών σχημάτων και μεγεθών από αυτή τη συλλογή. είναι δύσκολο να φτιάξεις οτιδήποτε ουσιαστικό. Εδώ έρχεται να βοηθήσει ο καθαρισμός δεδομένων.

Αυτός ο οδηγός διερευνά πώς να καθαρίσετε τα δεδομένα χρησιμοποιώντας το πλαίσιο της Python που είναι τα Panda για καλύτερη λήψη αποφάσεων. Ο καθαρισμός δεδομένων είναι επίσης απαραίτητος, δεδομένου ότι εργαζόμαστε με μια λίστα με αρχεία πωλήσεων για ένα κατάστημα. Μπορεί να παρατηρήσουμε μερικούς αριθμούς που λείπουν, περίεργες ημερομηνίες και επαναλαμβανόμενα στοιχεία χωρίς λόγο στη λίστα. Εάν κάνουμε τους υπολογισμούς ή τις εγγραφές με βάση αυτές τις πληροφορίες, αυτά τα ζητήματα μπορεί να χαλάσουν τους υπολογισμούς και τις προβλέψεις μας. Ο καθαρισμός δεδομένων βοηθά στην επίλυση αυτών των προβλημάτων, διασφαλίζοντας ότι τα δεδομένα μας είναι ακριβή και έτοιμα για χρήση.







Ο καθαρισμός δεδομένων περιλαμβάνει το χειρισμό των δεδομένων που λείπουν και τι να κάνετε όταν λείπουν ορισμένα δεδομένα, την αφαίρεση των διπλότυπων, την απαλλαγή από αντιγραμμένα στοιχεία, τη διόρθωση των τύπων δεδομένων, τη διασφάλιση ότι όλα είναι στη σωστή μορφή και την αντιμετώπιση ακραίων στοιχείων ή τον χειρισμό των αριθμών Αυτά τα λάθη κάνουν τα δεδομένα να φαίνονται ίδια και τυποποιούν τον τρόπο εμφάνισης των δεδομένων.



Για να ξεκινήσετε, βεβαιωθείτε πρώτα ότι έχουμε εγκαταστήσει Python και Panda. Μπορούμε να το κάνουμε αυτό πληκτρολογώντας τις εντολές στο τερματικό ή στη γραμμή εντολών του υπολογιστή μας. Για να εφαρμόσουμε τους κώδικες που αναφέρονται σε αυτόν τον οδηγό, μπορούμε να χρησιμοποιήσουμε το Python Pycharm IDE που είναι εγκατεστημένο στο σύστημά μας ή την ηλεκτρονική πλατφόρμα Python που είναι το «Google Colab» και να εγκαταστήσουμε τις εντολές «pip» για να εγκαταστήσουμε τις σημαντικές βιβλιοθήκες.



Τώρα, ας εισαγάγουμε τα Panda και ας φορτώσουμε τα δείγματα δεδομένων μας. Για αυτό το παράδειγμα, χρησιμοποιούμε το Google Colab για την εκτέλεση των κωδικών. Έτσι, εισάγουμε πρώτα τα Panda εισάγοντας την ακόλουθη εντολή:





! pip install panda

εισαγωγή παντα όπως και πδ

εισαγωγή μουδιασμένος όπως και π.χ.

Στη συνέχεια, φορτώνουμε το σύνολο δεδομένων που θέλουμε να εμφανίσουμε χρησιμοποιώντας τη μέθοδο pd.read() που παίρνει τη διαδρομή του αρχείου ως παράμετρο εισόδου.

# Φορτώστε το σύνολο δεδομένων

δεδομένα = πδ. read_csv ( '/content/sample_data/california_housing_test.csv' )

# Εμφάνιση των πρώτων σειρών

Τυπώνω ( δεδομένα. κεφάλι ( ) )



Στο επόμενο παράδειγμα, χρησιμοποιούμε τα δεδομένα σχετικά με τις πωλήσεις σε ένα μικρό κατάστημα. Για τον χειρισμό των δεδομένων που λείπουν, μερικές φορές λείπουν οι πληροφορίες στα δεδομένα μας. Ονομάζουμε αυτά τα μέρη που λείπουν ως 'NaN' (που σημαίνει 'όχι αριθμός'). Για να βρούμε αυτές τις τιμές που λείπουν στο σενάριο Python, φορτώνουμε πρώτα το σύνολο δεδομένων όπως κάναμε στο προηγούμενο παράδειγμα. Στη συνέχεια, βρίσκουμε τυχόν τιμές που λείπουν στο σύνολο δεδομένων χρησιμοποιώντας τη συνάρτηση 'missing_values ​​= data.isnull().sum()'. Αυτή η συνάρτηση βρίσκει όλες τις τιμές που λείπουν στο σύνολο δεδομένων. Στη συνέχεια, τα εμφανίζουμε χρησιμοποιώντας τη λειτουργία εκτύπωσης ().

! pip install panda
εισαγωγή παντα όπως και πδ
εισαγωγή μουδιασμένος όπως και π.χ.

# Φορτώστε το σύνολο δεδομένων
δεδομένα = πδ. read_csv ( '/content/sample_data/california_housing_test.csv' )

# Εμφάνιση των πρώτων σειρών
Τυπώνω ( δεδομένα. κεφάλι ( ) )

# Ελέγξτε για τιμές που λείπουν
ελλείπουσες_τιμές = δεδομένα. είναι μηδενικό ( ) . άθροισμα ( )

# Εμφάνιση τιμών που λείπουν μετρώντας ανά στήλη
Τυπώνω ( ελλείπουσες_τιμές )

Αφού βρούμε τυχόν δεδομένα που λείπουν σε οποιαδήποτε σειρά που εκτελεί τον κώδικα που αναφέρθηκε προηγουμένως, μπορούμε να αφαιρέσουμε αυτές τις σειρές, καθώς αυτές οι σειρές δεν έχουν πολλά χρήσιμα δεδομένα. Μπορούμε ακόμη να μαντέψουμε αυτές τις τιμές που λείπουν και να συμπληρώσουμε τα κενά με μορφωμένες εικασίες υπολογίζοντας τα δεδομένα που βασίζονται στο χρόνο με βάση τα κοντινά σημεία.

Τώρα, αφαιρούμε τα διπλότυπα που είναι αντίγραφα του ίδιου πράγματος επειδή μπορεί να μπερδέψουν την ανάλυσή μας. Για να βρούμε τις διπλότυπες τιμές στο σύνολο δεδομένων, χρησιμοποιούμε τη συνάρτηση “duplicate_rows = data[data.duplicated()]”. Για να απορρίψουμε αυτές τις διπλότυπες τιμές, καλούμε τη συνάρτηση data.drop_duplicates(). Μπορούμε να τα βρούμε και να τα αφαιρέσουμε χρησιμοποιώντας τον ακόλουθο κώδικα:

! pip install panda
εισαγωγή παντα όπως και πδ
εισαγωγή μουδιασμένος όπως και π.χ.
# Φορτώστε το σύνολο δεδομένων
δεδομένα = πδ. read_csv ( '/content/sample_data/california_housing_test.csv' )
# Εμφάνιση των πρώτων σειρών
Τυπώνω ( δεδομένα. κεφάλι ( ) )

# Ελέγξτε για διπλότυπες σειρές
duplicate_rows = δεδομένα [ δεδομένα. διπλό ( ) ]

# Αφαιρέστε τα διπλότυπα
δεδομένα = δεδομένα. drop_duplicates ( )

# Εμφάνιση των πρώτων σειρών μετά την αφαίρεση των διπλότυπων
Τυπώνω ( δεδομένα. κεφάλι ( ) )

Οι τύποι δεδομένων αποφασίζουν ποια δεδομένα μπορούν να αποθηκευτούν για να διορθωθούν οι τύποι δεδομένων. Είναι σημαντικό να έχετε τον σωστό τύπο για κάθε είδος δεδομένων. Για παράδειγμα, οι ημερομηνίες θα πρέπει να έχουν τον τύπο δεδομένων της ημερομηνίας ώρας και οι αριθμοί θα πρέπει να είναι σε τύπο δεδομένων όπως int, float κ.λπ. Για να ελέγξουμε τους τύπους δεδομένων των δεδομένων μας, χρησιμοποιούμε τη συνάρτηση 'data.dtypes'. Αυτή η λειτουργία μπορεί να χρησιμοποιηθεί με τον ακόλουθο τρόπο:

! pip install panda
εισαγωγή τα πάντα όπως και πδ
εισαγωγή μουδιασμένος όπως και π.χ.
# Φορτώστε το σύνολο δεδομένων
δεδομένα = πδ. read_csv ( '/content/sample_data/california_housing_test.csv' )
# Εμφάνιση των πρώτων σειρών
Τυπώνω ( δεδομένα. κεφάλι ( ) )
# Ελέγξτε τους τύπους δεδομένων κάθε στήλης
τύπους_δεδομένων = δεδομένα. dtypes

# Εμφάνιση τύπων δεδομένων
Τυπώνω ( τύπους_δεδομένων )

Εάν εντοπίσουμε προβλήματα, μπορούμε να αλλάξουμε τον τύπο δεδομένων χρησιμοποιώντας το Panda. Για παράδειγμα, μπορούμε να κάνουμε τις ημερομηνίες σε μορφή ημερομηνίας. Το χαρακτηριστικό 'dtypes' ενός DataFrame παρέχει πληροφορίες σχετικά με τους τύπους δεδομένων κάθε στήλης. Εάν διαπιστώσουμε ότι ο τύπος δεδομένων δεν ταιριάζει, μπορούμε να χρησιμοποιήσουμε τη συνάρτηση astype() του Pandas για να μετατρέψουμε τις στήλες στους επιθυμητούς τύπους.

Μετά τους τύπους δεδομένων, μερικές φορές συναντάμε ακραίες τιμές που είναι τιμές πολύ διαφορετικές από τις άλλες. Μπορούν να χαλάσουν τους υπολογισμούς μας. Για την αντιμετώπιση των ακραίων τιμών, ορίζουμε μια συνάρτηση που χρησιμοποιεί τη συνάρτηση z-score 'np.abs(stats.zscore(data))' η οποία συγκρίνει τις τιμές που υπάρχουν στα δεδομένα μας με την τιμή κατωφλίου. Οποιαδήποτε τιμή εκτός από το εύρος αυτού του ορίου θεωρείται ως ακραία τιμή . Ας δούμε πώς να βρείτε και να χειριστείτε τα ακραία:

! pip install panda
εισαγωγή τα πάντα όπως και πδ
εισαγωγή μουδιασμένος όπως και π.χ.

# Φορτώστε το σύνολο δεδομένων
δεδομένα = πδ. read_csv ( '/content/sample_data/california_housing_test.csv' )

# Εμφάνιση των πρώτων σειρών
Τυπώνω ( δεδομένα. κεφάλι ( ) )
από πικάντικη εισαγωγή στατιστικά

def ανίχνευση ακραίων ( δεδομένα ) :
z_scores = π.χ. κοιλιακούς ( στατιστικά. zscore ( δεδομένα ) )
ΕΠΙΣΤΡΟΦΗ π.χ. που ( z_scores > 3 )

# Εντοπισμός και χειρισμός ακραίων τιμών στη στήλη «Πωλήσεις».
ακραίες τιμές = ανίχνευση ακραίων ( δεδομένα [ 'γεωγραφικό μήκος' ] )
δεδομένα [ 'γεωγραφικό μήκος' ] . θέση [ ακραίες τιμές ] = δεδομένα [ 'γεωγραφικό μήκος' ] . διάμεσος ( )

# Εντοπίστε και χειριστείτε ακραίες τιμές στη στήλη «Πωλημένες μονάδες».
ακραίες τιμές = ανίχνευση ακραίων ( δεδομένα [ 'γεωγραφικό πλάτος' ] )
δεδομένα [ 'γεωγραφικό πλάτος' ] . θέση [ ακραίες τιμές ] = δεδομένα [ 'γεωγραφικό πλάτος' ] . διάμεσος ( )

# Εμφανίστε τις πρώτες σειρές μετά το χειρισμό των ακραίων τιμών
Τυπώνω ( δεδομένα. κεφάλι ( ) )

Χρησιμοποιούμε μια απλή μέθοδο για να βρούμε και να διορθώσουμε τις ακραίες τιμές στον προηγούμενο κώδικα. Περιλαμβάνει την αντικατάσταση των ακραίων τιμών με τη μεσαία τιμή των δεδομένων. Αυτός ο κώδικας χρησιμοποιεί τη μέθοδο Z-score για να ανιχνεύσει τα ακραία σημεία στις στήλες 'γεωγραφικό μήκος' και 'γεωγραφικό πλάτος' του συνόλου δεδομένων μας. Οι ακραίες τιμές αντικαθίστανται με τις διάμεσες τιμές των αντίστοιχων στηλών τους.

Για να κάνουν τα δεδομένα να φαίνονται ίδια, τα δεδομένα μπορεί μερικές φορές να φαίνονται διαφορετικά ακόμα κι αν σημαίνουν το ίδιο πράγμα. Για παράδειγμα, οι ημερομηνίες μπορούν να γραφτούν σε διάφορες μορφές. Η τυποποίηση περιλαμβάνει τη διασφάλιση συνεπούς μορφής και αναπαράστασης δεδομένων. Αυτό μπορεί να περιλαμβάνει τη μορφοποίηση των ημερομηνιών, τη μετατροπή του κειμένου σε πεζά ή την κανονικοποίηση των αριθμητικών τιμών. Ας τυποποιήσουμε τη στήλη 'Ημερομηνία' στο σύνολο δεδομένων μας και ας βεβαιωθούμε ότι τα δεδομένα μας έχουν την ίδια εμφάνιση:

εισαγωγή τα πάντα όπως και πδ
εισαγωγή μουδιασμένος όπως και π.χ. # Εισαγωγή numpy

# Φορτώστε τα δεδομένα
δεδομένα = πδ. read_csv ( 'sales_data.csv' )

# Κάντε τη στήλη 'Ημερομηνία' να φαίνεται συνεπής
δεδομένα [ 'Ημερομηνία' ] = πδ. to_datetime ( δεδομένα [ 'Ημερομηνία' ] )

# Δείτε πώς φαίνεται τώρα
Τυπώνω ( δεδομένα. κεφάλι ( ) )

Σε αυτό το παράδειγμα, τυποποιούμε τη μορφή ημερομηνίας στο σύνολο δεδομένων μας στη μορφή ημερομηνίας της Python χρησιμοποιώντας τη συνάρτηση 'pd.to_datetime(data['Date'])'. Μετατρέποντας τη στήλη «Ημερομηνία» στην ίδια μορφή, διευκολύνουμε την εργασία με αυτά τα δεδομένα. Η έξοδος εμφανίζει τις πρώτες λίγες σειρές του συνόλου δεδομένων με την τυποποιημένη στήλη 'Ημερομηνία'.

συμπέρασμα

Στο ταξίδι μας στον καθαρισμό δεδομένων χρησιμοποιώντας Python και Panda, μάθαμε πώς να βελτιώνουμε τα δεδομένα μας για ανάλυση. Ξεκινήσαμε κατανοώντας γιατί ο καθαρισμός των δεδομένων είναι τόσο σημαντικός. Μας βοηθά να παίρνουμε καλύτερες αποφάσεις. Εξερευνήσαμε πώς να αντιμετωπίσουμε τα δεδομένα που λείπουν, να αφαιρέσουμε τα διπλότυπα, να διορθώσουμε τους τύπους δεδομένων, να χειριστούμε τα ακραία στοιχεία και να κάνουμε τα δεδομένα μας να φαίνονται ίδια. Με αυτές τις δεξιότητες, είμαστε καλύτερα προετοιμασμένοι να μετατρέψουμε τα ακατάστατα δεδομένα σε κάτι που μπορούμε να εμπιστευτούμε και να χρησιμοποιήσουμε για να ανακαλύψουμε μια σημαντική πληροφορία. Ο καθαρισμός δεδομένων είναι μια συνεχής διαδικασία, όπως η διατήρηση του δωματίου μας τακτοποιημένου, και κάνει το ταξίδι ανάλυσης δεδομένων μας πιο επιτυχημένο.