Pandas Read Αρχείο κειμένου

Pandas Read Archeio Keimenou



'Στα 'pandas', μπορούμε εύκολα να διαβάσουμε το αρχείο κειμένου με τη βοήθεια της μεθόδου 'pandas'. Το “Pandas” μας δίνει την ευκαιρία να διαβάσουμε το αρχείο κειμένου. Το 'Pandas' παρέχει διαφορετικές ενσωματωμένες μεθόδους για την ανάγνωση του αρχείου κειμένου. Θα συζητήσουμε όλες τις μεθόδους σε αυτό το σεμινάριο μαζί με όλες τις παραμέτρους εδώ και θα τις εξηγήσουμε λεπτομερώς. Επίσης, θα διαβάσουμε το αρχείο κειμένου στα 'pandas' χρησιμοποιώντας τις μεθόδους 'pandas' στους κωδικούς μας εδώ.'

Μέθοδοι για την ανάγνωση του αρχείου κειμένου σε 'pandas'

Στα 'pandas', έχουμε τρεις μεθόδους που μας βοηθούν στην ανάγνωση του αρχείου κειμένου. Έχουμε κάνει επίσης μερικά παραδείγματα εδώ στα οποία διαβάζουμε το αρχείο κειμένου. Οι μέθοδοι που παρέχουν τα 'pandas' συζητούνται παρακάτω:







    • Χρησιμοποιώντας τη μέθοδο pd.read_csv().
    • Χρησιμοποιώντας τη μέθοδο pd.read_table().
    • Χρησιμοποιώντας τη μέθοδο pd.read_fwf().

Τώρα, εξηγούμε τη σύνταξη όλων αυτών των μεθόδων και επίσης συζητάμε τις παραμέτρους όλων των μεθόδων λεπτομερώς σε αυτό το σεμινάριο.



Σύνταξη του read_csv()



pd.read_csv ( 'filename.txt', σεπτ ='', επί κεφαλής = Κανένα, ονόματα = [ 'Col_name1', 'Col_name2, 'Col_name2', ………….. ] )


Σε αυτή τη μέθοδο, προσθέτουμε πρώτα το όνομα του αρχείου κειμένου του οποίου τα δεδομένα θέλουμε να διαβάσουμε και είναι η πρώτη παράμετρος αυτής της μεθόδου. Στη συνέχεια, τοποθετούμε το 'sep', το οποίο είναι διαχωριστικό σε αυτήν τη μέθοδο, και τοποθετούμε το διάστημα εδώ ως χαρακτήρα, έτσι ώστε να θεωρηθεί το διάστημα ως διαχωριστικό. Μετά από αυτό, έχουμε την παράμετρο κεφαλίδας και χρησιμοποιείται η τιμή 'Κανένα' αυτής της παραμέτρου, επομένως θα δημιουργήσει την προεπιλεγμένη κεφαλίδα και αν δεν προσθέσουμε αυτήν την παράμετρο, τότε θα εξετάσει την πρώτη γραμμή του αρχείου κειμένου ως κεφαλίδα. Στην παράμετρο “names”, μπορούμε να προσθέσουμε τα ονόματα στηλών που πρέπει να προσθέσουμε ως κεφαλίδα.





Σύνταξη του read_table()

pd.read_table ( 'filename.txt' , οριοθέτης = '' )


Σε αυτή τη μέθοδο, βάζουμε το όνομα αρχείου του αρχείου κειμένου ως πρώτη παράμετρο. Στον οριοθέτη, όταν τοποθετήσουμε το ‘ , τότε θα πάρει τον χαρακτήρα διαστήματος ως διαχωριστικό.



Σύνταξη του read_fwf()

pd.read_fwf ( 'filename.txt' )


Αυτή η μέθοδος παίρνει μόνο μία παράμετρο, η οποία είναι το όνομα του αρχείου κειμένου.

Τώρα, θα χρησιμοποιήσουμε αυτές τις μεθόδους για την ανάγνωση των αρχείων κειμένου σε κωδικούς «pandas» και την εμφάνιση των δεδομένων του αρχείου κειμένου στο τερματικό.

Παράδειγμα #01

Η εφαρμογή 'Spyder' είναι εδώ στην οποία έχουμε κάνει όλους αυτούς τους κωδικούς που παρουσιάζονται σε αυτό το σεμινάριο. Το αρχείο κειμένου του οποίου τα δεδομένα θέλουμε να διαβάσουμε φαίνεται παρακάτω. Θα χρησιμοποιήσουμε τη μέθοδο 'read_csv()' για την ανάγνωση αυτού του αρχείου κειμένου στο 'pandas'.


Εισάγουμε πρώτα τη βιβλιοθήκη 'pandas' επειδή θέλουμε να χρησιμοποιήσουμε τη μέθοδο 'read_csv()' και είναι η μέθοδος 'pandas'. Έχουμε πρόσβαση σε αυτήν τη μέθοδο μόνο όταν έχουμε εισαγάγει τη βιβλιοθήκη των 'pandas'. Εδώ, αναφέρουμε τα 'pandas ως pd', οπότε αυτό το 'pd' τοποθετείται με το όνομα της μεθόδου για τη χρήση του. Μετά από αυτό, δημιουργούμε εδώ μια μεταβλητή «df», η οποία χρησιμοποιείται για την αποθήκευση των δεδομένων του αρχείου κειμένου μετά την ανάγνωση. Τοποθετούμε τη μέθοδο 'pd.read_csv()' εδώ, η οποία βοηθά στην ανάγνωση του αρχείου κειμένου και στη μετατροπή των δεδομένων του αρχείου κειμένου στο DataFrame και στην αποθήκευση στη μεταβλητή 'df'.

Περάσαμε το όνομα του αρχείου, που είναι 'myData.txt', εδώ, και στη συνέχεια χρησιμοποιούμε το 'sep' και εκχωρούμε τον κενό χαρακτήρα σε αυτό το 'sep'. Έτσι, αυτός ο κενός χαρακτήρας λειτουργεί ως διαχωριστικό στο αρχείο κειμένου. Στη συνέχεια, χρησιμοποιήσαμε το 'print()' παρακάτω, το οποίο χρησιμοποιείται για την εκτύπωση των δεδομένων του αρχείου κειμένου. Θα εμφανίσει τα δεδομένα του αρχείου κειμένου στη φόρμα DataFrame.


Για την εκτέλεση αυτού του κώδικα, πρέπει να πατήσουμε «Shift+Enter» και η έξοδος θα αποδοθεί στο τερματικό «Spyder». Το αποτέλεσμα του παραπάνω κώδικα εμφανίζεται στο δεδομένο στιγμιότυπο οθόνης και μπορείτε να δείτε ότι τα δεδομένα του αρχείου κειμένου εμφανίζονται ως DataFrame και η πρώτη γραμμή του αρχείου κειμένου μας παρουσιάζεται εδώ ως τα ονόματα στηλών αυτού του DataFrame. Διαχωρίζει επίσης τα δεδομένα όπου υπάρχει ο χαρακτήρας διαστήματος στο αρχείο κειμένου.

Παράδειγμα #02

Το αρχείο κειμένου που θα διαβάσουμε σε αυτό το παράδειγμα εμφανίζεται εδώ και θα χρησιμοποιήσουμε ξανά τη μέθοδο “read_csv()” αλλά με διαφορετικές παραμέτρους.


Χρησιμοποιείται η μέθοδος 'pandas' 'pd.read_csv()' και περνάμε τρεις παραμέτρους εδώ. Αρχικά, τοποθετούμε το όνομα αρχείου, το οποίο είναι 'Record.txt'. Η δεύτερη παράμετρος είναι η παράμετρος 'sep' και της εκχωρεί τον κενό χαρακτήρα και μετά έχουμε την τρίτη παράμετρο στην οποία ορίζουμε την 'κεφαλίδα' και την προσαρμόζουμε σε 'Καμία', έτσι θα δημιουργήσει την προεπιλεγμένη κεφαλίδα του DataFrame όταν εκτελούμε αυτόν τον κώδικα. Όλα αυτά τα έχουμε αποθηκεύσει στη μεταβλητή 'My_Record' και προσθέσαμε επίσης το 'My_Record' στη συνάρτηση 'print()' για εκτύπωση.


Όλα τα δεδομένα αποθηκεύονται στο DataFrame και διαχωρίζει τα δεδομένα όπου υπάρχει ο χαρακτήρας διαστήματος στα δεδομένα του αρχείου κειμένου. Επίσης, δημιούργησε την προεπιλεγμένη κεφαλίδα του DataFrame εδώ επειδή προσαρμόσαμε την παράμετρο 'κεφαλίδα' σε 'Καμία'.

Παράδειγμα #03

Εμφανίζεται το αρχείο κειμένου αυτού του παραδείγματος και θα χρησιμοποιήσουμε ξανά τη μέθοδο 'read_csv()' με τροποποιημένες παραμέτρους.


Σε αυτόν τον κώδικα, τέσσερις παράμετροι μεταβιβάζονται εδώ στη μέθοδο 'pandas' 'pd.read_csv()'. Το όνομα του αρχείου κειμένου είναι η πρώτη παράμετρος. Στην παράμετρο 'sep' δίνεται ο κενός χαρακτήρας στη δεύτερη παράμετρο. Η παράμετρος 'header' ορίζεται σε 'None' στο τρίτο όρισμα, και ως τέταρτη παράμετρος, έχουμε ορίσει τα 'names' που θα εμφανίζονται ως ονόματα στηλών του DataFrame μετά την ανάγνωση του αρχείου κειμένου και αυτά τα ονόματα στηλών είναι 'COL_1, COL_2, COL_3, COL_4 και COL_5'. Όλες αυτές οι πληροφορίες έχουν αποθηκευτεί στη μεταβλητή 'My_Record' και το 'My_Record' έχει επίσης προστεθεί στη μέθοδο 'print()' ώστε να εκτυπωθεί στο τερματικό.


Όλες οι πληροφορίες του αρχείου κειμένου αποδίδονται εδώ ως DataFrame, και επίσης διαχωρίζει τα δεδομένα όπου προστίθενται τα κενά στο αρχείο κειμένου. Προσθέτει επίσης τα ονόματα των στηλών ανάλογα, τα οποία προσθέσαμε παραπάνω στον κώδικα.

Παράδειγμα #04

Αυτό είναι το αρχείο κειμένου που θα διαβάσουμε σε αυτό το παράδειγμα χρησιμοποιώντας μια άλλη μέθοδο, τη μέθοδο 'pd.read_table()'.


Η μέθοδος 'pd.read_table()' προστίθεται εδώ για την ανάγνωση του αρχείου κειμένου και προσθέτουμε το 'ABC.txt', που είναι το όνομα του αρχείου κειμένου. Αυτή η μέθοδος βοηθά στην ανάγνωση του αρχείου κειμένου, και επίσης, έχουμε προσαρμόσει την παράμετρο 'οριοθέτηση' στον χαρακτήρα διαστήματος, έτσι θα λειτουργεί επίσης όπως το διαχωριστικό που εξηγήσαμε παραπάνω. Στη συνέχεια, όλα τα δεδομένα αρχείου κειμένου αποθηκεύονται στη μεταβλητή 'My_Data' και εκτυπώνονται επίσης εδώ.


Η αρχική γραμμή του αρχείου κειμένου μας εμφανίζεται εδώ ως τα ονόματα στηλών του DataFrame και τα δεδομένα του αρχείου κειμένου εκτυπώνονται ως DataFrame. Επιπλέον, διαχωρίζει τα δεδομένα του αρχείου κειμένου όπου υπάρχει ο χαρακτήρας διαστήματος σε αυτό.

Παράδειγμα #05

Τώρα, το αρχείο κειμένου περιέχει τα δεδομένα, τα οποία εμφανίζονται παρακάτω. Αυτή τη φορά θα εφαρμόσουμε το 'read_fwf()' και θα δείξουμε πώς αποδίδει τα δεδομένα μετά την ανάγνωση του αρχείου κειμένου.


Όπως γνωρίζουμε ότι αυτή η μέθοδος “read_fwf()” παίρνει μόνο μία παράμετρο, που είναι το όνομα του αρχείου που θέλουμε να διαβάσουμε. Προσθέτουμε εδώ το 'textfile.txt', το οποίο είναι το όνομα του αρχείου κειμένου μας και εκχωρούμε αυτήν τη μέθοδο panda στη μεταβλητή 'File_Data', η οποία θα αποθηκεύσει τα δεδομένα αυτού του αρχείου κειμένου. Μετά βάζουμε το “print(File_Data)” ώστε να εκτυπώνει και αυτά τα δεδομένα.


Εδώ, εμφανίζονται όλα τα δεδομένα του αρχείου κειμένου. Δεν διαχώρισε τα δεδομένα όπου υπάρχουν χαρακτήρες διαστήματος, επειδή δεν υπάρχει παράμετρος όπως 'Sep' ή 'οριοθέτης' σε αυτήν τη συνάρτηση.

συμπέρασμα

Αυτό το σεμινάριο εξηγεί πώς μπορείτε να διαβάσετε το αρχείο κειμένου στο 'pandas' και ποιες μέθοδοι χρησιμοποιούνται για την ανάγνωση του αρχείου κειμένου στο 'pandas'. Έχουμε συζητήσει όλες τις μεθόδους που μας βοηθούν στην ανάγνωση του αρχείου κειμένου στα «pandas». Εξερευνήσαμε τρεις διαφορετικές μεθόδους 'pandas' για την ανάγνωση των αρχείων κειμένου μας σε 'pandas' σε αυτό το σεμινάριο. Έχουμε επίσης εξηγήσει τη σύνταξη όλων των μεθόδων καθώς και τις παραμέτρους όλων των μεθόδων λεπτομερώς εδώ και έχουμε διαβάσει πολλά αρχεία κειμένου εφαρμόζοντας διαφορετικές μεθόδους με όλες τις πιθανές παραμέτρους σε αυτό το σεμινάριο.