Πώς να συνδέσετε τα σύνολα δεδομένων στο πρόσωπο που αγκαλιάζει

Pos Na Syndesete Ta Synola Dedomenon Sto Prosopo Pou Ankaliazei



Η βιβλιοθήκη «συνόλων δεδομένων» από το Hugging Face παρέχει έναν βολικό τρόπο εργασίας και χειρισμού των συνόλων δεδομένων για εργασίες επεξεργασίας φυσικής γλώσσας. Μια χρήσιμη συνάρτηση που προσφέρεται από τη βιβλιοθήκη είναι η concatenate_datasets() που σας επιτρέπει να συνδέσετε πολλά σύνολα δεδομένων σε ένα ενιαίο σύνολο δεδομένων. Ακολουθεί μια σύντομη επισκόπηση της συνάρτησης concatenate_datasets() και του τρόπου χρήσης της.

concatenate_datasets()

Περιγραφή:

Η βιβλιοθήκη 'datasets' του Hugging Face παρέχει τη συνάρτηση concatenate_datasets(). Χρησιμοποιείται για τη συνένωση πολλαπλών συνόλων δεδομένων, συνδυάζοντάς τα σε ένα ενιαίο σύνολο δεδομένων κατά μήκος ενός καθορισμένου άξονα. Αυτή η συνάρτηση είναι ιδιαίτερα χρήσιμη όταν έχετε πολλά σύνολα δεδομένων που μοιράζονται την ίδια δομή και θέλετε να τα συγχωνεύσετε σε ένα ενοποιημένο σύνολο δεδομένων για περαιτέρω επεξεργασία και ανάλυση.







Σύνταξη:



από σύνολα δεδομένων εισαγωγή concatenate_datasets

concatenated_dataset = concatenate_datasets ( σύνολα δεδομένων , άξονας = 0 , πληροφορίες = Κανένας )

Παράμετροι:

σύνολα δεδομένων (λίστα συνόλου δεδομένων): Μια λίστα συνόλων δεδομένων που θέλετε να συνδέσετε. Αυτά τα σύνολα δεδομένων θα πρέπει να έχουν συμβατά χαρακτηριστικά που σημαίνει ότι έχουν το ίδιο σχήμα, ονόματα στηλών και τύπους δεδομένων.



άξονας (int, optional, default=0): Ο άξονας κατά τον οποίο πρέπει να εκτελεστεί η συνένωση. Για τα περισσότερα σύνολα δεδομένων NLP, χρησιμοποιείται η προεπιλεγμένη τιμή 0 που σημαίνει ότι τα σύνολα δεδομένων συνδέονται κάθετα. Εάν ορίσετε τον άξονα=1, τα σύνολα δεδομένων συνενώνονται οριζόντια, υποθέτοντας ότι έχουν διαφορετικές στήλες ως χαρακτηριστικά.





πληροφορίες (datasets.DatasetInfo, προαιρετικό): Οι πληροφορίες σχετικά με το συνεκτικό σύνολο δεδομένων. Εάν δεν παρέχονται, οι πληροφορίες συνάγονται από το πρώτο σύνολο δεδομένων στη λίστα.

Επιστροφές:

concatenated_dataset (Σύνολο δεδομένων): Το σύνολο δεδομένων που προκύπτει μετά τη συνένωση όλων των συνόλων δεδομένων εισόδου.



Παράδειγμα:

# Βήμα 1: Εγκαταστήστε τη βιβλιοθήκη συνόλων δεδομένων

# Μπορείτε να το εγκαταστήσετε χρησιμοποιώντας το pip:

# !pip εγκατάσταση συνόλων δεδομένων

# Βήμα 2: Εισαγάγετε τις απαιτούμενες βιβλιοθήκες

από σύνολα δεδομένων εισαγωγή load_dataset , concatenate_datasets

# Βήμα 3: Φορτώστε τα σύνολα δεδομένων κριτικής ταινιών IMDb

# Θα χρησιμοποιήσουμε δύο σύνολα δεδομένων IMDb, ένα για θετικές κριτικές

#και άλλο για αρνητικές κριτικές.

# Φορτώστε 2500 θετικές κριτικές

σύνολο δεδομένων_pos = load_dataset ( 'imdb' , διαίρεση = 'τρένο[:2500]' )

# Φορτώστε 2500 αρνητικές κριτικές

σύνολο δεδομένων_αρνητικό = load_dataset ( 'imdb' , διαίρεση = 'τρένο[-2500:]' )

# Βήμα 4: Συνδέστε τα σύνολα δεδομένων

# Συνδέουμε και τα δύο σύνολα δεδομένων κατά μήκος του άξονα=0, όπως έχουν

το ίδιο σχήμα ( ίδια χαρακτηριστικά ) .

concatenated_dataset = concatenate_datasets ( [ σύνολο δεδομένων_pos , σύνολο δεδομένων_αρνητικό ] )

# Βήμα 5: Αναλύστε το συνεκτικό σύνολο δεδομένων

# Για απλότητα, ας μετρήσουμε τον αριθμό των θετικών και αρνητικών

# αξιολογήσεις στο συνεκτικό σύνολο δεδομένων.

num_positive_reviews = άθροισμα ( 1 Για επιγραφή σε

concatenated_dataset [ 'επιγραφή' ] αν επιγραφή == 1 )

num_negative_reviews = άθροισμα ( 1 Για επιγραφή σε

concatenated_dataset [ 'επιγραφή' ] αν επιγραφή == 0 )

# Βήμα 6: Εμφάνιση των αποτελεσμάτων

Τυπώνω ( 'Αριθμός θετικών κριτικών:' , num_positive_reviews )

Τυπώνω ( 'Αριθμός αρνητικών κριτικών:' , num_negative_reviews )

# Βήμα 7: Εκτυπώστε μερικά παραδείγματα κριτικών από το συνεκτικό σύνολο δεδομένων

Τυπώνω ( ' \n Μερικά παραδείγματα κριτικών:' )

Για Εγώ σε εύρος ( 5 ) :

Τυπώνω ( φά 'Αξιολόγηση {i + 1}: {concatenated_dataset['text'][i]}' )

Παραγωγή:

Ακολουθεί η εξήγηση για το πρόγραμμα βιβλιοθήκης 'συνόλων δεδομένων' του Hugging Face που συνενώνει δύο σύνολα δεδομένων κριτικών ταινιών IMDb. Αυτό εξηγεί τον σκοπό του προγράμματος, τη χρήση του και τα βήματα που περιλαμβάνονται στον κώδικα.

Ας δώσουμε μια πιο λεπτομερή εξήγηση για κάθε βήμα στον κώδικα:

# Βήμα 1: Εισαγάγετε τις απαιτούμενες βιβλιοθήκες

από σύνολα δεδομένων εισαγωγή load_dataset , concatenate_datasets

Σε αυτό το βήμα, εισάγουμε τις απαραίτητες βιβλιοθήκες για το πρόγραμμα. Χρειαζόμαστε τη συνάρτηση 'load_dataset' για τη φόρτωση των συνόλων δεδομένων κριτικής ταινιών IMDb και τα 'concatenate_datasets' για να τα συνδέσουμε αργότερα.

# Βήμα 2: Φορτώστε τα σύνολα δεδομένων κριτικής ταινιών IMDb

# Φορτώστε 2500 θετικές κριτικές

σύνολο δεδομένων_pos = load_dataset ( 'imdb' , διαίρεση = 'τρένο[:2500]' )

# Φορτώστε 2500 αρνητικές κριτικές

σύνολο δεδομένων_αρνητικό = load_dataset ( 'imdb' , διαίρεση = 'τρένο[-2500:]' )

Εδώ, χρησιμοποιούμε τη συνάρτηση «load_dataset» για να ανακτήσουμε δύο υποσύνολα του συνόλου δεδομένων IMDb. Το 'dataset_pos' έχει 2500 θετικές κριτικές και το 'dataset_neg' περιέχει 2500 αρνητικές κριτικές. Χρησιμοποιούμε την παράμετρο split για να καθορίσουμε το εύρος των παραδειγμάτων προς φόρτωση που μας επιτρέπει να επιλέξουμε ένα υποσύνολο ολόκληρου του συνόλου δεδομένων.

# Βήμα 3: Συνδέστε τα σύνολα δεδομένων

concatenated_dataset = concatenate_datasets ( [ σύνολο δεδομένων_pos , σύνολο δεδομένων_αρνητικό ] )

Σε αυτό το βήμα, συνενώνουμε τα δύο υποσύνολα του συνόλου δεδομένων IMDb σε ένα ενιαίο σύνολο δεδομένων που ονομάζεται 'concatenated_dataset'. Χρησιμοποιούμε τη συνάρτηση 'concatenate_datasets' και τη μεταβιβάζουμε με μια λίστα που περιέχει τα δύο σύνολα δεδομένων προς συνένωση. Δεδομένου ότι και τα δύο σύνολα δεδομένων έχουν τα ίδια χαρακτηριστικά, τα ενώνουμε κατά μήκος του άξονα=0 που σημαίνει ότι οι σειρές στοιβάζονται η μία πάνω στην άλλη.

# Βήμα 4: Αναλύστε το Συνενωμένο Σύνολο Δεδομένων

num_positive_reviews = άθροισμα ( 1 Για επιγραφή σε

concatenated_dataset [ 'επιγραφή' ] αν επιγραφή == 1 )

num_negative_reviews = άθροισμα ( 1 Για επιγραφή σε

concatenated_dataset [ 'επιγραφή' ] αν επιγραφή == 0 )

Εδώ, εκτελούμε μια απλή ανάλυση του συνεκτικού συνόλου δεδομένων. Χρησιμοποιούμε τις κατανοήσεις της λίστας μαζί με τη συνάρτηση «άθροισμα» για να μετρήσουμε τον αριθμό των θετικών και αρνητικών κριτικών. Επαναλαμβάνουμε μέσω του ' label' στη στήλη 'concatenated_dataset' και αυξάνετε τις μετρήσεις κάθε φορά που συναντάμε θετική ετικέτα (1) ή αρνητική ετικέτα (0).

# Βήμα 5: Εμφάνιση των αποτελεσμάτων

Τυπώνω ( 'Αριθμός θετικών κριτικών:' , num_positive_reviews )

Τυπώνω ( 'Αριθμός αρνητικών κριτικών:' , num_negative_reviews )

Σε αυτό το βήμα, εκτυπώνουμε τα αποτελέσματα της ανάλυσής μας - τον αριθμό των θετικών και αρνητικών κριτικών στο συνεκτικό σύνολο δεδομένων.

# Βήμα 6: Εκτυπώστε μερικά παραδείγματα κριτικών

Τυπώνω ( ' \n Μερικά παραδείγματα κριτικών:' )

Για Εγώ σε εύρος ( 5 ) :

Τυπώνω ( φά 'Αξιολόγηση {i + 1}: {concatenated_dataset['text'][i]}' )

Τέλος, παρουσιάζουμε μερικά παραδείγματα κριτικών από το συνεκτικό σύνολο δεδομένων. Πραγματοποιούμε αναζήτηση στα πρώτα πέντε παραδείγματα του συνόλου δεδομένων και εκτυπώνουμε το περιεχόμενο κειμένου τους χρησιμοποιώντας τη στήλη 'κείμενο'.

Αυτός ο κώδικας δείχνει ένα απλό παράδειγμα χρήσης της βιβλιοθήκης 'συνόλων δεδομένων' του Hugging Face για τη φόρτωση, τη συνένωση και την ανάλυση των συνόλων δεδομένων κριτικής ταινιών IMDb. Υπογραμμίζει την ικανότητα της βιβλιοθήκης να εξορθολογίζει τον χειρισμό των δεδομένων NLP και δείχνει τις δυνατότητές της για τη δημιουργία πιο εξελιγμένων μοντέλων και εφαρμογών επεξεργασίας φυσικής γλώσσας.

συμπέρασμα

Το πρόγραμμα Python που χρησιμοποιεί τη βιβλιοθήκη 'datasets' του Hugging Face επιδεικνύει με επιτυχία τη συνένωση δύο συνόλων δεδομένων κριτικής ταινιών IMDb. Φορτώνοντας τα υποσύνολα θετικών και αρνητικών κριτικών, το πρόγραμμα τα συνδυάζει σε ένα ενιαίο σύνολο δεδομένων χρησιμοποιώντας τη συνάρτηση concatenate_datasets(). Στη συνέχεια, κάνει μια απλή ανάλυση μετρώντας τον αριθμό των θετικών και αρνητικών κριτικών στο συνδυασμένο σύνολο δεδομένων.

Η βιβλιοθήκη «συνόλων δεδομένων» απλοποιεί τη διαδικασία χειρισμού και χειρισμού των συνόλων δεδομένων NLP, καθιστώντας την ένα ισχυρό εργαλείο για ερευνητές, προγραμματιστές και επαγγελματίες του NLP. Με τη φιλική προς το χρήστη διεπαφή και τις εκτεταμένες λειτουργίες της, η βιβλιοθήκη επιτρέπει την αβίαστη προεπεξεργασία, εξερεύνηση και μετασχηματισμό δεδομένων. Το πρόγραμμα που παρουσιάζεται σε αυτήν την τεκμηρίωση χρησιμεύει ως πρακτικό παράδειγμα του τρόπου με τον οποίο η βιβλιοθήκη μπορεί να αξιοποιηθεί για τον εξορθολογισμό των εργασιών σύνδεσης και ανάλυσης δεδομένων.

Σε σενάρια πραγματικής ζωής, αυτό το πρόγραμμα μπορεί να χρησιμεύσει ως βάση για πιο σύνθετες εργασίες επεξεργασίας φυσικής γλώσσας, όπως ανάλυση συναισθήματος, ταξινόμηση κειμένου και μοντελοποίηση γλώσσας. Χρησιμοποιώντας τη βιβλιοθήκη «συνόλων δεδομένων», οι ερευνητές και οι προγραμματιστές μπορούν να διαχειριστούν αποτελεσματικά τα μεγάλης κλίμακας σύνολα δεδομένων, να διευκολύνουν τον πειραματισμό και να επιταχύνουν την ανάπτυξη μοντέλων NLP τελευταίας τεχνολογίας. Συνολικά, η βιβλιοθήκη 'συνόλων δεδομένων' του Hugging Face αποτελεί ουσιαστικό πλεονέκτημα για την επιδίωξη προόδου στην επεξεργασία και κατανόηση της φυσικής γλώσσας.