Πώς να χρησιμοποιήσετε τα σύνολα δεδομένων Hugging Face

Pos Na Chresimopoiesete Ta Synola Dedomenon Hugging Face



Η δυνατότητα εφαρμογής και χρηστικότητας των μοντέλων Μηχανικής Μάθησης ελέγχεται σε δεδομένα. Η αξιοπιστία των δοκιμών εξαρτάται σε μεγάλο βαθμό από την ποσότητα και την ποιότητα των δεδομένων στα οποία εφαρμόζονται αυτά τα μοντέλα. Είναι μια ολοκληρωμένη εργασία από μόνη της η δημιουργία, η απόκτηση και ο καθαρισμός ενός κατάλληλα μεγάλου συνόλου δεδομένων για να δοκιμάσετε το ' Επεξεργασία Φυσικής Γλώσσας (NLP) 'Μοντέλο μηχανικής μάθησης.

Το Hugging Face προσφέρει μια προσεγμένη λύση για αυτό με την εξαιρετικά μεγάλη βιβλιοθήκη συνόλων δεδομένων για να διαλέξετε και να βρείτε αυτό που ταιριάζει απόλυτα στις απαιτήσεις σας. Εδώ, θα σας δείξουμε πώς να βρείτε το ιδανικό σύνολο δεδομένων και να το προετοιμάσετε για να δοκιμάσετε επαρκώς το μοντέλο σας.







Πώς να χρησιμοποιήσετε τα σύνολα δεδομένων Hugging Face;

Θα σας δείξουμε πώς να χρησιμοποιείτε τα σύνολα δεδομένων Hugging Face χρησιμοποιώντας το παράδειγμα του ' TinyStories ” Σύνολο δεδομένων από το Hugging Face.



Παράδειγμα

Το σύνολο δεδομένων TinyStories έχει περισσότερες από 2 εκατομμύρια σειρές δεδομένων στη διαίρεση του τρένου και έχει περισσότερες από 2 χιλιάδες λήψεις στην πλατφόρμα Hugging Face. Θα το χρησιμοποιήσουμε στον κώδικα στο Google Colab που δίνεται παρακάτω:



! κουκούτσι εγκαθιστώ μετασχηματιστές
! κουκούτσι εγκαθιστώ σύνολα δεδομένων

από σύνολα δεδομένων εισαγωγής load_dataset

σύνολο δεδομένων = load_dataset ( 'roneneldan/TinyStories' )

TinyStories_Story = 3
example_string = σύνολο δεδομένων [ 'τρένο' ] [ TinyStories_Story ] [ 'κείμενο' ]

Τυπώνω ( example_string )


Σε αυτόν τον κώδικα, εξετάστε τα παρακάτω βήματα:





Βήμα 01 : Το πρώτο βήμα είναι το ' εγκατάσταση ' των συνόλων δεδομένων μετασχηματιστών.

Βήμα 02 : Στη συνέχεια, εισαγάγετε το απαιτούμενο σύνολο δεδομένων, ' TinyStories » στο έργο σας.



Βήμα 03 : Στη συνέχεια, φορτώστε το επιλεγμένο σύνολο δεδομένων χρησιμοποιώντας το « load_dataset() ' λειτουργία.

Βήμα 04 : Τώρα, καθορίζουμε τον αριθμό Story που θέλουμε από το σύνολο δεδομένων TinyStories. Έχουμε καθορίσει τον αριθμό 03 στο παράδειγμα του κώδικα μας.

Βήμα 05 : Τέλος, θα χρησιμοποιήσουμε τη μέθοδο “print()” για να εμφανίσουμε την έξοδο.

Παραγωγή



Σημείωση: Ο κώδικας και η έξοδος μπορούν επίσης να προβληθούν απευθείας στο Google Colab μας .

συμπέρασμα

' Σύνολα δεδομένων Hugging Face » καθιστούν απίστευτα αποτελεσματικό για τους χρήστες να δοκιμάζουν τα μοντέλα Machine Learning τους ενώ εισάγουν απευθείας μεγάλα σύνολα δεδομένων από τη διαδικτυακή τους βιβλιοθήκη. Ως αποτέλεσμα, η εφαρμογή των αλγορίθμων NLP έχει γίνει ευκολότερη και ταχύτερη καθώς οι προγραμματιστές είναι σε θέση να δοκιμάζουν τα έργα τους σε σχέση με ένα σύνολο δεδομένων που έχει και ποιότητα και ποσότητα.