Πώς να χρησιμοποιήσετε Tokenizers σε Hugging Face Transformers;

Pos Na Chresimopoiesete Tokenizers Se Hugging Face Transformers



Η Επεξεργασία Φυσικής Γλώσσας (NLP) λειτουργεί στην ακατέργαστη μορφή των δεδομένων. Τα μοντέλα μηχανικής μάθησης εκπαιδεύονται σε πολύπλοκα δεδομένα, αλλά δεν μπορούν να κατανοήσουν τα ακατέργαστα δεδομένα. Αυτή η ακατέργαστη μορφή δεδομένων πρέπει να έχει κάποια αριθμητική τιμή που σχετίζεται με αυτήν. Αυτή η τιμή καθορίζει την αξία και τη σημασία της λέξης στα δεδομένα και σε αυτή τη βάση γίνονται υπολογισμοί.

Αυτό το άρθρο παρέχει έναν οδηγό βήμα προς βήμα σχετικά με τη χρήση Tokenizers σε Hugging Face Transformers.

Τι είναι ο Tokenizer;

Το Tokenizer είναι μια σημαντική έννοια του NLP και ο κύριος στόχος του είναι να μεταφράσει το ακατέργαστο κείμενο σε αριθμούς. Υπάρχουν διάφορες τεχνικές και μεθοδολογίες που υπάρχουν για το σκοπό αυτό. Ωστόσο, αξίζει να σημειωθεί ότι κάθε τεχνική εξυπηρετεί έναν συγκεκριμένο σκοπό.
Πώς να χρησιμοποιήσετε Tokenizers σε Hugging Face Transformers;







Πώς να χρησιμοποιήσετε Tokenizers σε Hugging Face Transformers;

Η βιβλιοθήκη tokenizer πρέπει πρώτα να εγκατασταθεί πριν τη χρησιμοποιήσετε και εισάγετε λειτουργίες από αυτήν. Μετά από αυτό, εκπαιδεύστε ένα μοντέλο χρησιμοποιώντας το AutoTokenizer και, στη συνέχεια, δώστε τα δεδομένα για την εκτέλεση του tokenization.



Το Hugging Face εισάγει τρεις κύριες κατηγορίες Tokenization που δίνονται παρακάτω:



  • Tokenizer που βασίζεται σε λέξεις
  • Tokenizer που βασίζεται σε χαρακτήρες
  • Tokenizer που βασίζεται σε υπολέξεις

Ακολουθεί ένας οδηγός βήμα προς βήμα για τη χρήση Tokenizers σε Transformers:





Βήμα 1: Εγκαταστήστε μετασχηματιστές
Για να εγκαταστήσετε μετασχηματιστές, χρησιμοποιήστε την εντολή pip στην ακόλουθη εντολή:

! κουκούτσι εγκαθιστώ μετασχηματιστές



Βήμα 2: Εισαγωγή τάξεων
Από μετασχηματιστές, εισαγωγή αγωγός , και AutoModelForSequenceClassification βιβλιοθήκη για την πραγματοποίηση ταξινόμησης:

από τον αγωγό εισαγωγής μετασχηματιστών, AutoModelForSequenceClassification

Βήμα 3: Εισαγωγή μοντέλου
Ο ' AutoModelForSequenceClassification ” είναι μια μέθοδος που ανήκει στην Auto-Class για tokenization. ο from_pretrained() Η μέθοδος χρησιμοποιείται για την επιστροφή της σωστής κλάσης μοντέλου με βάση τον τύπο του μοντέλου.

Εδώ έχουμε δώσει το όνομα του μοντέλου στο ' όνομα μοντέλου ' μεταβλητή:

όνομα μοντέλου = 'distilbert-base-uncased-finetuned-sst-2-english'
pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( όνομα μοντέλου )

Βήμα 4: Εισαγωγή AutoTokenizer
Δώστε την ακόλουθη εντολή για να δημιουργήσετε διακριτικά περνώντας το ' όνομα μοντέλου ως επιχείρημα:

από μετασχηματιστές εισαγωγή AutoTokenizer

το δημιουργημένο διακριτικό =AutoTokenizer.from_pretrained ( όνομα μοντέλου )

Βήμα 5: Δημιουργία Token
Τώρα, θα δημιουργήσουμε διακριτικά σε μια πρόταση “Λατρεύω το καλό φαγητό” χρησιμοποιώντας το « το δημιουργημένο διακριτικό ' μεταβλητή:

λόγια =generatetoken ( 'Λατρεύω το καλό φαγητό' )
Τυπώνω ( λόγια )

Η έξοδος δίνεται ως εξής:

Ο κωδικός στα παραπάνω Google Co δίνεται εδώ.

συμπέρασμα

Για να χρησιμοποιήσετε το Tokenizers στο Hugging Face, εγκαταστήστε τη βιβλιοθήκη χρησιμοποιώντας την εντολή pip, εκπαιδεύστε ένα μοντέλο χρησιμοποιώντας το AutoTokenizer και, στη συνέχεια, δώστε τα στοιχεία για την εκτέλεση του tokenization. Χρησιμοποιώντας το tokenization, αντιστοιχίστε βαρίδια στις λέξεις βάσει των οποίων έχουν τη σειρά τους για να διατηρήσουν το νόημα της πρότασης. Αυτή η βαθμολογία καθορίζει επίσης την αξία τους για ανάλυση. Αυτό το άρθρο είναι ένας λεπτομερής οδηγός σχετικά με τον τρόπο χρήσης Tokenizers σε Hugging Face Transformers.