Πώς να χρησιμοποιήσετε Tokenizers σε Hugging Face Transformers;

Η Επεξεργασία Φυσικής Γλώσσας (NLP) λειτουργεί στην ακατέργαστη μορφή των δεδομένων. Τα μοντέλα μηχανικής μάθησης εκπαιδεύονται σε πολύπλοκα δεδομένα, αλλά δεν μπορούν να κατανοήσουν τα ακατέργαστα δεδομένα. Αυτή η ακατέργαστη μορφή δεδομένων πρέπει να έχει κάποια αριθμητική τιμή που σχετίζεται με αυτήν. Αυτή η τιμή καθορίζει την αξία και τη σημασία της λέξης στα δεδομένα και σε αυτή τη βάση γίνονται υπολογισμοί.

Αυτό το άρθρο παρέχει έναν οδηγό βήμα προς βήμα σχετικά με τη χρήση Tokenizers σε Hugging Face Transformers.

Τι είναι ο Tokenizer;

Το Tokenizer είναι μια σημαντική έννοια του NLP και ο κύριος στόχος του είναι να μεταφράσει το ακατέργαστο κείμενο σε αριθμούς. Υπάρχουν διάφορες τεχνικές και μεθοδολογίες που υπάρχουν για το σκοπό αυτό. Ωστόσο, αξίζει να σημειωθεί ότι κάθε τεχνική εξυπηρετεί έναν συγκεκριμένο σκοπό.
Πώς να χρησιμοποιήσετε Tokenizers σε Hugging Face Transformers;

Πώς να χρησιμοποιήσετε Tokenizers σε Hugging Face Transformers;

Η βιβλιοθήκη tokenizer πρέπει πρώτα να εγκατασταθεί πριν τη χρησιμοποιήσετε και εισάγετε λειτουργίες από αυτήν. Μετά από αυτό, εκπαιδεύστε ένα μοντέλο χρησιμοποιώντας το AutoTokenizer και, στη συνέχεια, δώστε τα δεδομένα για την εκτέλεση του tokenization.

Το Hugging Face εισάγει τρεις κύριες κατηγορίες Tokenization που δίνονται παρακάτω:

Tokenizer που βασίζεται σε λέξεις
Tokenizer που βασίζεται σε χαρακτήρες
Tokenizer που βασίζεται σε υπολέξεις

Ακολουθεί ένας οδηγός βήμα προς βήμα για τη χρήση Tokenizers σε Transformers:

Βήμα 1: Εγκαταστήστε μετασχηματιστές
Για να εγκαταστήσετε μετασχηματιστές, χρησιμοποιήστε την εντολή pip στην ακόλουθη εντολή:

! κουκούτσι εγκαθιστώ μετασχηματιστές

Βήμα 2: Εισαγωγή τάξεων
Από μετασχηματιστές, εισαγωγή αγωγός , και AutoModelForSequenceClassification βιβλιοθήκη για την πραγματοποίηση ταξινόμησης:

από τον αγωγό εισαγωγής μετασχηματιστών, AutoModelForSequenceClassification

Βήμα 3: Εισαγωγή μοντέλου
Ο ' AutoModelForSequenceClassification ” είναι μια μέθοδος που ανήκει στην Auto-Class για tokenization. ο from_pretrained() Η μέθοδος χρησιμοποιείται για την επιστροφή της σωστής κλάσης μοντέλου με βάση τον τύπο του μοντέλου.

Εδώ έχουμε δώσει το όνομα του μοντέλου στο ' όνομα μοντέλου ' μεταβλητή:

όνομα μοντέλου = 'distilbert-base-uncased-finetuned-sst-2-english'
pre_trainingmodel =AutoModelForSequenceClassification.from_pretrained ( όνομα μοντέλου )

Βήμα 4: Εισαγωγή AutoTokenizer
Δώστε την ακόλουθη εντολή για να δημιουργήσετε διακριτικά περνώντας το ' όνομα μοντέλου ως επιχείρημα:

από μετασχηματιστές εισαγωγή AutoTokenizer

το δημιουργημένο διακριτικό =AutoTokenizer.from_pretrained ( όνομα μοντέλου )

Βήμα 5: Δημιουργία Token
Τώρα, θα δημιουργήσουμε διακριτικά σε μια πρόταση “Λατρεύω το καλό φαγητό” χρησιμοποιώντας το « το δημιουργημένο διακριτικό ' μεταβλητή:

λόγια =generatetoken ( 'Λατρεύω το καλό φαγητό' )
Τυπώνω ( λόγια )

Η έξοδος δίνεται ως εξής:

Ο κωδικός στα παραπάνω Google Co δίνεται εδώ.

συμπέρασμα

Για να χρησιμοποιήσετε το Tokenizers στο Hugging Face, εγκαταστήστε τη βιβλιοθήκη χρησιμοποιώντας την εντολή pip, εκπαιδεύστε ένα μοντέλο χρησιμοποιώντας το AutoTokenizer και, στη συνέχεια, δώστε τα στοιχεία για την εκτέλεση του tokenization. Χρησιμοποιώντας το tokenization, αντιστοιχίστε βαρίδια στις λέξεις βάσει των οποίων έχουν τη σειρά τους για να διατηρήσουν το νόημα της πρότασης. Αυτή η βαθμολογία καθορίζει επίσης την αξία τους για ανάλυση. Αυτό το άρθρο είναι ένας λεπτομερής οδηγός σχετικά με τον τρόπο χρήσης Tokenizers σε Hugging Face Transformers.

Πώς να χρησιμοποιήσετε Tokenizers σε Hugging Face Transformers;

Τι είναι ο Tokenizer;

Πώς να χρησιμοποιήσετε Tokenizers σε Hugging Face Transformers;

συμπέρασμα

Κατηγορία

Δημοφιλείς Αναρτήσεις

Τι σημαίνει η αποστολή SMS μέσω διακομιστή Android

Πώς να απενεργοποιήσετε το IPv6 στο Ubuntu 24.04

Πώς να συνδεθείτε στο MongoDB με την Python

Πώς να δημιουργήσετε αυτόματα αντίγραφα ασφαλείας της βάσης δεδομένων MySQL χρησιμοποιώντας PHP

Πώς να προσαρτήσετε τον τόμο Docker σε Host;

Εξηγήστε το Docker Compose With Example

Πώς να χρησιμοποιήσετε τη συνάρτηση PHP md5();

Αυτόματη προσάρτηση μονάδων δίσκου σε Linux

Πώς να αποκτήσετε τον πρώτο χαρακτήρα από μια συμβολοσειρά σε JavaScript

Rust Std::OS σε Linux

Πώς να ορίσετε προτεραιότητα στη Διαχείριση εργασιών στα Windows (2022)

Μπορεί το Raspberry Pi να τροφοδοτηθεί από USB

Πώς να περάσω μέσα από ένα USB στο VirtualBox;

Πώς να δημιουργήσετε ένα βασικό πρόγραμμα αριθμομηχανής χρησιμοποιώντας Java;

Mastering Backticks σε σενάρια Linux Bash

Ποια είναι η χρήση της εντολής αντιγραφής Docker;

Πώς να εγγραφείτε στο MrBeast Gaming Discord

Πώς να εγκαταστήσετε τον πυρήνα του JupyterHub JavaScript/Node.js για την εκτέλεση κωδικών JavaScript/Node.js σε φορητούς υπολογιστές Jupyter

Πώς να δοκιμάσετε έναν πυκνωτή

Τι κάνει το W Metacharacter στο RegExp της JavaScript