Τι είναι το Dalle-mini και πώς λειτουργεί;

Ti Einai To Dalle Mini Kai Pos Leitourgei



Το Dalle-mini είναι ένα μοντέλο βαθιάς εκμάθησης που μπορεί να δημιουργήσει εικόνες υψηλής ποιότητας από κείμενο εισαγωγής χρήστη. Βασίζεται στο μοντέλο DALL-E, το οποίο το OpenAI κυκλοφόρησε τον Ιανουάριο του 2021. Το DALL-E σημαίνει ' Ξεμπερδεμένη γλώσσα και λανθάνουσα έκφραση ” είναι ένα νευρωνικό δίκτυο που βασίζεται σε μετασχηματιστή που μπορεί να κωδικοποιήσει κείμενο και εικόνες σε έναν κοινό λανθάνοντα χώρο και στη συνέχεια να τα αποκωδικοποιήσει ξανά σε οποιαδήποτε από τις δύο μορφές.

Αυτό το άρθρο θα εξηγήσει το ακόλουθο περιεχόμενο:







Τι είναι το Dalle-mini;

Δώσε της το μίνι είναι μια μικρότερη και ταχύτερη έκδοση του DALL-E, η οποία δημιουργήθηκε από την EleutherAI, μια ερευνητική ομάδα ανοιχτού κώδικα. Το Dalle-mini χρησιμοποιεί μόνο 6 δισεκατομμύρια παραμέτρους, σε σύγκριση με τα 12 δισεκατομμύρια του DALL-E, και μπορεί να τρέξει σε μία μόνο GPU. Το Dalle-mini χρησιμοποιεί επίσης διαφορετικό tokenizer και λεξιλόγιο για την εισαγωγή κειμένου, γεγονός που το καθιστά πιο συμβατό με διαφορετικές γλώσσες και τομείς:




Σημείωση : Οι χρήστες μπορούν να δημιουργήσουν δωρεάν εικόνες χρησιμοποιώντας το Dalle-mini ακολουθώντας το Σύνδεσμος .



Τι είναι το Working of Dalle-mini;

Η κύρια ιδέα πίσω από το Dalle-mini είναι η ισχύς των μετασχηματιστών, οι οποίοι είναι νευρωνικά δίκτυα. Μπορούν να μάθουν εξαρτήσεις μεγάλης εμβέλειας και πολύπλοκα μοτίβα σε διαδοχικά δεδομένα, όπως κείμενο ή εικόνες.





Οι μετασχηματιστές αποτελούνται από δύο κύρια μέρη: έναν κωδικοποιητή και έναν αποκωδικοποιητή. Το πρώτο μέρος λαμβάνει μια είσοδο (μια περιγραφή κειμένου) και την αλλάζει σε κρυφά διανύσματα. Μετά από αυτό, ο αποκωδικοποιητής το παίρνει και παράγει μια έξοδο (μια εικόνα) που είναι σχετική με την είσοδο.

Ποια είναι η διαφορά μεταξύ Dalle-mini και DALL-E;

Τα Dalle-mini και DALL-E χρησιμοποιούν μια κοινή αρχιτεκτονική κωδικοποιητή-αποκωδικοποιητή τόσο για κείμενο όσο και για εικόνες. Μπορούν να κωδικοποιήσουν και να αποκωδικοποιήσουν και τις δύο μεθόδους χρησιμοποιώντας το ίδιο δίκτυο. Αυτό τους επιτρέπει να μάθουν έναν κοινό λανθάνοντα χώρο που αποτυπώνει τη σημασιολογική σχέση μεταξύ κειμένου και εικόνων. Μετά από αυτό, τους δίνει τη δυνατότητα να εκτελούν δημιουργία πολλαπλών τρόπων, όπως δημιουργία εικόνων από κείμενο ή το αντίστροφο.



Πώς λειτουργεί το Dalle-mini;

Για να δημιουργήσει μια εικόνα από μια περιγραφή κειμένου, το Dalle-mini διαμορφώνει πρώτα το κείμενο χρησιμοποιώντας έναν αλγόριθμο κωδικοποίησης ζεύγους byte (BPE), ο οποίος χωρίζει το κείμενο σε μονάδες υπολέξεων με βάση τη συχνότητα και τη συνύπαρξή τους:


Ας δούμε αναλυτικά την εσωτερική λειτουργία του Dalle-mini:

Εσωτερική εργασία του Dalle-mini

Ας υποθέσουμε ότι η λέξη « παιχνίδι 'μπορεί να χωριστεί σε' pla ' και ' ying '. Στη συνέχεια, οι μάρκες αντιστοιχίζονται σε αριθμητικά αναγνωριστικά χρησιμοποιώντας ένα λεξιλόγιο 8192 διακριτικών. Τα αναγνωριστικά τροφοδοτούνται στον κωδικοποιητή, παράγοντας μια λανθάνουσα αναπαράσταση μεγέθους 256 x 64:


Στη συνέχεια, ο αποκωδικοποιητής παίρνει τη λανθάνουσα αναπαράσταση και δημιουργεί μια εικόνα μεγέθους 256 x 256 pixel. Ο αποκωδικοποιητής χρησιμοποιεί μια διαδικασία αυτόματης παλινδρόμησης, που σημαίνει ότι δημιουργεί κάθε εικονοστοιχείο ένα προς ένα, με βάση τα προηγούμενα pixel και τη λανθάνουσα αναπαράσταση.

Πώς να δημιουργήσετε εικόνα από την περιγραφή κειμένου χρησιμοποιώντας το Dalle-mini;

Για να δημιουργήσετε μια περιγραφή κειμένου από μια εικόνα χρησιμοποιώντας το Dalle-mini, εισαγάγετε το κείμενο στο παράθυρο προτροπής. Για παράδειγμα, πληκτρολογήστε ' Ένας πίνακας με τυχαία λουλούδια ' στην προτροπή και πατήστε το ' Τρέξιμο κουμπί ”:


Η έξοδος δείχνει ότι το Dalle-mini έχει δημιουργήσει σχετικές εικόνες σύμφωνα με το κείμενο εισαγωγής.

συμπέρασμα

Το Dalle-mini είναι ένα αξιοσημείωτο μοντέλο που καταδεικνύει τις δυνατότητες των μετασχηματιστών για πολλαπλή παραγωγή. Μπορούν να δημιουργήσουν ρεαλιστικές και ποικίλες εικόνες από περιγραφές φυσικής γλώσσας, καθώς και συνεκτικά και σχετικά κείμενα από εικόνες. Μπορούν επίσης να χειριστούν πολύπλοκες συνθέσεις, όπως ο συνδυασμός πολλών αντικειμένων ή χαρακτηριστικών σε μία εικόνα ή κείμενο. Αυτό το άρθρο έχει εξηγήσει το Dalle-mini και τη λειτουργία του λεπτομερώς.