Συνάρτηση Sample() στο R

Synartese Sample Sto R



Στο R, λαμβάνουμε τυχαία δείγματα τιμών από ένα διάνυσμα ή μια λίστα χρησιμοποιώντας τη συνάρτηση sample(). Μας δίνει τη δυνατότητα να επιλέξουμε τυχαία ένα υποσύνολο δεδομένων που είναι χρήσιμο σε πολλές στατιστικές εφαρμογές. Εάν η είσοδος είναι μια λίστα στη συνάρτηση sample(), η έξοδος θα είναι επίσης μια λίστα με τον ίδιο αριθμό στοιχείων, αλλά με τα επιλεγμένα στοιχεία. Αυτό το άρθρο παρουσιάζει τη συνάρτηση sample() του R με την υλοποίηση που ορίζει τα διάφορα ορίσματα.

Παράδειγμα 1: Χρήση της συνάρτησης Sample() με το όρισμα δεδομένων

Η συνάρτηση sample() του R πρέπει να παρέχεται με τα δείγματα δεδομένων για να δημιουργηθεί τυχαία ένας αριθμός. Το δείγμα δεδομένων είναι το απαιτούμενο όρισμα της συνάρτησης sample() της οποίας ο κώδικας δίνεται ως εξής:

δεδομέναΧ < - γ ( 10 , είκοσι , 30 , 40 , πενήντα , 60 , 70 , 80 , 90 , 100 )

δείγμα ( δεδομέναΧ , 3 )

δείγμα ( δεδομέναΧ , 3 )

Εδώ, δημιουργούμε πρώτα τα διανύσματα των ακέραιων στοιχείων εντός της μεταβλητής 'dataX'. Στη συνέχεια, καλούμε τη συνάρτηση sample() δύο φορές στον κώδικα και μεταβιβάζουμε το διάνυσμα 'dataX' που δημιουργήσαμε προηγουμένως ως όρισμα σε αυτό. Η πρώτη χρήση του δείγματος (dataX, 3) παίρνει ένα τυχαίο δείγμα τριών στοιχείων από το διάνυσμα 'dataX'. Τα αποτελέσματα είναι μια τυχαία μετάθεση τριών στοιχείων από το 'dataX'. Μετά από αυτό, χρησιμοποιούμε ξανά το δείγμα(a, 5) το οποίο παίρνει ένα άλλο ανεξάρτητο τυχαίο δείγμα τριών στοιχείων από το διάνυσμα «dataX». Αυτή τη φορά, το αποτέλεσμα είναι εντελώς διαφορετικό από την προηγούμενη.







Η έξοδος δείχνει τα διαφορετικά στοιχεία κατά την κλήση της συνάρτησης sample() δύο φορές. Σημειώστε ότι κάθε φορά που δημιουργούμε το δείγμα τυχαία, λαμβάνονται διαφορετικά στοιχεία από τα διανύσματα:





Παράδειγμα 2: Χρήση της συνάρτησης Sample() με το όρισμα Αντικατάσταση

Επιπλέον, έχουμε το όρισμα “replace” της συνάρτησης sample() που παίρνει τις λογικές τιμές. Ένα παρόμοιο στοιχείο μπορεί να επιλεγεί περισσότερες από μία φορές, εάν το στοιχείο δειγματοληπτηθεί με την επιλογή αντικατάστασης, TRUE. Ωστόσο, εάν η τιμή οριστεί σε FALSE, μπορεί να υπάρχει μόνο μία επιλογή από κάθε στοιχείο που προκαλεί τη δειγματοληψία των στοιχείων χωρίς αντικατάσταση.





τυχαίοι_αριθμοί = ντο ( έντεκα , 25 , 12 , 89 , Τέσσερα πέντε , 16 , 67 , 38 , 96 , 55 , 73 )

δείγμα ( τυχαίοι_αριθμοί , 4 , αντικαθιστώ = ΑΛΗΘΗΣ )

δείγμα ( τυχαίοι_αριθμοί , 5 , αντικαθιστώ = ΑΛΗΘΗΣ )

Εδώ, ορίζουμε πρώτα το διάνυσμα με ορισμένες αριθμητικές τιμές στη μεταβλητή 'random_numbers'. Μετά από αυτό, καλούμε τη συνάρτηση sample() όπου το 'random_numbers' μεταβιβάζεται ως όρισμα. Η τιμή του '4' καθορίζεται στη συνάρτηση sample() που υποδεικνύει ότι επιλέγει μόνο τέσσερις τυχαίες τιμές από τα διανύσματα στους 'random_numbers'.

Στη συνέχεια, η αντικατάσταση=TRUE στη συνάρτηση sample() καθορίζει ότι κάθε τιμή μπορεί να επιλεγεί περισσότερες από μία φορές. Στη συνέχεια, αναπτύσσουμε ξανά τη συνάρτηση sample() η οποία επιλέγει «5» τυχαίες τιμές από τα διανύσματα αυτή τη φορά. Ομοίως, ορίσαμε το όρισμα αντικατάστασης με 'TRUE' όπως πριν για τις επιλογές πολλαπλής επιλογής για κάθε τιμή.



Όπως μπορούμε να δούμε, η πρώτη έξοδος εμφανίζει το διάνυσμα 4 τυχαία επιλεγμένων στοιχείων από το διάνυσμα 'random_numbers'. Η επόμενη έξοδος, ωστόσο, εμφανίζει ένα διάνυσμα «5» τυχαία επιλεγμένων στοιχείων:

Παράδειγμα 3: Χρήση της συνάρτησης Sample() με το όρισμα Size

Το επόμενο όρισμα που περνά η συνάρτηση sample() είναι το “size”. Το 'μέγεθος' είναι μια προαιρετική παράμετρος που υποδεικνύει την τιμή των δειγμάτων που πρόκειται να ληφθούν. Ο κώδικας της συνάρτησης sample() με την παράμετρο “size” δίνεται ως εξής:

φορείς < - 1 : 10

δείγμα ( φορείς , Μέγεθος = 5 )

Εδώ, ένα αριθμητικό διάνυσμα ορίζεται ως μια ακολουθία ακεραίων από το 1 έως το 10 στη μεταβλητή «διανύσματα». Στη συνέχεια, η συνάρτηση sample() χρησιμοποιείται για την επιλογή τυχαίων στοιχείων από το διάνυσμα. Όπως μπορούμε να δούμε, η συνάρτηση sample() παίρνει δύο ορίσματα. Το πρώτο όρισμα είναι τα διανύσματα από τα οποία παίρνουμε το δείγμα. Το επόμενο όρισμα είναι το μέγεθος που καθορίζεται με την τιμή '5' που δείχνει ότι υπάρχουν μόνο πέντε στοιχεία για να επιλέξετε από το διάνυσμα.

Ως εκ τούτου, τα επιλεγμένα στοιχεία επιστρέφονται με τυχαία σειρά ως νέο διάνυσμα στην ακόλουθη έξοδο:

Παράδειγμα 4: Χρήση της συνάρτησης Sample() για τη λίστα R

Επιπλέον, η συνάρτηση sample() μπορεί να χρησιμοποιηθεί για τη λίστα στο R. Αυτή η ενότητα του παραδείγματος λαμβάνει τυχαίες τιμές από τη λίστα.

R_list < - λίστα ( 1 : 4 ,

913 ,

ντο ( 'Χ' , 'ΕΕΕ' , 'ΚΑΛΟΣ' ) ,

'ZZZ' ,

5 )

αποτέλεσμα < - R_list [ δείγμα ( 1 :μήκος ( R_list ) , Μέγεθος = 4 ) ]

αποτέλεσμα

Εδώ, η λίστα του 'R_list' ορίζεται με στοιχεία διαφορετικών τύπων, συμπεριλαμβανομένων ενός διανύσματος αριθμητικών, ενός μόνο αριθμού, ενός διανύσματος χαρακτήρων, μιας συμβολοσειράς και ενός άλλου αριθμού. Μετά από αυτό, δημιουργούμε μια μεταβλητή 'result' όπου καλείται η συνάρτηση sample().

Μέσα στη συνάρτηση sample(), ορίσαμε την έκφραση “1:length(R_list)” που υποδεικνύει τα διανύσματα των δεικτών προς δειγματοληψία. Στη συνέχεια, έχουμε ένα όρισμα 'μέγεθος' για να καθορίσουμε τον αριθμό των στοιχείων που θα δειγματιστούν, το οποίο είναι '4'. Επομένως, η 'R_list' δημιουργεί τρία τυχαία επιλεγμένα στοιχεία από τη λίστα της 'R_list'. Δεδομένου ότι τα στοιχεία στη λίστα του 'R_list' είναι διαφορετικών τύπων, τα στοιχεία που προκύπτουν στο 'αποτέλεσμα' μπορούν επίσης να είναι διαφορετικών τύπων.

Η έξοδος αντιπροσωπεύει τη νέα λίστα που περιέχει ένα τυχαίο υποσύνολο της αρχικής λίστας:

Παράδειγμα 5: Χρήση της συνάρτησης Sample() με το όρισμα Prob

Επιπλέον, έχουμε την παράμετρο “prob” της συνάρτησης sample(). Το όρισμα «prob» δίνει την πιθανότητα του επιλεγμένου στοιχείου στο διάνυσμα. Σημειώστε ότι όλα τα στοιχεία θεωρούνται ότι έχουν ίση πιθανότητα όταν δεν χρησιμοποιείται το όρισμα 'prob'.

τα δεδομένα μου = ντο ( 31 , 99 , 5 , 24 , 72 )

δείγμα ( τα δεδομένα μου , Μέγεθος = 10 , αντικαθιστώ = ΑΛΗΘΗΣ ,

πιθ = ντο ( 0,5 , μαλλομέταξο ύφασμα ( 0.1 , 4 ) ) )

Εδώ, τα στοιχεία των αριθμητικών διανυσμάτων αναφέρονται στο 'my_data'. Στο επόμενο βήμα, καλούμε τη συνάρτηση sample() όπου το 'my_data' περνά σε τυχαία επιλεγμένα 10 στοιχεία από αυτό. Στη συνέχεια, ορίζεται το όρισμα «μέγεθος» που προσδιορίζει ότι η τιμή που θα επιλεγεί τυχαία θα πρέπει να είναι μεγέθους «10». Μετά από αυτό, εκχωρούμε 'TRUE' στο όρισμα 'replace' που σημαίνει ότι κάθε επιλεγμένο στοιχείο αντικαθίσταται στο διάνυσμα πριν από την επιλογή του επόμενου. Το τρίτο όρισμα που ορίζεται στη συνάρτηση sample() είναι το 'prob' που ορίζει την πιθανότητα κάθε στοιχείου στο διάνυσμα 'my_data' να επιλεγεί. Η πιθανότητα του πρώτου στοιχείου ορίζεται σε '0,5'. Για τα υπόλοιπα τέσσερα διανυσματικά στοιχεία, η πιθανότητα είναι '0,1'.

Η ακόλουθη έξοδος ανακτάται με την υψηλότερη πιθανότητα του πρώτου στοιχείου στα διανύσματα όπως αναμένεται:

Παράδειγμα 6: Χρήση της συνάρτησης Sample() για απόδοση του Barplot

Τέλος, η συνάρτηση sample() χρησιμοποιείται για την κατασκευή του barplot στο R για την οπτικοποίηση της κατανομής μιας κατηγορικής μεταβλητής με μια δεδομένη κατανομή πιθανότητας.

δειγμα δεδομένων = ντο ( 1 , 2 , 3 )

barplot ( τραπέζι ( δείγμα ( δειγμα δεδομένων , Μέγεθος = 500 , αντικαθιστώ = ΑΛΗΘΗΣ , πιθ = ντο ( .30 , .60 , .10 ) ) ) )

Εδώ, αφού ορίσουμε το 'sample_data' με το διάνυσμα μιας ακέραιας τιμής, δημιουργούμε το barplot αναπτύσσοντας τη συνάρτηση sample(). Αρχικά, καλούμε το barplot που καλεί τη συνάρτηση table() για να δημιουργήσει έναν πίνακα συχνοτήτων του δείγματος που προκύπτει. Στη συνέχεια, καθορίζουμε τη συνάρτηση sample() μέσα στη συνάρτηση table() όπου ένα τυχαίο δείγμα μεγέθους 1000 λαμβάνεται από ένα διάνυσμα ακεραίων αριθμών 1 έως 3. Στη συνέχεια, το όρισμα 'prob' χρησιμοποιείται για να καθορίσει την πιθανότητα επιλογής κάθε ακέραιου αριθμού .

Όπως μπορούμε να δούμε τώρα, το barplot αποδίδεται παρακάτω με τις τρεις ράβδους, μία για κάθε ακέραιο, και το ύψος των ράβδων είναι σχετικό με τον ακέραιο που εμφανίζεται στο δείγμα:

συμπέρασμα

Είδαμε πώς λειτουργεί η συνάρτηση sample() με διάφορα παραδείγματα. Η συνάρτηση sample() χρησιμοποιείται με διαφορετικά ορίσματα όπου απαιτούνται τα δείγματα δεδομένων και όλα τα άλλα ορίσματα είναι προαιρετικά και καλούνται σε συγκεκριμένες περιπτώσεις. Ωστόσο, η συνάρτηση sample() είναι χρήσιμη στη στατιστική ανάλυση ή όταν εργάζεστε με μεγάλα σύνολα δεδομένων.