Λάβετε έναν αριθμό στηλών στο R DataFrame

Labete Enan Arithmo Stelon Sto R Dataframe



Στο R, η λήψη του αριθμού των στηλών είναι μια βασική λειτουργία που απαιτείται σε πολλές περιπτώσεις κατά την εργασία με DataFrames. Κατά την υπορύθμιση, την ανάλυση, τον χειρισμό, τη δημοσίευση και την οπτικοποίηση των δεδομένων, ο αριθμός των στηλών είναι μια κρίσιμη πληροφορία που πρέπει να γνωρίζετε. Επομένως, το R παρέχει διαφορετικές προσεγγίσεις για να λάβετε το σύνολο των στηλών του καθορισμένου DataFrame. Σε αυτό το άρθρο, θα συζητήσουμε μερικές από τις προσεγγίσεις που μας βοηθούν να λάβουμε τον αριθμό των στηλών του DataFrame.

Παράδειγμα 1: Χρήση της συνάρτησης Ncol().

Η ncol() είναι η πιο συχνή συνάρτηση για τη λήψη του συνόλου των στηλών των DataFrames.







df <- data.frame('y1' = c(10, 12, 14, 19),

'y2' = c(15, 22, 24, 29),
'y3' = c(25, 32, 34, 39))


n <- ncol(df)

cat('-----Αριθμός στηλών στο πλαίσιο δεδομένων :', n)

Σε αυτό το παράδειγμα, δημιουργούμε πρώτα ένα 'df' DataFrame με τρεις στήλες που επισημαίνονται ως 'y1', 'y2' και 'y3' χρησιμοποιώντας τη συνάρτηση data.frame() στο R. Τα στοιχεία σε κάθε στήλη καθορίζονται χρησιμοποιώντας η συνάρτηση c() που δημιουργεί ένα διάνυσμα στοιχείων. Στη συνέχεια, χρησιμοποιώντας τη μεταβλητή 'n', η συνάρτηση ncol() χρησιμοποιείται για τον προσδιορισμό του συνόλου των στηλών στο 'df' DataFrame. Τέλος, με το περιγραφικό μήνυμα και τη μεταβλητή «n», η παρεχόμενη συνάρτηση cat() εκτυπώνει τα αποτελέσματα στην κονσόλα.



Όπως αναμενόταν, η ανακτημένη έξοδος υποδεικνύει ότι το καθορισμένο DataFrame έχει τρεις στήλες:







Παράδειγμα 2: Μετρήστε τις συνολικές στήλες για το Empty DataFrame

Στη συνέχεια, εφαρμόζουμε τη συνάρτηση ncol() στο κενό DataFrame το οποίο επίσης λαμβάνει τις τιμές των συνολικών στηλών αλλά αυτή η τιμή είναι μηδέν.

vala_df <- data.frame()

n <- ncol(empty_df)

cat('---Στήλες στο πλαίσιο δεδομένων :', n)

Σε αυτό το παράδειγμα, δημιουργούμε το κενό DataFrame, 'empty_df', καλώντας το data.frame() χωρίς να καθορίσουμε στήλες ή γραμμές. Στη συνέχεια, χρησιμοποιούμε τη συνάρτηση ncol() που χρησιμοποιείται για να βρούμε τον αριθμό των στηλών στο DataFrame. Η συνάρτηση ncol() ορίζεται με το DataFrame 'empty_df' εδώ για να ληφθούν οι συνολικές στήλες. Εφόσον το DataFrame 'empty_df' είναι κενό, δεν έχει στήλες. Έτσι, η έξοδος του ncol(empty_df) είναι 0. Τα αποτελέσματα εμφανίζονται από τη συνάρτηση cat() που αναπτύσσεται εδώ.



Η έξοδος δείχνει την τιμή '0' όπως αναμένεται επειδή το DataFrame είναι κενό.

Παράδειγμα 3: Χρήση της συνάρτησης Select_If() με τη συνάρτηση Length()

Αν θέλουμε να ανακτήσουμε τον αριθμό των στηλών οποιουδήποτε συγκεκριμένου τύπου, θα πρέπει να χρησιμοποιήσουμε τη συνάρτηση select_if() σε συνδυασμό με τη συνάρτηση length() του R. Αυτές οι συναρτήσεις χρησιμοποιούνται οι οποίες συνδυάζονται για να πάρουμε το σύνολο των στηλών κάθε τύπου . Ο κώδικας για τη χρήση αυτών των συναρτήσεων υλοποιείται ως εξής:

βιβλιοθήκη (dplyr)

x1<-ΓΡΑΜΜΑΤΑ[1:10]

x2<-rpois(10,2)

x3<-rpois(10,5)

x4<-sample(c('Summer','Winter'),10,replace=TRUE)

df1<-data.frame(x1,x2,x3,x4)

df1

μήκος(select_if(df1,is.numeric))

Σε αυτό το παράδειγμα, φορτώνουμε πρώτα το πακέτο dplyr έτσι ώστε να έχουμε πρόσβαση στη συνάρτηση select_if() και στη συνάρτηση length(). Στη συνέχεια, δημιουργούμε τις τέσσερις μεταβλητές – “x1”, “x2”, “x3” και “x4”, αντίστοιχα. Εδώ, το 'x1' περιέχει τα πρώτα 10 κεφαλαία γράμματα του αγγλικού αλφαβήτου. Οι μεταβλητές 'x2' και 'x3' δημιουργούνται χρησιμοποιώντας τη συνάρτηση rpois() για τη δημιουργία δύο ξεχωριστών διανυσμάτων 10 τυχαίων αριθμών με παραμέτρους 2 και 5, αντίστοιχα. Η μεταβλητή 'x4' είναι ένα διάνυσμα παράγοντα με 10 στοιχεία που λαμβάνονται τυχαία από το διάνυσμα c ('Καλοκαίρι', 'Χειμώνας').

Στη συνέχεια, επιχειρούμε να δημιουργήσουμε το DataFrame “df1” όπου όλες οι μεταβλητές περνούν στη συνάρτηση data.frame(). Τέλος, καλούμε τη συνάρτηση length() για να προσδιορίσουμε το μήκος του DataFrame “df1” που δημιουργείται χρησιμοποιώντας τη συνάρτηση select_if() από το πακέτο dplyr. Η συνάρτηση select_if() επιλέγει τις στήλες από ένα DataFrame 'df1' ως όρισμα και η συνάρτηση is.numeric() επιλέγει μόνο τις στήλες που περιέχουν αριθμητικές τιμές. Στη συνέχεια, η συνάρτηση length() παίρνει το σύνολο των στηλών που επιλέγεται από την select_if() που είναι η έξοδος ολόκληρου του κώδικα.

Το μήκος της στήλης εμφανίζεται στην ακόλουθη έξοδο που υποδεικνύει τις συνολικές στήλες του DataFrame:

Παράδειγμα 4: Χρήση της συνάρτησης Sapply().

Αντίθετα, αν θέλουμε να μετρήσουμε μόνο τις τιμές που λείπουν από τις στήλες, έχουμε τη συνάρτηση sapply(). Η συνάρτηση sapply() επαναλαμβάνεται σε κάθε στήλη του DataFrame για να λειτουργεί συγκεκριμένα. Η συνάρτηση sapply() μεταβιβάζεται πρώτα με το DataFrame ως όρισμα. Στη συνέχεια, χρειάζεται να εκτελεστεί η λειτουργία σε αυτό το DataFrame. Η υλοποίηση της συνάρτησης sapply() για τη λήψη του αριθμού των τιμών NA στις στήλες DataFrame παρέχεται ως εξής:

new_df <- data.frame(c1 = c(10, 11, NA, 13, NA),

c2 = c('N', NA, 'A', 'M', 'E'),
c3 = c(NA, 92, NA, NA, 95))

sapply(new_df, συνάρτηση(x) άθροισμα(is.na(x)))

Σε αυτό το παράδειγμα, δημιουργούμε το DataFrame 'new_df' με τρεις στήλες - 'c1', 'c2' και 'c3'. Οι πρώτες στήλες, 'c1' και 'c3', περιέχουν τις αριθμητικές τιμές συμπεριλαμβανομένων ορισμένων τιμών που λείπουν και αντιπροσωπεύονται από NA. Η δεύτερη στήλη, 'c2', περιέχει τους χαρακτήρες συμπεριλαμβανομένων ορισμένων τιμών που λείπουν και αντιπροσωπεύεται επίσης από NA. Στη συνέχεια, εφαρμόζουμε τη συνάρτηση sapply() στο DataFrame “new_df” και υπολογίζουμε τον αριθμό των τιμών που λείπουν σε κάθε στήλη χρησιμοποιώντας την έκφραση sum() μέσα στη συνάρτηση sapply().

Η συνάρτηση is.na() είναι αυτή η έκφραση που καθορίζεται στη συνάρτηση sum() που επιστρέφει ένα λογικό διάνυσμα που υποδεικνύει εάν κάθε στοιχείο στη στήλη λείπει ή όχι. Η συνάρτηση sum() αθροίζει τις TRUE τιμές για να μετρήσει τον αριθμό των τιμών που λείπουν σε κάθε στήλη.

Ως εκ τούτου, η έξοδος εμφανίζει τις συνολικές τιμές NA σε κάθε μία από τις στήλες:

Παράδειγμα 5: Χρήση της συνάρτησης Dim().

Επιπλέον, θέλουμε να λάβουμε τις συνολικές στήλες μαζί με τις σειρές του DataFrame. Στη συνέχεια, η συνάρτηση dim() παρέχει τις διαστάσεις του DataFrame. Η συνάρτηση dim() παίρνει το αντικείμενο ως όρισμα του οποίου τις διαστάσεις θέλουμε να ανακτήσουμε. Ακολουθεί ο κώδικας για τη χρήση της συνάρτησης dim():

d1 <- data.frame(team=c('t1', 't2', 't3', 't4'),

πόντοι=c(8, 10, 7, 4))

dim(d1)

Σε αυτό το παράδειγμα, ορίζουμε πρώτα το 'd1' DataFrame που δημιουργείται χρησιμοποιώντας τη συνάρτηση data.frame() όπου δύο στήλες ορίζονται 'ομάδα' και 'πόντους'. Μετά από αυτό, καλούμε τη συνάρτηση dim() πάνω από το DataFrame “d1”. Η συνάρτηση dim() επιστρέφει τον αριθμό γραμμών και στηλών του DataFrame. Επομένως, όταν εκτελούμε το dim(d1), επιστρέφει ένα διάνυσμα με δύο στοιχεία - το πρώτο από τα οποία αντικατοπτρίζει τον αριθμό των γραμμών στο DataFrame 'd1' και το δεύτερο τον αριθμό των στηλών.

Η έξοδος αντιπροσωπεύει τις διαστάσεις του DataFrame όπου η τιμή '4' υποδεικνύει τις συνολικές στήλες και η τιμή '2' αντιπροσωπεύει τις σειρές:

συμπέρασμα

Τώρα μάθαμε ότι η καταμέτρηση του αριθμού των στηλών στο R είναι μια απλή και σημαντική λειτουργία που μπορεί να εκτελεστεί στο DataFrame. Μεταξύ όλων των συναρτήσεων, η συνάρτηση ncol() είναι ο πιο βολικός τρόπος. Τώρα, είμαστε εξοικειωμένοι με τους διαφορετικούς τρόπους για να λάβουμε τον αριθμό των στηλών από το δεδομένο DataFrame.