Pandas Join vs Merge

Pandas Join Vs Merge



Το 'Pandas' είναι ένα εργαλείο υψηλής απόδοσης για το περιβάλλον python. Είναι ένας «ανοιχτός» κώδικας για την ανάλυση δεδομένων. Η μέθοδος pandas join και η μέθοδος pandas merge χρησιμοποιούνται για την ένωση των δύο πλαισίων δεδομένων μαζί σε ένα ενιαίο πλαίσιο δεδομένων. Και στις δύο μεθόδους των panda, η διαφορά είναι ότι η συνάρτηση 'join' των panda ενώνει το πλαίσιο δεδομένων χρησιμοποιώντας ένα ευρετήριο. Ενώ η συνάρτηση «συγχώνευσης» των panda ενώνει το πλαίσιο δεδομένων χρησιμοποιώντας το ευρετήριο και τη μέθοδο στήλης με την οποία μπορούμε να επιλέξουμε μόνοι μας την επιθυμητή στήλη. Η μέθοδος συγχώνευσης των panda χρησιμοποιείται κυρίως σε σύγκριση με τη μέθοδο ένωσης των panda. Το λογισμικό που θα χρησιμοποιήσουμε για την υλοποίηση είναι το λογισμικό “spyder”, το οποίο βρίσκεται στο περιβάλλον python που θα μας παρέχει οφέλη για την υλοποίηση κώδικα της μεθόδου pandas join() και της συνάρτησης μεθόδου pandas merge().

Σύνταξη της μεθόδου Pandas Join().

«df1. Συμμετοχή ( df2 )

Το 'df' στην παραπάνω σύνταξη είναι η συντομογραφία του 'dataframe'. Υπάρχουν δύο πλαίσια δεδομένων στη σύνταξη με τη συνάρτηση «dot join», η οποία προορίζεται για την κλήση της μεθόδου. Είναι η μέθοδος των pandas για τη σύνδεση δύο πλαισίων δεδομένων. Λειτουργεί χρησιμοποιώντας το ευρετήριο για να συνδυάσει τα πλαίσια δεδομένων σε ένα μόνο.







Σύνταξη της μεθόδου Pandas Merge().

«df1. συγχώνευση ( df2 , επί = 'όνομα_στήλης' )

Η σύνταξη της μεθόδου συγχώνευσης pandas έχει δύο πλαίσια δεδομένων ως 'df1' και 'df2'. Η συνάρτηση «συγχώνευση κουκκίδων» καλεί τη μέθοδο σύνδεσης και των δύο πλαισίων δεδομένων με την εμφάνιση στηλών ανεστραμμένη.



Θα καλύψουμε τους ακόλουθους τρόπους συνδυασμού δύο πλαισίων δεδομένων για να χρησιμοποιήσουμε τις μεθόδους συγχώνευσης και σύνδεσης panda:



  • Η μέθοδος Pandas Join επικαλύπτεται.
  • Τα πάντα ενώνουν τη μέθοδο χρησιμοποιώντας μια επαναφορά ευρετηρίου.
  • Μέθοδος συγχώνευσης Pandas (στήλη 'αριστερά και δεξιά').
  • Ρητή μέθοδος συγχώνευσης Pandas.

Δημιουργία πλαισίων δεδομένων για την υλοποίηση της μεθόδου συγχώνευσης και σύνδεσης των Pandas

Αρχικά, πρέπει να δημιουργήσουμε ένα πλαίσιο δεδομένων. Για αυτό, θα χρησιμοποιήσουμε το εργαλείο 'spyder'. Αφού το ανοίξετε, ξεκινήστε να γράφετε τον κωδικό. Εισαγάγετε panda ως 'pd' για τη συσχέτιση βιβλιοθήκης pandas. Έχουμε τις μεταβλητές πλαισίου δεδομένων ως 'x', 'y', 'p' και 'q αντίστοιχα και 'a' με τιμές '1' και 'b' με την τιμή που έχει εκχωρηθεί ως '2'.





Η έξοδος είναι ένα 'df' που δημιουργείται με τις τιμές που έχουν εκχωρηθεί. Μπορούμε να το κάνουμε τόσο μεγάλο όσο είναι τα δεδομένα.



Δημιουργία άλλου πλαισίου δεδομένων

Πρέπει να φτιάξουμε ένα άλλο πλαίσιο δεδομένων, για να κατανοήσουμε ξεκάθαρα τις μεθόδους ένωσης και συγχώνευσης των πάντα. Εδώ, έχουμε δημιουργήσει το 'df' το ίδιο με το παραπάνω 'df', μόνο που οι τιμές είναι διαφορετικές οι μεταβλητές που έχουν εκχωρηθεί. Έχουμε «h», «j», «s» και «d», ενώ εκχωρούμε τις τιμές «b» με την τιμή «8» και «Y» με την τιμή «3».

Η έξοδος δείχνει ένα απλό 'df' που δημιουργήθηκε.

Παράδειγμα # 01: Μέθοδος σύνδεσης Pandas (επικαλυπτόμενη)

Τώρα, θα δούμε πώς να ενώσουμε δύο πλαίσια δεδομένων με τη μέθοδο pandas join. Για αυτήν τη μέθοδο, μπορούμε να επιλέξουμε τη στήλη της επιλογής σας στην οποία θέλουμε να εργαστούμε από το πλαίσιο δεδομένων. Πήραμε το παράδειγμα με την επικαλυπτόμενη στήλη 'αριστερά' από το 'df', οπότε μπορούμε να το διορθώσουμε με το 'επίθημα' για να ξεπεραστεί η επικάλυψη δεδομένων. Εδώ, οι μεταβλητές που χρησιμοποιούνται είναι 'x', 'z', 'v', 'd'. 'p', 'o', 'l' και 'y' με τις τιμές που εκχωρούνται ως '3', '6', '7' και '9'. Το '.join' καλεί τη μέθοδο, με τη στοίχιση που έχει οριστεί στην αριστερή ένωση με το δεξί επίθημα 'df'. '. Το 'επίθημα' που χρησιμοποιείται στον κώδικα οφείλεται στο ότι στο πλαίσιο δεδομένων, υπάρχουν δύο στήλες που έχουν το ίδιο όνομα που είναι 'κλειδί' και που δεν θα επικαλύπτουν τα δεδομένα.

Η έξοδος δεν εμφανίζει επικαλυπτόμενα δεδομένα με τη μέθοδο ένωσης δύο 'df' χρησιμοποιώντας τη μέθοδο pandas join.

Παράδειγμα # 02: Μέθοδος σύνδεσης Panda με χρήση επαναφοράς ευρετηρίου

Σε αυτό το παράδειγμα, θα καθορίσουμε χωριστά τη στήλη με την παράμετρο 'on' που θα χρησιμοποιηθεί ως 'κλειδί' στη μέθοδο ένωσης που βοηθά στη σύνδεση των δύο πλαισίων δεδομένων. το συνδυασμένο πράγμα γίνεται με αυτήν την παράμετρο. Επίσης, ο δείκτης ενός από τα δύο «df» θα πρέπει να είναι παρόμοιος για να τα ενώσει. Παρόμοια είδη δεδομένων ή δεδομένα που χρησιμοποιούνται για τον ίδιο σκοπό μπορούν να είναι μαζί για επεξεργασία. Αυτό θα χρησιμοποιήσει το ευρετήριο ακόμα, χρησιμοποιώντας από τα δεξιά. Οι μεταβλητές είναι τα «s», «t», «u», «v», «n», «w», «k» και «q». Οι τιμές που έχουν εκχωρηθεί είναι '3', '6', '7' και '9'. Το 'reset dot index' είναι μια μέθοδος των panda για την επαναφορά του ευρετηρίου του 'df'. Το ευρετήριο επαναφοράς ορίζει όλους τους ακέραιους αριθμούς της καταχώρισης του πλαισίου δεδομένων σας από 0 έως ότου τα δεδομένα του πλαισίου δεδομένων επιμηκυνθούν.

Εδώ είναι η έξοδος που εμφανίζεται με τη μέθοδο σύνδεσης «κλειδιού» ευρετηρίου των panda.

Παράδειγμα # 03: Μέθοδος συγχώνευσης Pandas (στήλη 'αριστερά και δεξιά')

Η μέθοδος συγχώνευσης εκτελεί μια παρόμοια λειτουργία με τη μέθοδο ένωσης pandas. Και οι δύο μέθοδοι είναι για το συνδυασμό δεδομένων σε ένα παρόμοιο πλαίσιο δεδομένων. Η μέθοδος συγχώνευσης είναι πιο ευέλικτη και απαιτεί τον καθορισμό του κλειδιού. Μπορούμε επίσης να το καθορίσουμε στην αριστερή και στη δεξιά στήλη ανάλογα με την εργασία του πλαισίου δεδομένων σας. Οι μεταβλητές στον κώδικα είναι «s», «d», «g», «f», «k», «j», «b» και «q». οι τιμές που έχουν εκχωρηθεί είναι '9', '5', '6' και '7'. Η υλοποίηση της εξωτερικής «σύνδεσης» γίνεται και στα δύο «df» χρησιμοποιώντας την παράμετρο «how» της συνάρτησης μεθόδου συγχώνευσης pandas.

Η έξοδος που βλέπουμε δείχνει τα συγχωνευμένα δεδομένα των δύο πλαισίων δεδομένων. Το 'NaN' αντιπροσωπεύει 'όχι έναν αριθμό' που σημαίνει ότι όπου δεν υπάρχει αριθμός εκχωρημένος στα δεδομένα, το 'NaN' εμφανίζεται εκεί.

Παράδειγμα # 04: Η μέθοδος συγχώνευσης ρητά

Εδώ, σε αυτό το παράδειγμα, η μέθοδος συγχώνευσης είναι η καταστροφή του ευρετηρίου και η τιμή του δείκτη δεν υπολογίζεται στο πλαίσιο δεδομένων. Θα κάνουμε αυτή τη μέθοδο σύμφωνα με την εργασία που χρειάζεται να γίνει, όπου η διευκρίνιση πρέπει να γίνει συνέχεια. Θα συγχωνεύσει τα δεδομένα βάσει ενός αριστερού ή δεξιού ευρετηρίου με την παράμετρο. Οι μεταβλητές σε αυτό το πλαίσιο δεδομένων είναι «t», «r», «I», «u», «h», «o», «e» και «e». Οι εκχωρημένες τιμές είναι «2», «4», «6» και «4». Το παραπάνω παράδειγμα της μεθόδου συγχώνευσης pandas με την επιλογή στηλών ανάλογα με τις ανάγκες είναι η πιο εμφανίσιμη και πολύτιμη μέθοδος σύνδεσης των δύο πλαισίων δεδομένων. Έλεγχος στο τέλος της γραμμής κώδικα σχετικά με το ότι το κλειδί συγχώνευσης είναι μοναδικό στο σύνολο δεδομένων.

Στην παρακάτω έξοδο το ευρετήριο δεν εμφανίζεται χωρίς το ευρετήριο αλλά η συνάρτηση εκτελείται με βάση το δεξί και το αριστερό ευρετήριο.

συμπέρασμα

Οι μέθοδοι merge() και join() είναι και οι δύο μέθοδοι πολύ βολικές και αποτελεσματικές. Και οι δύο αυτές λειτουργίες χρησιμοποιούνται για τη σύνδεση των δύο χωριστών πλαισίου δεδομένων στο ίδιο πλαίσιο δεδομένων, αλλά έχουν διαφορετική χρήση ανάλογα με την περίπτωση. Σε αυτό το άρθρο, μάθαμε τις βασικές διαφορές μεταξύ της μεθόδου ένωσης και συγχώνευσης panda. Αφού κάνουμε τα παραδείγματα και κατανοήσουμε τη μέθοδο ένωσης panda, θα το ολοκληρώσουμε γνωρίζοντας ότι, εάν θέλουμε πιο ευέλικτη και πιο ευέλικτη ένωση σε στυλ βάσης δεδομένων, είναι προτιμότερο να ακολουθήσουμε τη μέθοδο συγχώνευσης pandas. Από την άλλη πλευρά, εάν θέλουμε να κάνουμε το πλαίσιο δεδομένων σε συνδυασμό με το ευρετήριο εκτενώς, μπορούμε να χρησιμοποιήσουμε τη συνάρτηση μεθόδου pandas join().