Ποια είναι η διαφορά μεταξύ ενός συνόλου δεδομένων και ενός πλαισίου δεδομένων;


Απάντηση 1:

Ένα σύνολο δεδομένων είναι ένας ευρύς όρος για να περιγράψει μια συλλογή παρατηρήσεων. Ένα πλαίσιο δεδομένων περιγράφει μια συγκεκριμένη μορφή και αρχιτεκτονική δεδομένων, συγκεκριμένα ότι κάθε παρατήρηση μπορεί να περιγραφεί από ένα ευρετήριο (πότε / ποιος συνέβη) και ένα όνομα πεδίου (το όνομα της ίδιας της παρατήρησης).

Για παράδειγμα, αν ζητούσατε από τους φίλους τα αγαπημένα τους τρόφιμα και πόσο κοστίζει η κατανάλωση ή η κατανάλωση, μπορείτε να περιγράψετε τις παρατηρήσεις σας ως εξής:

  • Joe → πίτσα → $ 2.75 → (φάτε 2 φέτες) → Όνομα StoreSally → γεμιστό αβοκάντο → $ 8.25 → το κάνετε στο σπίτι.

Αυτό το ️ θα χαρακτηριζόταν ως σύνολο δεδομένων.

Για να μετατρέψετε σε ένα πλαίσιο δεδομένων, θέλετε να διαμορφώσετε ως εξής:

Σημειώστε ότι κάθε εγγραφή περιέχει μια τιμή για κάθε πεδίο (που μπορεί να απαιτεί εξελιγμένη μηχανική, σε πολλές περιπτώσεις).


Απάντηση 2:

Ένα σύνολο δεδομένων είναι οποιαδήποτε δεδομένα συλλέγετε για την ανάλυσή σας. Αυτό θα μπορούσε να προέρχεται από αρχείο Excel, βάση δεδομένων, λίμνη δεδομένων ή οποιοδήποτε άλλο μέσο αποθήκευσης δεδομένων.

Ένα σύνολο δεδομένων μπορεί να φορτωθεί σε ένα πλαίσιο δεδομένων που είναι μια δομή πίνακα που έχει κατασκευαστεί ειδικά για ανάλυση.

Η δομή του πλαισίου δεδομένων μοιάζει με αυτό που θα δείτε στο Excel ή σε μια βάση δεδομένων, ωστόσο η απόδοση του για εργασία ανάλυσης μπορεί εύκολα να είναι χιλιάδες φορές ταχύτερη.

Ο λόγος είναι ότι οι πηγές δεδομένων, όπως οι βάσεις δεδομένων, είναι βελτιστοποιημένες για την ανάγνωση και την εγγραφή μεμονωμένων αρχείων και τη μόνιμη αποθήκευση.

Ένα πλαίσιο δεδομένων χρησιμοποιεί μνήμη RAM αντί για σκληρούς δίσκους, πράγμα που σημαίνει ότι χρησιμοποιεί γρήγορη προσωρινή αποθήκευση, η οποία θα εξαφανιστεί μόλις τερματιστεί ο υπολογιστής.

Η ανάλυση δεδομένων περιλαμβάνει επίσης πολλούς υπολογισμούς σε όλα τα αρχεία. Με την οργάνωση των δεδομένων με στήλες αντί για σειρές (όπως μια βάση δεδομένων), είναι πολύ πιο αποτελεσματική για τους υπολογιστές να υπολογίζουν.

Δεδομένου ότι ένα πλαίσιο δεδομένων είναι μια δομή ανάλυσης δεδομένων, θα αποτελεί μέρος ενός εργαλείου ανάλυσης δεδομένων, όπως το R, Python ή Spark, το οποίο θα σας δώσει επίσης ένα πλούσιο σύνολο εργαλείων για τη διεξαγωγή της ανάλυσης δεδομένων και της εργασίας τύπου επιστήμης δεδομένων.

Εάν ενδιαφέρεστε για πιο λεπτομερείς πληροφορίες σχετικά με τον τρόπο αύξησης της απόδοσης των εργασιών ανάλυσης, έχω ένα βίντεο εδώ.