Είναι η επιστήμη των δεδομένων και τα μεγάλα δεδομένα ίδια; Υπάρχει διαφορά μεταξύ τους ή και οι δύο σημαίνουν το ίδιο;


Απάντηση 1:

Όχι, σίγουρα όχι.

Ας συζητήσουμε αυτό το πρόβλημα σε τρία μέρη:

Η Data Science είναι μια εξειδίκευση για την επίλυση διαφορετικών προβλημάτων χρησιμοποιώντας διαφορετικές μεθόδους από τη Στατιστική, τη Συνδυαστική, τα Μαθηματικά και την Πληροφορική κ.λπ.)

Μεγάλα δεδομένα: Τα μεγάλα δεδομένα σε μια ευρεία προβολή είναι μια έννοια του χειρισμού τεράστιων δεδομένων (Ο όρος τεράστιος είναι σχετικός) έξω από τις παραδοσιακές μεθόδους.

Hadoop: Το Hadoop είναι ένα πλαίσιο ή μπορούμε να πούμε ένα περιβάλλον το οποίο μπορεί να χρησιμοποιηθεί για τη διαχείριση και ανάλυση τεράστιων συνόλων δεδομένων χρησιμοποιώντας διάφορα εργαλεία (PIG, HIVE, Scoop, Fume κ.λπ.)

Βιβλιογραφικές αναφορές :

Hadoop Tutorial

Επιστημονικά δεδομένα

Μεγάλα δεδομένα


Απάντηση 2:

Υποθέτω ότι σκεφτήκατε ότι η "Επιστήμη των δεδομένων" και το "Big Data Hadoop" είναι δύο διαφορετικά πράγματα, αλλά στην πραγματικότητα είναι τρία. Η Επιστήμη Δεδομένων, τα Μεγάλα Δεδομένα και ο Hadoop έχουν διαφορετικές έννοιες.

Ας υποθέσουμε ότι είστε φοιτητής στην τάξη 10ο. Έχετε δώσει μια δουλειά για να βρείτε τον μέσο όρο των σημείων σε κάθε θέμα που βαθμολογήθηκαν από τους συμμαθητές σας. Έχετε 50 μαθητές στην τάξη σας που μελετούν 5 θέματα το καθένα. Βρίσκοντας τον μέσο όρο δεν υπάρχει επιστήμη πυραύλων, έτσι ώστε να τα κάνετε όλα σε ένα excel φύλλο. Τώρα ο δάσκαλός σας σας ζητάει να κάνετε τον ίδιο υπολογισμό για όλα τα τμήματα Α, Β και Γ, περίπου 150 Φοιτητών. Το φύλλο Excel είναι και πάλι αρκετό. Τώρα θέλετε να μάθετε ποιες θα είναι οι μέσες βαθμολογίες για την Επιστήμη που βαθμολογούνται από φοιτητές της 10ης τάξης σε όλη τη χώρα, η οποία είναι περίπου 14,31.861 φοιτητές το 2016. Δεν μπορείτε να αποθηκεύσετε πολλά δεδομένα σε φύλλο excel για να τα αποθηκεύσετε σε μια βάση δεδομένων όπως η MySQL ή η Oracle. Μπορείτε να εκτελέσετε ένα ερώτημα SQL για να βρείτε τον μέσο όρο. Τώρα είστε περίεργος να γνωρίζετε την τάση του πώς οι μέσοι όροι έχουν μετακινηθεί από τα τελευταία 20 χρόνια στην επιστήμη για την κλάση 10 που είναι περίπου 3000000 εγγραφές. Εάν βρεθεί ο μέσος όρος των 5 θεμάτων και όχι μόνο η επιστήμη, θα χειρίζεστε 30000000 x 5 εγγραφές. Τα δεδομένα είναι μεγάλα τώρα που ονομάζεται επίσης "Μεγάλα Δεδομένα".

Μεγάλα δεδομένα - εξαιρετικά μεγάλα σύνολα δεδομένων που μπορούν να αναλυθούν υπολογιστικά για να αποκαλύψουν πρότυπα, τάσεις και ενώσεις, ειδικά σε σχέση με την ανθρώπινη συμπεριφορά και αλληλεπιδράσεις. - Από τη Wikipedia

Πιθανότατα δεν πρέπει να αποθηκεύσετε τόσα πολλά δεδομένα στην MySQL ή την Oracle και να εκτελέσετε το ερώτημά σας SQL σε εκατομμύρια εγγραφές. Δεν έχω ασχοληθεί ποτέ με τόσα δεδομένα σε μια βάση δεδομένων SQL, έτσι δεν θα σχολιάσω την απόδοσή της, αλλά χρησιμοποίησα τον Hadoop για να χειριστώ τεράστιες ποσότητες δεδομένων, πολύ μεγαλύτερες από τη βάση δεδομένων φοιτητών για την οποία μιλάμε. Το Hadoop είναι ένα πλαίσιο που διανέμει τα δεδομένα σε πολλαπλά συστήματα έτσι ώστε όλα τα συστήματα να μπορούν να κάνουν υπολογισμούς παράλληλα, αυξάνοντας έτσι τη συνολική ταχύτητα του υπολογισμού, που ονομάζεται επίσης Distributed Computing. Hadoop έχει το δικό του σύστημα αρχείων το οποίο είναι ένα σύστημα αποθήκευσης δεδομένων για τα μεγάλα δεδομένα.

Η επιστήμη των δεδομένων με όρους λαϊκή είναι μια επιστήμη της κατανόησης τι να κάνει με τα δεδομένα, μεγάλα ή μικρά. Μέχρι τώρα προσπαθούσαμε μόνο να βρούμε τον μέσο όρο των βαθμολογιών, αλλά ένας επιστήμονας δεδομένων θα ξεπεράσει και θα αναζητήσει τρόπους για να βρει τι μπορεί να γίνει με το μέσο όρο. Για έναν οργανισμό, θα τους βοηθήσει να λάβουν επιχειρηματικές αποφάσεις και να βρουν σχέδια που θα βοηθήσουν τους προϊστάμενους να λάβουν καλύτερες αποφάσεις και να διαθέσουν πόρους για την αύξηση των κερδών. Οι περισσότεροι επιστήμονες δεδομένων μπορεί να μην χρησιμοποιούν ακόμη και τον Hadoop αν δεν ασχολούνται με Big Data, συνήθως χρησιμοποιούν το R lang ή το Python για τους υπολογισμούς.

Τα μεγάλα δεδομένα είναι μια ιδέα. Το Hadoop είναι ένα εργαλείο. Η Επιστήμη των Επιστημών είναι ένας τομέας της επιστήμης των υπολογιστών.


Απάντηση 3:

Υποθέτω ότι σκεφτήκατε ότι η "Επιστήμη των δεδομένων" και το "Big Data Hadoop" είναι δύο διαφορετικά πράγματα, αλλά στην πραγματικότητα είναι τρία. Η Επιστήμη Δεδομένων, τα Μεγάλα Δεδομένα και ο Hadoop έχουν διαφορετικές έννοιες.

Ας υποθέσουμε ότι είστε φοιτητής στην τάξη 10ο. Έχετε δώσει μια δουλειά για να βρείτε τον μέσο όρο των σημείων σε κάθε θέμα που βαθμολογήθηκαν από τους συμμαθητές σας. Έχετε 50 μαθητές στην τάξη σας που μελετούν 5 θέματα το καθένα. Βρίσκοντας τον μέσο όρο δεν υπάρχει επιστήμη πυραύλων, έτσι ώστε να τα κάνετε όλα σε ένα excel φύλλο. Τώρα ο δάσκαλός σας σας ζητάει να κάνετε τον ίδιο υπολογισμό για όλα τα τμήματα Α, Β και Γ, περίπου 150 Φοιτητών. Το φύλλο Excel είναι και πάλι αρκετό. Τώρα θέλετε να μάθετε ποιες θα είναι οι μέσες βαθμολογίες για την Επιστήμη που βαθμολογούνται από φοιτητές της 10ης τάξης σε όλη τη χώρα, η οποία είναι περίπου 14,31.861 φοιτητές το 2016. Δεν μπορείτε να αποθηκεύσετε πολλά δεδομένα σε φύλλο excel για να τα αποθηκεύσετε σε μια βάση δεδομένων όπως η MySQL ή η Oracle. Μπορείτε να εκτελέσετε ένα ερώτημα SQL για να βρείτε τον μέσο όρο. Τώρα είστε περίεργος να γνωρίζετε την τάση του πώς οι μέσοι όροι έχουν μετακινηθεί από τα τελευταία 20 χρόνια στην επιστήμη για την κλάση 10 που είναι περίπου 3000000 εγγραφές. Εάν βρεθεί ο μέσος όρος των 5 θεμάτων και όχι μόνο η επιστήμη, θα χειρίζεστε 30000000 x 5 εγγραφές. Τα δεδομένα είναι μεγάλα τώρα που ονομάζεται επίσης "Μεγάλα Δεδομένα".

Μεγάλα δεδομένα - εξαιρετικά μεγάλα σύνολα δεδομένων που μπορούν να αναλυθούν υπολογιστικά για να αποκαλύψουν πρότυπα, τάσεις και ενώσεις, ειδικά σε σχέση με την ανθρώπινη συμπεριφορά και αλληλεπιδράσεις. - Από τη Wikipedia

Πιθανότατα δεν πρέπει να αποθηκεύσετε τόσα πολλά δεδομένα στην MySQL ή την Oracle και να εκτελέσετε το ερώτημά σας SQL σε εκατομμύρια εγγραφές. Δεν έχω ασχοληθεί ποτέ με τόσα δεδομένα σε μια βάση δεδομένων SQL, έτσι δεν θα σχολιάσω την απόδοσή της, αλλά χρησιμοποίησα τον Hadoop για να χειριστώ τεράστιες ποσότητες δεδομένων, πολύ μεγαλύτερες από τη βάση δεδομένων φοιτητών για την οποία μιλάμε. Το Hadoop είναι ένα πλαίσιο που διανέμει τα δεδομένα σε πολλαπλά συστήματα έτσι ώστε όλα τα συστήματα να μπορούν να κάνουν υπολογισμούς παράλληλα, αυξάνοντας έτσι τη συνολική ταχύτητα του υπολογισμού, που ονομάζεται επίσης Distributed Computing. Hadoop έχει το δικό του σύστημα αρχείων το οποίο είναι ένα σύστημα αποθήκευσης δεδομένων για τα μεγάλα δεδομένα.

Η επιστήμη των δεδομένων με όρους λαϊκή είναι μια επιστήμη της κατανόησης τι να κάνει με τα δεδομένα, μεγάλα ή μικρά. Μέχρι τώρα προσπαθούσαμε μόνο να βρούμε τον μέσο όρο των βαθμολογιών, αλλά ένας επιστήμονας δεδομένων θα ξεπεράσει και θα αναζητήσει τρόπους για να βρει τι μπορεί να γίνει με το μέσο όρο. Για έναν οργανισμό, θα τους βοηθήσει να λάβουν επιχειρηματικές αποφάσεις και να βρουν σχέδια που θα βοηθήσουν τους προϊστάμενους να λάβουν καλύτερες αποφάσεις και να διαθέσουν πόρους για την αύξηση των κερδών. Οι περισσότεροι επιστήμονες δεδομένων μπορεί να μην χρησιμοποιούν ακόμη και τον Hadoop αν δεν ασχολούνται με Big Data, συνήθως χρησιμοποιούν το R lang ή το Python για τους υπολογισμούς.

Τα μεγάλα δεδομένα είναι μια ιδέα. Το Hadoop είναι ένα εργαλείο. Η Επιστήμη των Επιστημών είναι ένας τομέας της επιστήμης των υπολογιστών.