Εργαλεια & Πρακτικες

Workbench: Πλατφόρμα ανάλυσης δεδομένων στα ελληνικά

Το Workbench είναι μία πλατφόρμα που ξεκίνησε στο πανεπιστήμιο Columbia της Νέας Υόρκης και με την υποστήριξη του iMEdD και τη συνεργασία του Εργαστηρίου Νέων Τεχνολογιών του Εθνικού και Καποδιστριακού Πανεπιστημίου Αθηνών, ήρθε και στην Ελλάδα. 

To Workbench είναι μία πλατφόρμα «ανοιχτού λογισμικού» που υποστηρίζει όλα τα στάδια και τις λειτουργίες της δημοσιογραφίας δεδομένων: από τη λήψη και το «καθάρισμα» δεδομένων, στην ανάλυση, την οπτικοποίηση και τον διαμοιρασμό τους με άλλους χρήστες ή δημοσιογράφους. Και όλα αυτά χωρίς ούτε μία γραμμή κώδικα. Πλέον το Workbench είναι και στα ελληνικά. Παρακάτω θα δούμε κάποιες από τις βασικές λειτουργίες του Workbench.

Συλλογή tweet που περιέχουν τον όρο «Καμαλα»
Συλλογή tweet που περιέχουν τον όρο «Καμαλα»

Συλλογή & ανάλυση δημόσιων δεδομένων – Λήψη από το Twitter

Το Workbench παρέχει διασύνδεση με δημοφιλείς πηγές έρευνας δεδομένων όπως το American Community Survey, η Βιβλιοθήκη του Κογκρέσου, τη Wikipedia και το Twitter, ενώ μπορεί να φορτώσει δημόσια δεδομένα από σχεδόν οποιαδήποτε πηγή στο διαδίκτυο. Για παράδειγμα, μέσω Twitter o χρήστης μπορεί να αποκτήσει πρόσβαση και να αναλύσει τα tweets ενός χρήστη (τα 3200 πιο πρόσφατα, σύμφωνα με το API του Twitter), μίας λίστας χρηστών, ή χρησιμοποιώντας keywords και hashtags.

Με τη χρήση των φίλτρων του Twitter API, ο χρήστης έχει μία πληθώρα επιλογών, όπως να επιλέξει συγκεκριμένη γλώσσα στα tweets που συγκεντρώνει, να αφαιρέσει τα retweets ή τις απαντήσεις, να βρει tweets από συγκεκριμένη χώρα ή να βρει tweets που δεν περιέχουν φωτογραφίες και βίντεο

Μάλιστα, χρησιμοποιώντας τη λειτουργία του αυτόματου update, η συγκέντρωση των δεδομένων (tweets στο συγκεκριμένο παράδειγμα) μπορεί να επαναλαμβάνεται σε προκαθορισμένα χρονικά διαστήματα.

Τα δεδομένα μπορούν να οπτικοποιηθούν με ποικίλους τρόπους ή να αναλυθούν ως προς το συναίσθημα που εκφράζουν (sentiment analysis) εφόσον είναι στην αγγλική γλώσσα.

Καθαρισμός, διόρθωση και επεξεργασία Σετ Δεδομένων

Ένα από τα μεγαλύτερα προβλήματα που προκύπτουν σε μεγάλα σετ δεδομένων είναι η μαζική διόρθωση και τυποποίησή τους σε κοινά αποδεκτές μορφές. Με το Workbench μπορείτε να βρείτε και να διορθώσετε ορθογραφικά και τυπογραφικά λάθη σε δευτερόλεπτα αλλά και να μορφοποιήσετε το σετ δεδομένων σας για να το οπτικοποιήσετε.

Είμαι ενθουσιασμένος που το Workbench είναι πλέον διαθέσιμο στα ελληνικά. Η δημοσιογραφία δεδομένων αποτελεί εδώ και καιρό ένα διεθνές επάγγελμα, αλλά δεν έχουν όλοι την ίδια ευκαιρία να μάθουν. Αυτή η μετάφραση θα επιτρέψει στους Έλληνες φοιτητές  να μάθουν εξαιρετικά γρήγορα τα βασικά στοιχεία της ανάλυσης δεδομένων και της απεικόνισης ιστοριών

Jonathan Stray, ιδρυτής του Workbench

Παράλληλα, με τη χρήση ενός κουμπιού, μπορείτε να διαγράψετε κενές στήλες ή κελιά δεδομένων και να τα επεξεργαστείτε.

Το ίδιο εύκολα μπορείτε να ενώσετε διαφορετικά σετ δεδομένων με την επιλογή Join Tab. Aν για παράδειγμα έχετε δύο σετ δεδομένων με κοινές στήλες (πχ Ονοματεπώνυμο) και θέλετε να τα συνδυάσετε για να εμπλουτίσετε το τελικό σετ σας, μπορείτε εύκολα να το κάνετε. Επίσης, εύκολα μπορούμε να προσαρμόσουμε τιμές με βάση τον πληθωρισμό ή την αξία μίας μετοχής ή ενός νομίσματος συνδυάζοντας δύο πίνακες.

Συνεργαστείτε και προβάλλετε τη δουλειά σας

Το Workbench έχει σχεδιαστεί για να συνεργάζεστε και να μοιράζεστε τη δουλειά σας, έτσι ώστε να είναι δημόσια διαθέσιμη και σε άλλους ερευνητές, αλλά και να αποτελεί παράδειγμα για μελλοντικές έρευνες. Με τον ίδιο τρόπο και εσείς μπορείτε να δοκιμάσετε να ξαναδουλέψετε σε workflows άλλων ερευνητών κάνοντας νέες αναλύσεις και οπτικοποιήσεις.

Εισαγωγή στη Δημοσιογραφία Δεδομένων

Στο Workbench θα βρείτε στα ελληνικά, την πρώτη εισαγωγική σειρά μαθημάτων ανάλυσης και οπτικοποίησης δεδομένων που θα σας μάθει πώς να δίνετε απαντήσεις σε ερωτήματα χρησιμοποιώντας δεδομένα με διαφανή τρόπο, χωρίς να πρέπει να γράψετε κώδικα. 

Θα μάθετε πώς να φιλτράρετε ή να ομαδοποιείτε δεδομένα, να δημιουργείτε γραφήματα, να διορθώνετε συνηθισμένα προβλήματα μορφοποίησης δεδομένων και να συνδυάζετε διαφορετικά σύνολα δεδομένων. Θα μάθετε επίσης χρήσιμους υπολογισμούς όπως τα κατά κεφαλήν ποσοστά, την ποσοστιαία μεταβολή και την τιμαριθμική αναπροσαρμογή. 

Τα γραφήματα που παράγονται στο Workbench στη συνέχεια μπορούν να γίνουν embed σε οποιαδήποτε σελίδα.

Η ελληνική έκδοση του Workbench πραγματοποιήθηκε στο πλαίσιο του A’ κύκλου του Incubator του iMEdD. Η ομάδα των ελλήνων που συμμετείχε στο project απαρτίζεται από τους: Κατερίνα Σωτηράκου, Χρήστος Γαβαλάς, Κωνσταντίνος Μουρλας, Νίκος Πιτσιλαδής, Σωτήρης Σιδέρης και Θανάσης Τρομπούκης. Την τεχνική υλοποίηση του έργου ανέλαβε η εταιρεία Radical Elements.

* Ο Νίκος Πιτσιλαδής είναι δημοσιογράφος και συμμετείχε στον A’ κύκλου του Incubator του iMEdD για την ελληνοποίηση του Workbench.