Ένα νέο εργαλείο στατιστικής ανάλυσης για δημοσιογράφους που δεν έχουν γνώση στατιστικής, μηχανικής μάθησης ή γλώσσας προγραμματισμού.
H ‘A+Ω’ είναι μία πλατφόρμα ανάλυσης δεδομένων η οποία προσφέρει στους χρήστες έτοιμες συνταγές αναλύσεων (αλγόριθμους) βοηθώντας τους να κάνουν προβλέψεις, συσχετίσεις, να εντοπίσουν απάτη σε εκλογικά δεδομένα και άλλες αναλύσεις, χωρίς να χρειάζεται να έχουν απολύτως καμία γνώση στατιστικής, μηχανικής μάθησης ή γλώσσας προγραμματισμού. Η πλατφόρμα επιλέχθηκε και χρηματοδοτήθηκε από την Google μέσω του χρηματοδοτικού μηχανισμού Google Digital News Initiative.
Ο δημοσιογράφος, το μόνο που χρειάζεται να κάνει, είναι να ανεβάσει ένα αρχείο excel ή csv και να επιλέξει μέθοδο ανάλυσης. Μετά από λίγο, ο αλγόριθμος, “επιστρέφει” αποτελέσματα βάση του αρχείου που ανέβασε ο χρήστης.
Για κάθε συνταγή, υπάρχουν οδηγίες πώς λειτουργεί η κάθε μέθοδος ανάλυσης (“How it works“) αλλά και τα πιο συχνά προβλήματα που μπορεί να προκύψουν στην επεξεργασία των αρχείων που ανεβάζει ο χρήστης.
Η χρήση της κάθε συνταγής δεν προυποθέτει απολύτως καμία επιστημονική γνώση ή μεθοδολογία, μόνο προσοχή στον τύπο του αρχείου
Εδώ είναι ένα παράδειγμα με οδηγίες για τη συνταγή της ανίχνευσης απάτης σε εκλογικά δεδομένα.
Στην πλατφόρμα μπορούν να ανεβάσουν συνταγές και χρήστες που ήδη έχουν κάνει μία δική τους ανάλυση και θέλουν να τη προτείνουν σε άλλους χρήστες ή επαγγελματίες που ψάχνουν αντίστοιχη λύση σε πρόβλημα που αντιμετωπίζουν αλλά δεν έχουν τις απαραίτητες επιστημονικές γνώσεις.
Παράδειγμα για τη συνταγή της πρόβλεψης
Ας υποθέσουμε ότι θέλουμε να προβλέψουμε το Ακαθάριστο Εθνικό Εισόδημα (σε δολάρια) μιας χώρας. Τι δεδομένα χρειαζόμαστε ώστε ο αλγόριθμος να λειτουργήσει σωστά (να βρει μοτίβα) και να κάνει μία πρόβλεψη;
Στο csv (ή excel) που φτιάξαμε, επιλέξαμε κάποια από τα γεωργικά προϊόντα ώστε να προβλέψουμε το ΑΕΕ μίας χώρας. Θεωρήσαμε πως η παραγωγή αγαθών συσχετίζεται με το ΑΕΕ και έτσι δοκιμάσαμε να φτιάξουμε ένα μοντέλο. Δεν γνωρίζουμε εξ αρχής αν κάποιο συγκεκριμένο προϊόν έχει άμεση σχέση με το ΑΕΕ και αν παίζει μεγαλύτερο ρόλο στην πρόβλεψη.
Βήματα:
1. Πάμε στη σελίδα του Alpha+Omega (A+Ω) και επιλέγουμε τη συνταγή της πρόβλεψης (αφού έχουμε κάνει εγγραφή στην πλατφόρμα).
2. Φτιάχνουμε ένα project.
3. Ανεβάζουμε το αρχείο csv / excel αρχείο μας.
Workbench: Πλατφόρμα ανάλυσης δεδομένων στα ελληνικά
Το Workbench είναι μία πλατφόρμα που ξεκίνησε στο πανεπιστήμιο Columbia της Νέας Υόρκης και με την υποστήριξη του iMEdD και τη συνεργασία του Εργαστηρίου Νέων Τεχνολογιών του Εθνικού και Καποδιστριακού Πανεπιστημίου Αθηνών, ήρθε και στην Ελλάδα.
4. Βλέπουμε όλα τα δεδομένα του αρχείου στο Α+Ω.
5. Πατάμε next και επιλέγουμε τη στήλη στην οποία θέλουμε να κάνουμε πρόβλεψη. Για παράδειγμα, θέλουμε να προβλέψουμε το ΑΕΕ για το έτος 2022. Τα δεδομένα για το έτος 2022, δεν υπάρχουν στο αρχείο μας.
6. Βάζουμε υποθετικές εκτιμήσεις για τα δεδομένα των υπόλοιπων στηλών του αρχείου για το έτος 2022.
7. Και πατάμε το predict Ακαθάριστο Εθνικό Εισόδημα σε δολάρια για να δούμε το αποτέλεσμα της πρόβλεψης.
Τα σχολεία σε αναστολή λειτουργίας, λόγω COVID-19
Τα σχολεία που βρίσκονται σε αναστολή λειτουργίας ανά την Ελλάδα, λόγω COVID-19
Οι παράγοντες που επηρεάζουν την ποιότητα του μοντέλου και άρα του αποτελέσματος της πρόβλεψης είναι:
- Ο αριθμός των instances/παραδειγμάτων. Στο παραπάνω παράδειγμα έχουμε πολύ λίγα, μόνο 6, παρόλα αυτά αν αυτα τα 6 ειναι αντιπροσωπευτικά της “αλήθειας” τότε το μοντέλο θα κάνει και σωστές προβλέψεις.
- Ο αριθμός των Features (οι στήλες στο αρχείο μας). Όσο περισσότερες, τόσο το καλύτερο.
- Το είδος των Features. Χρειαζόμαστε Features που έστω και κάποια από αυτά να ειναι αντιπροσωπευτικά της “αλήθειας”. Συνήθως δε ξέρουμε ποια είναι, η συνταγή του Α+Ω τα εντοπίζει μόνη της.
- Η επιλογή των Features του αρχείου μας σε σχέση με αυτό που θέλουμε να προβλέψουμε. Για παράδειγμα, η παραγωγή σιτηρών φαίνεται να έχει από πλευράς λογικής πιο πολύ σχέση με το ΑΕΕ μιας χώρας από ότι ο ετήσιος αριθμός γάμων σε μία χώρα.
- Μία υπόθεση, ένα πρόβλημα πρόβλεψης δεν είναι εύκολο, χρειάζεται πειραματισμό και εμπειρία. Ίσως το πιο σημαντικό θέμα για μία πρόβλεψη, είναι η μοντελοποίηση των δεδομένων (τι δεδομένα επιλέγουμε ως Features / στήλες σε ένα αρχείο):
- Πόσες στήλες χρειαζόμαστε; Συνήθως 2-3 δεν είναι αρκετές εκτός και αν το πρόβλημα είναι πολύ απλό. Για παράδειγμα αν θέλουμε να προβλέψουμε τον αριθμό των θανάτων μιας πανδημίας, δεν αρκεί ο αριθμός των κρουσμάτων και των θανάτων των προηγούμενων ημερών.
- Πώς συνδέονται τα δεδομένα σε αυτές τις στήλες: Χρειαζόμαστε στήλες σχετικά με τη σχέση των θανάτων με τις προηγούμενες ημέρες, πχ. ‘θάνατοι χθεσινής ημέρας, διασωληνωμενοι χθεσινής ημέρας, κρούσματα χθεσινής ημέρας” κτλ. Δηλαδή να υπάρχει time series προσεγγιση.-Και βέβαια, όσο πιο πολλά δεδομένα έχουμε, τόσο καλύτερα.
Αν και πάλι το αποτέλεσμα της πρόβλεψης μας προβληματίζει, τότε:
- Δοκιμάζουμε να προσθέσουμε και άλλα Features.
- Προσθέτουμε και άλλα παραδείγματα/rows
- ή αποφασίζουμε πως με αυτά που έχουμε στη διάθεσή μας, δεν μπορούμε να κάνουμε ικανοποιητική πρόβλεψη και τότε ίσως πρέπει να αλλάξουμε πρόβλημα ή να ζητήσουμε βοήθεια από κάποιον ειδικό. Η ομάδα του Α+Ω βοηθάει τους χρήστες στην καλή μοντελοποίηση των δεδομένων και του προβλήματος που ερευνούν.
* Η Ελίνα Μακρή είναι δημοσιογράφος και συνιδρύτρια της A&Ω