Μεθοδολογια

Πώς αναλύσαμε εννέα μήνες συζήτησης για τις υποκλοπές στο Twitter

Λογότυπος Datalab Τμήματος Πληροφορικής ΑΠΘ
Δες το άρθρο

Η μεθοδολογία εργασίας, από τη συλλογή ως την ανάλυση των δεδομένων, στο πλαίσιο της ερευνητικής συνέργειας που παρουσιάζει το iMEdD Lab και το Datalab, με αντικείμενο την ανάλυση της συζήτησης για την υπόθεση των υποκλοπών στο Twitter τους τελευταίους εννέα μήνες. 

Τον Νοέμβριο 2022, οπότε τα hashtags #ypoklopes και #υποκλοπες, ήταν ανάμεσα στα κορυφαία λεγόμενα «trending topics» στο ελληνόφωνο Twitter, μερικά από τα βασικά ερευνητικά ερωτήματα ήταν από πότε καταγράφεται μια έντονη συζήτηση διαρκείας για την υπόθεση των παρακολουθήσεων και των υποκλοπών (που τότε εμπειρικά γνωρίζαμε ότι υφίσταται στην ελληνική δημόσια σφαίρα ήδη επί έναν χρόνο, αλλά επίσης ξέραμε ότι είχε αργήσει να βρει τη θέση της στην ημερήσια ενημερωτική ατζέντα) και, φυσικά, ποια είναι τα χαρακτηριστικά της: ενδεικτικά, αναρωτηθήκαμε ποιες κατηγορίες λογαριασμών συμμετέχουν στη συζήτηση, εάν κίνητρό τους αποτελεί η παραγωγή ή αναδημοσίευση περιεχομένου, ποια είναι τα πολιτικά ενδιαφέροντά τους και κατά πόσο διαφαίνονται χαρακτηριστικά πολωμένου διαλόγου στο ψηφιακό αποτύπωμα της υπόθεσης στο Twitter. 

Σχήμα στο οποίο συνοψίζεται η μεθοδολογία εργασίας.

Η συλλογή των δεδομένων

Η συλλογή των δεδομένων έγινε προγραμματιστικά από την ομάδα του Datalab, με τη χρήση του Twitter API (Application Programming Interface) v2, για σκοπούς ακαδημαϊκής έρευνας –άδεια χρήσης με την οποία το μέσο κοινωνικής δικτύωσης προσφέρει τη δυνατότητα αναδρομικής ανάκτησης του συνόλου των δημοσιεύσεων οι οποίες έχουν γίνει για το εκάστοτε θέμα ενδιαφέροντος, εφόσον αυτές φέρουν τις λέξεις-κλειδιά ή/και τα hashtags που οι ερευνητές ορίζουν. 

Εν προκειμένω, για τη συλλογή των δεδομένων σχετικά με τη συζήτηση των υποκλοπών στο Twitter, χρησιμοποιήθηκαν τα εξής hashtag και λέξεις-κλειδιά: υποκλοπές, υποκλοπη, #υποκλοπες, #υποκλοπές, #παραρακολουθήσεις, επισύνδεση, επισυνδέσεις, #επισυνδέσεις, #δημητριαδης, #κοντολεων, #κουκακη, #ανδρουλακης, #ypoklopes, predator, #predator, #predatorgate, #pega, #spyware, #watergate, greekwatergate.

Επομένως, η ανάλυση που παρουσιάζεται από το iMEdD Lab και το Datalab βασίζεται και περιορίζεται στις δημοσιεύσεις που έγιναν, στην ελληνική γλώσσα, στο Twitter μετά την 1η Απριλίου 2022 και οι οποίες περιλαμβάνουν οποιοδήποτε από τα προαναφερθέντα hashtag/λέξεις-κλειδιά (είτε συνδυαστικά είτε όχι). Το χρονικό σημείο εκκίνησης της έρευνας και ανάλυσης δεδομένων ορίστηκε με τη γνώση ότι η γνωστοποίηση της παρακολούθησης του δημοσιογράφου Θανάση Κουκάκη και σχετικές δημοσιογραφικές αποκαλύψεις είχαν συντελέσει στη διεύρυνση της ορατότητας της υπόθεσης, κάτι που φάνηκε να επιβεβαιώνεται στο πλαίσιο αναδρομικών, δοκιμαστικών αναζητήσεων για συλλογή δεδομένων από τον Ιανουάριο 2022: το πρώτο τρίμηνο 2022 δεν υπήρχε σχετική συζήτηση στο Twitter, παρά μόνο μερικά –όχι πολύ συναφή– tweets.

Σημειώνεται ότι η επιλογή των προαναφερθέντων όρων ως κριτηρίων συλλογής δεδομένων έγινε με βάση δημοσιογραφικά και τεχνολογικά κριτήρια: έπειτα από την αρχική ενδελεχή καταγραφή των όρων που ήταν συναφείς με τη συζήτηση των υποκλοπών στο Twitter, έγινε ποσοτικοποίηση των διαθέσιμων δεδομένων και έλεγχος της ποιότητάς τους. Για παράδειγμα, ενώ αρχικά το αρκτικόλεξο ΕΥΠ είχε συμπεριληφθεί στους δυνητικούς όρους αναζήτησής μας, στο πλαίσιο ποσοτικών και ποιοτικών ελέγχων, διαπιστώθηκε ότι οι αναζητήσεις μας με τον όρο «ΕΥΠ» θα επέστρεφαν κυρίως δεδομένα που δεν ήταν συναφή με το θέμα της έρευνας, δηλαδή οποιοδήποτε tweet περιείχε λέξη που περιλαμβάνει τη συμβολοσειρά «ευπ». Έτσι, τελικά δεν συμπεριλήφθηκε στους όρους συλλογής δεδομένων. 

Αντίστοιχα, επίσης για λόγους που σχετίζονται με τη διασφάλιση της συνάφειας των δεδομένων με το υπό μελέτη ζήτημα της συζήτησης για την υπόθεση των υποκλοπών: α) το hashtag #ανδρουλακης, το οποίο αναφέρεται στον ευρωβουλευτή και πρόεδρο του ΠΑΣΟΚ-ΚΙΝΑΛ, Νίκο Ανδρουλάκη, συγκαταλέχθηκε στα κριτήρια συλλογής δεδομένων για αναρτήσεις που έγιναν από τις 20 Ιουλίου 2022 –προηγούμενες αναφορές του στο Twitter αφορούν κυρίως τη δραστηριότητά του ως ευρωβουλευτή και δεν σχετίζονται με την υπόθεση των υποκλοπών, β) το συγκεκριμένο και τα λοιπά hashtag που αντιστοιχούν σε επώνυμα φυσικών προσώπων περιλαμβάνονται στα κριτήρια συλλογής δεδομένων για αναρτήσεις που έγιναν έως τις 28 Νοεμβρίου 2022.

Για τις αναλύσεις που περιλαμβάνονται στο δημοσίευση υπό τον τίτλο «Οι υποκλοπές στο Twitter: Η εξέλιξη της συζήτησης τους τελευταίους εννέα μήνες, η πόλωση και ο ρόλος των media», το χρονικό σημείο λήξης της συλλογής δεδομένων διαφέρει ως εξής: 

  • Αναλύσεις που σχετίζονται με τον όγκο των δημοσιεύσεων και την εξέλιξή τους στον χρόνο αφορούν αναρτήσεις που έγιναν έως τις 14 Ιανουαρίου 2023. Το δείγμα είναι 953.722 δημοσιεύσεις κάθε είδους (tweets, retweets, quotes, replies). 
  • Αναλύσεις που σχετίζονται με την εξέλιξη του αριθμού των εμπλεκόμενων μοναδικών χρηστών στον χρόνο και τη δραστηριότητά τους ανά είδος δημοσίευσης, τους κορυφαίους λογαριασμούς σε αριθμό δημοσιευμένων tweets και replies αλλά και σε αριθμό αναφορών από άλλους, τους πιο επιδραστικούς λογαριασμούς και τους ιστοτόπους το περιεχόμενο των οποίων διακινείται περισσότερο στο Twitter αφορούν αναρτήσεις που έγιναν έως την 1η Ιανουαρίου 2023 και οι οποίες αθροίζουν σε περισσότερες από 900.000.
  • Αναλύσεις που σχετίζονται με την κατανομή των εμπλεκόμενων λογαριασμών ανά κατηγορία (φυσικά πρόσωπα, ενημερωτικοί, πολιτικοί, άλλοι), με τον πολιτικό χώρο τον οποίο οι χρήστες τείνουν να ακολουθούν περισσότερο και με την πόλωση αφορούν αναρτήσεις που έγιναν έως την 1η Δεκεμβρίου 2022. 

Ωστόσο, η συλλογή των δεδομένων συνεχίζεται χωρίς διακοπή μέχρι σήμερα (και για ακαθόριστο προς ώρας χρονικό διάστημα) από το Datalab, για τις ανάγκες της διαδικτυακής εφαρμογής που έχει υλοποιηθεί από το ίδιο για τη συνεχιζόμενη παρακολούθηση του θέματος. 

  • <iframe src="https://flo.uri.sh/visualisation/12403437/embed" height="900" width="100%" allow="fullscreen"></iframe>

Όσον αφορά στις αναλύσεις σχετικά με τον πολιτικό χώρο που τείνουν να ακολουθούν περισσότερο οι συμμετέχοντες χρήστες, από την ομάδα εργασίας κρίθηκε αναγκαία η ερευνητική σύγκριση της συζήτησης για την υπόθεση των υποκλοπών με λοιπά θέματα της επικαιρότητας –τόσο με ζητήματα άμεσα σχετιζόμενα με πολιτικά κόμματα ή πρόσωπα όσο και με άλλα που δεν σχετίζονται άμεσα με πολιτευόμενα πρόσωπα ή πολιτικούς χώρους. Δεδομένου ότι δεν ήταν σε γνώση της ομάδας εργασίας κάποια ανάλογη προγενέστερη μελέτη εστιασμένη σε θέματα αυξημένου τοπικού ενδιαφέροντος, αποφασίστηκε η δειγματοληπτική συλλογή και ανάλυση δεδομένων για τρία πολυσυζητημένα ζητήματα της πρόσφατης επικαιρότητας στην Ελλάδα. Πρόκειται για τα εξής: 

  • Την εμπλοκή της ευρωβουλευτή και καθαιρεμένης από τις 13 Δεκεμβρίου 2022 Αντιπροέδρου του Ευρωκοινοβουλίου Εύας Καϊλή στο επονομαζόμενο σκάνδαλο Qatargate. (Χρονικό διάστημα μελέτης: 7-18 Δεκεμβρίου 2022. Δείγμα: 263.070 δημοσιεύσεις από 25.541 μοναδικούς λογαριασμούς)
  • Την υπόθεση της άρσης της ασυλίας της ευρωβουλευτή Μαρίας Σπυράκη. Χρονικό διάστημα μελέτης: 15-18 Δεκεμβρίου 2022. Δείγμα: 32.074 δημοσιεύσεις από 7.608 μοναδικούς λογαριασμούς)
  • Τον τραυματισμό και τον θάνατο του ανήλικου Ρομά, Κώστα Φραγκούλη, από πυροβολισμό αστυνομικού. Χρονικό διάστημα μελέτης: 4-18 Δεκεμβρίου. Δείγμα: 159.506 δημοσιεύσεις από 22.235 μοναδικούς λογαριασμούς)

Tα hashtags και οι λέξεις-κλειδιά που χρησιμοποιήθηκαν ως κριτήρια για τη συλλογή δεδομένων ήταν, ανά περίπτωση, τα εξής: 

  • Για την υπόθεση της Εύας Καϊλή: Καϊλή, Καιλή, #Καϊλή, #Καιλή, #ευα_καιλη, ευρωκοινοβουλιο, #ευρωκοινοβουλιο, Κατάρ, #Κατάρ, #Καταρ_Gate, #Kaili, #EvaKaili, EvaKaili (είτε συνδυαστικά είτε όχι), όπως και ο συνδυασμός των «αρση» και «ασυλια»
  • Για την υπόθεση της Μαρίας Σπυράκη: Σπυρακη, #σπυρακη, #μαρια_σπυρακη, ευρωκοινοβουλιο, #ευρωκοινοβουλιο, #Spyraki, #mariaspyraki, #maria_spyraki, MariaSpyraki (είτε συνδυαστικά είτε όχι), όπως και ο συνδυασμός των «αρση» και «ασυλια»
  • Για τον τραυματισμό και τον θάνατο του Κώστα Φραγκούλη: Φραγκουλη, #Φραγκουλης, #ΚωσταςΦραγκουλης, #Κωστας_Φραγκουλης, Ρομα, #Ρομα, γυφτοι, #γυφτοι, #με_την_Αστυνομια, #16χρονος, #16χρονος_Θεσσαλονικη, 20 ευρώ, 20_ευρώ, 20ευρω, εικοσαευρω, #20_ευρώ, #20ευρω, #εικοσάευρω (είτε συνδυαστικά είτε όχι), όπως και οι συνδυασμοί «αστυνομ» και «Θεσσαλονικη», «16χρονος» και «Θεσσαλονικη», «ΔΙΑΣ» και «Θεσσαλονικη»

Η ανάλυση των δεδομένων

Εφόσον συλλέγονται όλες οι δημοσιεύσεις που εμπεριέχουν οποιονδήποτε από τους προαναφερθέντες όρους ανά υπόθεση μελέτης, από τις εν λόγω αναρτήσεις εξάγονται τα ονόματα των χρηστών (usernames), ο αριθμός των δημοσιεύσεων ανά κατηγορία (tweets, retweets, quotes, replies), λοιπές περιλαμβανόμενες λέξεις, url, χρονική στιγμή δημιουργίας της εκάστοτε δημοσίευσης κλπ, και ακολουθούν οι δευτερογενείς αναλύσεις κατά περίπτωση.

Για την ανάλυση των συμμετεχόντων χρηστών ανά κατηγορία (φυσικά πρόσωπα, ενημερωτικοί λογαριασμοί, πολιτικοί λογαριασμοί, άλλοι), συγκροτήθηκε συνολικό δείγμα 2.262 μοναδικών λογαριασμών, όπως προκύπτει από την αλληλεπικάλυψη λογαριασμών κατόπιν επιλογής των κορυφαίων 500 σε καθεμία από τις εξής κατηγορίες: εκείνους που έχουν δημοσιεύσει τα περισσότερα tweets, όσους έχουν απαντήσει περισσότερο σε tweets τρίτων, εκείνους που έχουν αναρτήσει τα περισσότερα quotes, όσους έχουν αναφερθεί περισσότερο από άλλους και εκείνους οι οποίοι είναι πιο επιδραστικοί στη συζήτηση για τις υποκλοπές. Μάλιστα, οι τελευταίοι προκύπτουν ως αλγοριθμικό αποτέλεσμα που βασίζεται στην ανάλυση γράφων οι οποίοι συγκροτούνται λαμβάνοντας υπόψη τα retweets, τα mentions και τα replies που καταγράφονται μεταξύ των χρηστών. Εν προκειμένω, χρησιμοποιήθηκε ο αλγόριθμος που περιγράφεται στην ερευνητική εργασία: Chen, C., Tong, H., Prakash, B. A., Tsourakakis, C. E., Eliassi-Rad, T., Faloutsos, C., & Chau, D. H. (2015). «Node immunization on large graphs: Theory and algorithms», IEEE Transactions on Knowledge and Data Engineering, 28(1), 113-126 (βλ. εδώ). 

Γράφος που δείχνει την πόλωση στη συζήτηση για την υπόθεση των υποκλοπών στο Twitter

Για τους σκοπούς της ανάλυσης των εμπλεκόμενων στη συζήτηση λογαριασμών ανά κατηγορία, αρχικά συλλέχθηκαν όλοι οι λογαριασμοί ελληνικών κομμάτων, μελών του ελληνικού κοινοβουλίου και Ελλήνων ευρωβουλευτών στο Twitter. Οι λογαριασμοί των Ελλήνων βουλευτών και ευρωβουλευτών συλλέχθηκαν αξιοποιώντας τα σχετικά στοιχεία  που είναι διαθέσιμα στο Vouliwatch, την ανεξάρτητη, μη κερδοσκοπική πρωτοβουλία ανοιχτής διακυβέρνησης, και στον ιστότοπο του ευρωκοινοβουλίου αντίστοιχα. Οι ίδιες πηγές χρησιμοποιήθηκαν και για την αντιστοίχιση των βουλευτών με τα κόμματα στα οποία ανήκουν. Στη συνέχεια, επισημάνθηκαν αναλόγως τα usernames που υπήρχαν στη βάση δεδομένων με τις δημοσιεύσεις που είχαν συλλεχθεί στο πλαίσιο της έρευνας. Ακολούθως, οι υπόλοιποι λογαριασμοί μελετήθηκαν και επισημάνθηκαν αναλόγως από την ομάδα εργασίας: ως «ενημερωτικοί λογαριασμοί» (εφόσον πρόκειται για μέσα ενημέρωσης, δημοσιογράφους και ιστολόγια), ως «φυσικά πρόσωπα» ή ως «άλλοι» (εφόσον πρόκειται για οργανισμούς, εμπορικές επωνυμίες κ.α.). 

Σημειώνεται ότι, με την αξιοποίηση της τεχνογνωσίας πίσω από το εργαλείο Bot Detective του Datalab, ελέγχθηκε η δραστηριότητα bots, αλλά δεν διαπιστώθηκε παρά μόνο αναφορικά με στατιστικά αμελητέο αριθμό μοναδικών λογαριασμών. 

Για την κατηγοριοποίηση των χρηστών ανά πολιτικό χώρο που φέρεται να κάνουν περισσότερο «follow», ακολουθήθηκε η εξής διαδικασία: κάθε λογαριασμός που εντοπίστηκε ως δημιουργός στο μελετώμενο δείγμα αναρτήσεων για την εκάστοτε υπόθεση προγραμματιστικά τοποθετήθηκε στον παραδοσιακό άξονα Αριστερά – Δεξιά, λαμβάνοντας υπόψη σε ποιον χώρο κυρίως ανήκουν οι πολιτικοί λογαριασμοί που ακολουθεί, περιλαμβανομένων κομμάτων, βουλευτών του ελληνικού Κοινοβουλίου και Ελλήνων Ευρωβουλευτών. Συγκεκριμένα, χρήστες που ακολουθούν περισσότερο τον ΣΥΡΙΖΑ, το ΚΚΕ, το Μέρα 25 και τα στελέχη τους τοποθετήθηκαν στην Αριστερά. Λογαριασμοί που κάνουν «follow» περισσότερο τη Νέα Δημοκρατία, την Ελληνική Λύση και τα στελέχη τους τοποθετήθηκαν στη Δεξιά. Χρήστες που ακολουθούν περισσότερο το ΠΑΣΟΚ-ΚΙΝΑΛ και τα στελέχη του, όπως και χρήστες που ακολουθούν ίσο αριθμό Αριστερών και Δεξιών πολιτικών λογαριασμών, τοποθετήθηκαν στο Κέντρο. Ως ουδέτεροι χαρακτηρίστηκαν χρήστες που δεν ακολουθούν τους προαναφερθέντες πολιτικούς λογαριασμούς.

Γλώσσες προγραμματισμού και άλλα εργαλεία

H συλλογή, η επεξεργασία και η ανάλυση των δεδομένων έγινε με τη χρήση της γλώσσας προγραμματισμού Python. H δημιουργία των γράφων έγινε στο Gephi. Για τη δημιουργία των υπόλοιπων οπτικοποιήσεων που περιλαμβάνονται στη δημοσίευση χρησιμοποιήθηκαν τα διαδικτυακά εργαλεία Datawrapper και Flourish.

Η ανάπτυξη της διαδικτυακής εφαρμογής, την οποία υλοποίησε το Datalab για συνεχιζόμενη παρακολούθηση του θέματος, έγινε σε JavaScript


Για περισσότερες αναλύσεις και συνεχιζόμενη παρακολούθηση του θέματος, επισκεφθείτε τη διαδικτυακή εφαρμογή του Datalab.


Το παρόν αποτελεί αποτέλεσμα ερευνητικής συνέργειας του iMEdD Lab και του Data &  Web Science Lab (Datalab) του Τμήματος Πληροφορικής στο Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης.

Έρευνα/Ανάλυση/Οπτικοποίηση δεδομένων:
Ηλίας Δημητριάδης, Στέλιος Καραμανίδης, Παύλος Σερμπέζης (Datalab)
Κέλλυ Κική (iMEdD Lab)

Διευθύντρια Datalab: Καθηγήτρια Αθηνά Βακάλη

Συμπληρωματική συνδρομή στην έρευνα:
Δημήτριος-Παντελεήμων Γιακάτος, Βασίλης Ψωμιάδης (Datalab)
Φοίβη Φρονίστα (iMEdD)

Η συλλογή των δεδομένων έγινε προγραμματιστικά από την ομάδα του Datalab, με τη χρήση του Twitter API (Application Programming Interface) v2, για σκοπούς ακαδημαϊκής έρευνας. Για τη συλλογή των δεδομένων σχετικά με τη συζήτηση των υποκλοπών στο Twitter, χρησιμοποιήθηκαν τα εξής hashtag και λέξεις-κλειδιά: υποκλοπές, υποκλοπη, #υποκλοπες, #υποκλοπές, #παραρακολουθήσεις, επισύνδεση, επισυνδέσεις, #επισυνδέσεις, #δημητριαδης, #κοντολεων, #κουκακη, #ανδρουλακης, #ypoklopes, predator, #predator, #predatorgate, #pega, #spyware, #watergate, greekwatergate. Η ανάλυση που παρουσιάζεται στο παρόν βασίζεται και περιορίζεται στις δημοσιεύσεις που έγιναν στο Twitter, στην ελληνική γλώσσα, μετά την 1η Απριλίου 2022 και οι οποίες περιλαμβάνουν οποιοδήποτε από τα προαναφερθέντα hashtag/λέξεις-κλειδιά (είτε συνδυαστικά είτε όχι). Σημειώνεται ότι, για λόγους που σχετίζονται με τη διασφάλιση της συνάφειας των δεδομένων με το υπό μελέτη ζήτημα της συζήτησης για την υπόθεση των υποκλοπών: α) το hashtag #ανδρουλακης συγκαταλέχθηκε στα κριτήρια συλλογής δεδομένων στις 20 Ιουλίου 2022, β) το συγκεκριμένο και τα λοιπά hashtag που αντιστοιχούν σε επώνυμα φυσικών προσώπων περιλαμβάνονται στα κριτήρια συλλογής δεδομένων ως τις 28 Νοεμβρίου 2022. Για τα hashtag και τις λέξεις-κλειδιά που χρησιμοποιήθηκαν ως κριτήρια συλλογής δεδομένων για τους σκοπούς ερευνητικής σύγκρισης με λοιπά θέματα της πρόσφατης επικαιρότητας, όπως και για πιο αναλυτικές πληροφορίες σχετικά με τη μεθοδολογία εργασίας, μπορείτε να αντατρέξετε εδώ.