Εργαλεια & Πρακτικες

Ερευνώντας τα στοιχεία που υπάρχουν στις πλατφόρμες κοινωνικής δικτύωσης 

Μπορεί τα μέσα κοινωνικής δικτύωσης να αποτελούν σημαντικό «κανάλι» δημοσίευσης δημοσιογραφικών ερευνών, είναι όμως και εργαλεία με πλούτο πληροφορίας για κάθε είδους δημοσιογραφική αναζήτηση. Στο συνέδριο Dataharvest 2025 μάθαμε και καταγράψαμε χρήσιμους τρόπους, με τους οποίους οι δημοσιογράφοι μπορούν να αντλήσουν στοιχεία για τις έρευνές τους, από τις πλατφόρμες.

Τα μέσα κοινωνικής δικτύωσής είναι σίγουρα ένας τρόπος ώστε οι δημοσιογραφικές έρευνες να προσεγγίσουν το ευρύ κοινό. Μπορούν όμως να γίνουν και χρήσιμα εργαλεία έρευνας. Ερευνητές δημοσιογράφοι έχουν βρει τρόπους να παράγουν δημοσιογραφικά θέματα εξετάζοντας δεδομένα που αντλούν από τις πλατφόρμες. Κατά τη διάρκεια του συνεδρίου Dataharvest – European Investigative Journalism Conference 2025 στο Μέχελεν του Βελγίου, επαγγελματίες της δημοσιογραφίας δεδομένων παρουσίασαν συμβουλές και εργαλεία, για να μπορέσει κανείς να αποκτήσει πρόσβαση στον κρυμμένο κόσμο των μέσων κοινωνικής δικτύωσης.  

  1. Αποφασίστε ποια πλατφόρμα είναι καλύτερη για την έρευνά σας 

Κάθε μέσο παρέχει διαφορετικού είδους πληροφορίες, η μορφή των οποίων αλλάζει και τη φύση της έρευνας. Στις πλατφόρμες X, Facebook και Instagram οι αναρτήσεις βασίζονται σε υλικό όπως φωτογραφίες και βίντεο. Στο TikTok, οι αναρτήσεις γίνονται αποκλειστικά σε μορφή βίντεο. Σε αυτά τα μέσα, εκτός από το ίδιο το περιεχόμενο των αναρτήσεων, μπορούν επίσης να ερευνηθούν οι συνοδευτικές περιγραφές, τα σχόλια, τα hashtags αλλά και τα δημόσια στοιχεία και τα προφίλ των χρηστών που αναρτούν ή αλληλοεπιδρούν με το εν λόγω περιεχόμενο. Το Telegram διαφέρει ως προς την πληροφορία που παρέχει, καθώς είναι κυρίως πλατφόρμα ανταλλαγής μηνυμάτων. Περιλαμβάνει κανάλια (channels), συνομιλίες (chats), και ομάδες (groups) και παρουσιάζει ενδιαφέρον καθώς πολλές από αυτές ενδέχεται να έχουν απαγορευτεί ή περιοριστεί σε άλλες πλατφόρμες, όπως εξτρεμιστικές οργανώσεις, ακροδεξιές ομάδες ή δίκτυα παραπληροφόρησης. Τα δεδομένα μπορεί να προέρχονται από δημόσια διαθέσιμο περιεχόμενο ή από πηγές στις οποίες έχει αποκτηθεί πρόσβαση εντός αυτών των διαφορετικών περιβαλλόντων. 

  1. Πόσο καιρό θα παρακολουθείτε τις πλατφόρμες; 

Η συχνότητα παρακολούθησης του περιεχομένου εξαρτάται τόσο από το αντικείμενο της έρευνας όσο και από τα χαρακτηριστικά της κάθε πλατφόρμας. Όπως ανέφερε η Σαγιάρα Μαμάντοβα (Sayyara Mammadova), δημοσιογράφος και ερευνήτρια στο The Atlantic Council’s Digital Forensic Research Lab (DFRLab), στη διάρκεια του session «Effective Investigations on Telegram for Journalists», όταν η έρευνα εστιάζει σε συγκεκριμένα προφίλ χρηστών, η ανάλυση παλαιότερων δεδομένων μπορεί να προσφέρει πιο ολοκληρωμένη εικόνα για τη δραστηριότητα και το προφίλ του εξεταζόμενου ατόμου. Αντίθετα, όταν στόχος είναι η καταγραφή των αναρτήσεων κατά τη διάρκεια μιας συγκεκριμένης χρονικής περιόδου –όπως, για παράδειγμα, κατά την περίοδο των βρετανικών εκλογών–, τότε είναι απαραίτητη η καθημερινή παρακολούθηση του περιεχομένου για το αντίστοιχο διάστημα.  

  1. Η πρόσβαση στα δεδομένα 

Ίσως το δυσκολότερο μέρος της διαδικασίας είναι να αποκτηθεί πρόσβαση στα στοιχεία που είναι αναγκαία για την έρευνα. Ανά τα χρόνια, οι πλατφόρμες έχουν περιορίσει σημαντικά τις υπηρεσίες API (Application Programming Interface) μέσω των οποίων μπορούσε κανείς να αναζητήσει και να αποθηκεύσει πληροφορίες και στατιστικά που αφορούν την κίνηση και τις συνήθειες των χρηστών στα μέσα κοινωνικής δικτύωσης. (Σ.Σ.: Το API ή αλλιώς η Διεπαφή προγραμματισμού εφαρμογών είναι η διεπαφή μέσω της οποίας τα δεδομένα μιας εφαρμογής ή πλατφόρμας αποστέλλονται στον χρήστη με τις απαντήσεις και τα αποτελέσματα που ζήτησε από την εν λόγω εφαρμογή ή πλατφόρμα.) 

Μία από τις σημαντικότερες αλλαγές έγινε στο Twitter (πλέον X), το οποίο επέτρεπε την πρόσβαση στα δεδομένα για σκοπούς ακαδημαϊκής έρευνας. Τον Φεβρουάριο 2023, ο Έλον Μασκ επέβαλε χρέωση για την πρόσβαση στα δεδομένα της πλατφόρμας X, περιορίζοντας σημαντικά τη δυνατότητα διεξαγωγής ακαδημαϊκής αλλά και δημοσιογραφικής έρευνας. Ειδικά για την τελευταία, σύμφωνα με την ιστοσελίδα, αν και η πρόσβαση στα δεδομένα παρέχεται μέσω συνδρομητικών πακέτων, οι συνδρομές για δημοσιογράφους δεν φαίνεται να είναι αντίστοιχες εκείνων που αφορούν ακαδημαϊκούς και επαγγελματίες του μάρκετινγκ. Η πρόσβαση στα δεδομένα μέσω API δίνεται επίσης επί πληρωμή σε επιχειρήσεις στις πλατφόρμες της Meta, όπως το Instagram και το Facebook.  

Όμως, για κάποιες από αυτές τις πλατφόρμες, υπάρχουν εναλλακτικοί τρόποι για να αποκτηθεί πρόσβαση στα στοιχεία αυτά. Οι δημοσιογράφοι δεδομένων της εφημερίδας The Guardian, Κάρμεν Αγκιλάρ Γκαρσία (Carmen Aguilar Garcia) και Ζικι Χαντερ-Γκριν (Zeke Hunter-Green), στο session «An investigative method to measure content on TikTok»,  πρότειναν στους συμμετέχοντες να μην επικεντρωθούν στην δημιουργία δικού τους κώδικα, αλλά να χρησιμοποιήσουν αυτούς που ήδη παρέχονται δωρεάν από προγραμματιστές –και όχι μόνο. «Ενώνετε τις δυνάμεις σας με άλλους που θέλουν να κάνουν το ίδιο με εσάς και, επειδή τα προγράμματα αυτόματης συλλογής δεδομένων (scrapers) “σπάνε” διαρκώς, η επιδιόρθωση μπορεί να πάρει πολύ χρόνο. Οι έτοιμοι scrapers παραμένουν ενημερωμένοι και τις περισσότερες φορές, λειτουργούν»

Οι ίδιοι χρησιμοποίησαν έναν από αυτούς για την δική τους έρευνα. Το TikTok παρουσιάζει δυσκολία στο «σκραπάρισμα ». «Ερευνάς έναν πολύ αδιαφανή αλγόριθμο ο οποίος μπορεί να αλλάζει και κάθε μέρα, χωρίς να ξέρουμε πώς», αναφέρει η Γκαρσία. Με τη βοήθεια της βιβλιοθήκης TikTokApi in Python και του Playwright –μιας βιβλιοθήκης αυτοματισμού που επιτρέπει τον έλεγχο προγραμμάτων περιήγησης μέσω κώδικα για σκοπούς scraping– τα δεδομένα μπορούν να εξαχθούν με λιγότερες πιθανότητες να αναγνωριστεί ο αυτοματισμός από την πλατφόρμα.  

Περισσότερες πληροφορίες στο Github του TikTok-Api.

Το session «Protests, TikTok, and more: analyzing images and videos with AI» του καθηγητή πρακτικής στη δημοσιογραφία δεδομένων με έδρα Knight και διευθυντή του Προγράμματος Πτυχίου στα Δεδομένα στο Πανεπιστήμιο της Κολούμπια, Τζόναθαν Σόμα (Jonathan Soma) αποτέλεσε συνέχεια της παρουσίασής του στο φετινό συνέδριο NICAR τον Μάρτιο στη Μινεσότα, στο οποίο παρουσίασε τρόπους για να «σκραπάριστεί» το X.  

Ένας από αυτούς, είναι η αποθήκευση των αρχείων .har και .warc, τα οποία καταγράφουν τις αλληλεπιδράσεις ενός χρήστη με έναν ιστότοπο, όπως το Χ. Τα αρχεία .har αποθηκεύουν πληροφορίες σχετικά με τα αιτήματα δικτύου που γίνονται από τον χρήστη και τον διακομιστή στο πρόγραμμα περιήγησης ενώ τα .warc αποτελούν ένα πρότυπο αρχείου που αποθηκεύει περιεχόμενου του ιστου στο αρχικό περιβάλλον και χρησιμοποιείται για την αρχειοποίηση των ιστοσελίδων. Από αυτά τα αρχεία, μπορεί κανείς να εξάγει δεδομένα, όπως το περιεχόμενο των ιστοσελίδων τη στιγμή της καταγραφής, απαντήσεις από API, tweets, προφίλ χρηστών, και συνδέσμους για φωτογραφίες, βίντεο, κλπ.  

Για τα αρχεία .har: 

  • από το Chrome,  αρκεί να ακολουθηθεί η διαδικασία Δεξί κλικ –> Inspect –> Network –> Download ↓ 
  • Χρησιμοποιείστε εργαλεία όπως το HAR Data Extractor για να εξάγετε τα αρχεία που χρειάζεστε.  

Για τα αρχεία .warc:  

  • Χρησιμοποιώντας την υπηρεσία Webrecorder ArchiveWeb.page, η οποία λειτουργεί ως επέκταση στο πρόγραμμα περιήγησης της επιλογής σας. Μπορείτε να βρείτε περισσότερες πληροφορίες για τη χρήση εδώ
  • Χρησιμοποιείστε εργαλεία όπως το WARC Data Extractor για να εξάγουμε tweet περιεχόμενο, μεταδεδομένα, ή ακόμα και ενσωματωμένο .json . 

Αφού εξαχθούν τα δεδομένα, μπορούν να αποθηκευτούν ή να μετατραπούν σε πιο ευανάγνωστες μορφές, όπως .csv ή .json, ώστε να χρησιμοποιηθούν για την ανάλυση. 

Στην περίπτωση του Instagram, ο Σόμα πρότεινε το εργαλείο Instaloader, το οποίο μπορεί να κατεβάσει μεγάλο όγκο δεδομένων από διαφορετικά προφίλ. Το πρόγραμμα είναι εύκολο στην εγκατάσταση και μπορεί να δώσει τα δεδομένα ενός προφίλ με τρεις γραμμές κώδικα: 

 
pip install instaloader
pip install getpass
 
# Εισάγετε το instaloader και το getpass στο jupyter notebook
import instaloader
from getpass import getpass

# Για να μπορείτε να πάρετε περισσότερα δεδομένα, συνδεθείτε στο προφίλ σας στην πλατφόρμα
username = 'profile_name'
password = getpass("Enter Instagram password: ")

# Ορίστε τον instaloader
ig = instaloader.Instaloader()

#Προσθέστε το όνομα του προφιλ του οποίου τα δεδομένα επιθυμείτε να αποθηκεύστετε
insta_page = input("Enter the name of the instagram page")

# True αν θέλετε να κατεβάσετε μόνο τη φωτογραφία προφίλ
# False αν θέλετε να κατεβάσετε όλα τα διαθέσιμα δεδομένα στο προφίλ
ig.download_profile(insta_page, profile_pic_only=False)

Περισσότερες πληροφορίες στο Github του Instaloader

Όσον αφορά στο Telegram, η Μαμάντοβα παρουσίασε μια πιο αισιόδοξη εικόνα. Το ίδιο το Telegram δίνει τη δυνατότητα στους χρήστες να αποθηκεύσουν τα δεδομένα που περιλαμβάνονται στα κανάλια ακολουθώντας την πορεία: Settings –> Export Telegram data και επιλέγοντας τόσο τον τύπο δεδομένων όσο και τη μορφή μέσω της οποίας θα αποθηκεύονται στον υπολογιστή (.html ή .json). Ακόμη, οι συνομιλίες συγκεκριμένων συζητήσεων μπορούν να αποθηκευτούν από την επιλογή «Export Chat history».  

Εναλλακτικά, η αποθήκευση μπορεί να γίνει με τη χρήση Python μέσω του εργαλείου Telegram Tracker το οποίο έχει δημιουργήσει και επιμελείται ο ερευνητής του DFRLab, Εστεμπαν Πόνκε ντε Λιόν (Esteban Ponce de Leon).  

  1. Και αν έχουν διαγραφεί τα δεδομένα; 

Στο workshop «More than just the Wayback Machine: how to investigate deleted and archived content», οι ειδικευμένοι στην έρευνα με τεχνολογίες ανοιχτού κώδικα (OSINT) δημοσιογράφοι Ζασμίν Ζακό-Ντεκομπ (Jasmine Jacot-Descombes) και Ζαν Λούντβιγκ (Jan Ludwig) της ελβετικής εφημερίδας Neue Zürcher Zeitung, παρουσίασαν παραδοσιακούς τρόπους με τους οποίους μπορεί κανείς να αποκτήσει πρόσβαση σε διαγραμμένα προφίλ, αναρτήσεις και σχόλια. Η αναζήτηση σε διαδικτυακά αρχεία όπως το The Wayback Machine, το Ghost Archive, το Cybdetective και το Archive Today ήταν αυτά στα οποία αναφέρθηκαν οι εισηγητές του workshop.  

Πληκτρολογώντας στην μπάρα αναζήτησης ενός browser τον σύνδεσμο της διαγραμμένης δημοσίευσης, θα εμφανιστούν αποτελέσματα, ο αριθμός των οποίων θα αλλάξει εφαρμόζοντας μερικές πρακτικές:  

Αρχικός σύνδεσμος (παράδειγμα):  

https://www.instagram.com/profile_name/p/C_btAIKOW2z

  • Αφαίρεση του στοιχείου/προφίλ που αναζητάς από τον σύνδεσμο της ανάρτησης που ψάχνεις:   

https://www.instagram.com/p/C_btAIKOW2z

  • Προσθήκη καθέτου (/) στο τέλος του URL 

https://www.instagram.com/profile_name/p/C_btAIKOW2z/

  • Αντικατάσταση της καθέτου (/) με έναν αστερίσκο (*),  για να εμφανιστούν περισσότερες εκδοχές/αποθηκεύσεις της σελίδας 

https://www.instagram.com/profile_name/p/C_btAIKOW2z*

  • Προσθήκη δεύτερου αστερίσκου έπειτα από την αναφορά του internet archive που χρησιμοποιείς  

https://web.archive.org/web/*/https://www.instagram.com/profile_name* 

  • Για τον περιορισμό των αποτελεσμάτων σε συγκεκριμένη χρονική περίοδο, μπορεί να προστεθεί η ημερομηνία με τη μορφή YYYY (χρόνος) MM (μήνας) DD (μέρα)

https://web.archive.org/web/202305*/https://www.instagram.com/profile_name*  

Συχνά, οι πληροφορίες δεν περιορίζονται στους επίσημους λογαριασμούς των προσώπων που αποτελούν αντικείμενο έρευνας. Είναι σημαντικό να εξετάζονται σε βάθος όσο το δυνατόν περισσότερες πηγές. Όπως επισημαίνουν οι Ζακό-Ντεκομπ και Λούντβιγκ, ακόμη κι όταν δεν υπάρχει πρόσβαση στο προφίλ ενός ατόμου, η έρευνα μπορεί να εστιάσει στα σχόλια και τις αλληλεπιδράσεις του, τα οποία συχνά παραμένουν ορατά και αποκαλυπτικά. 

 Ένας αποτελεσματικός τρόπος είναι η μέθοδος αναζήτησης στη Google, τη Bing και άλλες μηχανές αναζήτησης, όπου η καθεμία θα φέρει διαφορετικά αποτελέσματα με τον τρόπο «site:instagram.com profile_name». Η μέθοδος αυτή μπορεί να χρησιμοποιηθεί για οποιαδήποτε πλατφόρμα, όπως το Youtube, το X, το Facebook κ.α. «Τα αποτελέσματα στη Google δεν δείχνουν το διαδίκτυο σε πραγματικό χρόνο» αναφέρει ο Λούντβιγκ. «Είναι αποθηκευμένες (cached) εκδόσεις, οπότε μπορεί να βρείτε παρωχημένες πληροφορίες». 

Στο X, δεν έχει αρχειοθετηθεί όλο το περιεχόμενο, το οποίο καθιστά δύσκολη την αναζήτηση ορισμένων thread. Η συνήθεια των χρηστών να απαντούν με τη λέξη «unroll» κάτω από μεγάλα thread, ζητώντας από bots να τα συγκεντρώσουν, μπορεί να φανεί χρήσιμη στην έρευνα. Έτσι, η αναζήτηση της λέξης «unroll» στις απαντήσεις αποτελεί έναν καλό τρόπο εντοπισμού thread που ίσως δεν έχουν αρχειοθετηθεί αλλού. Εργαλεία όπως το Thread Reader μπορούν να διευκολύνουν αυτή τη διαδικασία.  

Στην περίπτωση του Telegram, η Μαμάντοβα αλλά και η ερευνητική ομάδα του Bellingcat στο Bellingcat Toolkit, προτείνουν το εργαλείο TGStat (μίας εταιρείας με έδρα στη Ρωσία) το οποίο διευκολύνει τόσο την πρόσβαση σε διαγραμμένα δεδομένα όσο και την έρευνα σε κανάλια, με τα οποία υπάρχει σύνδεση με τα ερευνώμενα πρόσωπα. Είναι κατά κύριο λόγο δωρεάν, αλλά έχουν υπάρξει προβληματισμοί ως προς την ασφάλεια των δεδομένων των χρηστών της εφαρμογής.  

Η κεντρική εικόνα απεικονίζει το session “More than just the Wayback Machine: how to investigate deleted and archived content” και έχει δημιουργηθεί, στη διάρκεια του Dataharvest 2025 από τον Pieter Fannes.