Μεθοδολογια

Tα χαοτικά δεδομένα πίσω από το έργο «Mapping Diversity»

Logo of OBC TranseuropaEuropean Data Journalism Network
Δες το άρθρο Δες το άρθρο

Η μεθοδολογία εργασίας, ως προς τις κύριες πηγές δεδομένων και τα χαρακτηριστικά της επεξεργασίας δεδομένων, για το διασυνοριακό έργο υπό τον τίτλο «Mapping Diversity», που υλοποιήθηκε υπό τον συντονισμό του OBC Transeuropa για το Ευρωπαϊκό Δίκτυο Δημοσιογραφίας Δεδομένων.

Ονομασίες δρόμων

Το βασικό σημείο αναφοράς για τα γεωγραφικά δεδομένα με ανοικτή άδεια χρήσης, το OpenStreetMap, είναι η πηγή που χρησιμοποιήσαμε για να εντοπίσουμε τις ονομασίες δρόμων για την έρευνά μας (ευχαριστούμε τους συντελεστές του OpenStreetMap!). Το OpenStreetMap διαθέτει πλήρη και ενημερωμένα δεδομένα για μεγάλες ευρωπαϊκές πόλεις και παρέχει πληροφορίες για τις ονομασίες των οδών τους αλλά και την ακριβή τους τοποθεσία στον χάρτη. Θα πρέπει να σημειωθεί εδώ ότι, αν και πολλές πόλεις της Ευρώπης εκδίδουν καταλόγους με τις ονομασίες των δρόμων τους, στις περισσότερες περιπτώσεις η μορφή αυτών των καταλόγων δεν επιτρέπει την τοποθέτηση των οδών σε χάρτη.

Το OpenStreetMap είναι ένα έργο παγκόσμιας εμβέλειας, ωστόσο κατά τη χρήση του προκύπτουν τοπικές ιδιαιτερότητες λόγω διαφορών που σχετίζονται με τη γλώσσα, τις τοπικές πρακτικές, καθώς και τα πρότυπα που ορίζονται από τους χαρτογράφους κάθε χώρας.

Ταυτόχρονα, η ενασχόληση με ονομασίες σε διαφορετικές γλώσσες περιπλέκει ακόμα περισσότερο τα πράγματα. Το OpenStreetMap διαθέτει μια γενική ετικέτα (tag) για την ονομασία κάθε οδού (name) και παρέχει τη δυνατότητα συμπερίληψης συγκεκριμένων γλωσσικών αποδόσεων. Και, παρόλο που υπάρχει ένα σύνολο κανόνων σχετικά με τον τρόπο αντιμετώπισης όλων των ζητημάτων που προκύπτουν από την πολυγλωσσία, οι κανόνες αυτοί είναι συχνά διαφορετικοί για κάθε χώρα ή και ελλιπείς.

Για τις ανάγκες της συγκεκριμένης έρευνας, βασιστήκαμε στη γενική ετικέτα name, υποθέτοντας ότι είναι γραμμένη στην κύρια γλώσσα που χρησιμοποιείται σε μια δεδομένη χώρα, ενώ αντιμετωπίσαμε τις εξαιρέσεις είτε κατά περίπτωση (όπως κάναμε, για παράδειγμα, με το σχετικά μικρό Bozen/Bolzano στο Νότιο Τιρόλο) είτε πιο συστηματικά, όπως κάναμε με τους δήμους των Βρυξελλών -οι οποίοι περιλαμβάνουν την ονομασία της κάθε οδού στα γαλλικά και τα ολλανδικά. Οι ονομασίες είναι διαχωρισμένες με παύλα, ενώ η σειρά εμφάνισης της κάθε γλώσσας εξαρτάται από τον δήμο.

Από την άλλη, ο ακριβής τρόπος γραφής των οδών δεν φαίνεται να ακολουθεί κάποιο συγκεκριμένο πρότυπο. Σε γενικές γραμμές, οι ονομασίες των οδών συνήθως αναγράφονται με τον ίδιο τρόπο που είναι γραμμένες στον πραγματικό κόσμο. Πέρα από αυτό, όμως, υπάρχει μια σειρά από βέλτιστες πρακτικές που ακολουθούνται, ορισμένες από τις οποίες αφορούν συγκεκριμένες χώρες. Για παράδειγμα, σε περίπτωση που το πλήρες όνομα ενός προσώπου είναι γνωστό, τότε αυτό θα πρέπει να προτιμάται -και όχι απλώς το πρώτο γράμμα του μικρού του ονόματος. Το πρόβλημα, βέβαια, είναι ότι τέτοιες πρακτικές ενδέχεται να εφαρμόζονται με ασυνέπεια ακόμα και μέσα στην ίδια χώρα (πόσο μάλλον σε διαφορετικές), περιπλέκοντας την αντιστοίχιση ενός συγκεκριμένου δρόμου με την οντότητα ή το πρόσωπο στο οποίο είναι αφιερωμένος, αλλά και με σχετικά σύνολα δεδομένων που μπορεί να υπάρχουν σε επίπεδο πόλης, περιοχής ή χώρας.

Λαμβάνοντας υπόψη όλα τα ζητήματα, αποφασίσαμε να βασιστούμε στην πρωτογενή ετικέτα name για όλες τις ονομασίες των οδών.

Στη συνέχεια, επιχειρήσαμε να ανασύρουμε όλους τους δρόμους για κάθε δεδομένη πόλη ή δήμο.

Διοικητικά όρια

Το OpenStreetMap διαθέτει αρχεία που αφορούν τα διοικητικά όρια, αλλά, όπως αναφέρεται σαφώς στη σχετική τεκμηρίωση (documentation) , αυτά χρησιμοποιούνται με ασυνέπεια μεταξύ των χωρών:

«Παρόλο που το admin_level=2 είναι σχεδόν πάντα μια de facto ανεξάρτητη χώρα, και το admin_level=4 είναι συνήθως ισοδύναμο με μια “επαρχία”, οι υψηλότερες τιμές διαφέρουν ως προς τη σημασία τους μεταξύ των χωρών. Ένας καταναλωτής δεδομένων που αναζητά δήμους που αντιστοιχούν σε όρια “πόλης”, “κωμόπολης” ή “χωριού”, θα βρει αυτά τα όρια με ετικέτες που κυμαίνονται από admin_level=4 έως admin_level=10».

Θεωρητικά, θα μπορούσαμε να είχαμε ελέγξει ποιες πρακτικές ακολουθούνται σε κάθε χώρα, κατά πόσο αυτές εφαρμόζονται πράγματι με συνέπεια, καθώς και αν αντιστοιχούν σε ένα σταθερό αναγνωριστικό.

Παρ’ όλα αυτά, επιλέξαμε μια πιο πρακτική λύση και αποφασίσαμε να βασιστούμε στο σύνολο δεδομένων των Τοπικών Διοικητικών Μονάδων (LAUs) που διανέμεται από τη Eurostat, το οποίο μπορεί να χρησιμοποιηθεί, περιλαμβάνοντας την ακόλουθη ειδοποίηση περί πνευματικών δικαιωμάτων, στο παραγόμενο αποτέλεσμα: © EuroGeographics για τα διοικητικά όρια.

Αυτό κατέστησε δυνατό τον συνδυασμό ενός ήδη τυποποιημένου συνόλου δεδομένων με ένα σταθερό αναγνωριστικό που μπορεί να χρησιμοποιηθεί για την αντιστοίχισή του με άλλες πηγές δεδομένων. Ακόμα και έτσι όμως, τα αποτελέσματα που λάβαμε δεν ήταν πάντα ξεκάθαρα. Για παράδειγμα, υπάρχουν κάποιες πόλεις -συμπεριλαμβανομένων των Βρυξελλών, της Λισαβόνας και του Δουβλίνου- που αποτελούνται από διάφορους δήμους. Σε τέτοιες περιπτώσεις, ενδέχεται να είναι προτιμότερη η διατήρηση των δεδομένων σε επίπεδο δήμου, αλλά, για πολλούς αναγνώστες, τα δεδομένα που αφορούν ολόκληρη την αστική περιοχή θα ήταν πιθανώς πιο εύχρηστα. Στις περιπτώσεις αυτές, ανατρέξαμε στη σχετική περιφέρεια σε επίπεδο NUTS ή σε άλλα συγκεντρωτικά στοιχεία που είναι διαθέσιμα σε εθνικό επίπεδο (π.χ. για τη Λισαβόνα).

Με τη χρήση τυποποιημένων διοικητικών ορίων και αρχείων που περιλαμβάνουν όλους τους δρόμους μιας χώρας από το OpenStreetMap (όπως διανέμεται από τη Geofabrik), είναι εύκολη η περικοπή των εθνικών ή περιφερειακών δεδομένων που αφορούν τα όρια του συγκεκριμένου δήμου, η αφαίρεση όλων των δρόμων χωρίς ονομασία (συχνά παράδρομων) και η αποκλειστική λήψη των δρόμων με ονομασία, οι οποίοι μπορούν εύκολα να απεικονιστούν σε χάρτη.

Με αυτόν τον τρόπο, αντλήσαμε ένα μοναδικό αναγνωριστικό για κάθε δρόμο. Στο OpenStreetMap (OSM), οι δρόμοι δεν έχουν μοναδικό αναγνωριστικό εκτός εάν αποτελούν μέρος της λεγόμενης «σχέσης» (relation) στην ορολογία του OSM. Στην περίπτωσή μας, το αναγνωριστικό αποτελείται από έναν συνδυασμό της πλήρους ονομασίας της οδού με το gisco_id του δήμου: κάθε δρόμος του οποίου η ονομασία έχει την ίδια ορθογραφία σε έναν συγκεκριμένο δήμο θεωρείται ως μοναδικός δρόμος.

Κάποιες χώρες ή πόλεις έχουν μοναδικά αναγνωριστικά για τους δρόμους τους (π.χ. Τσεχία). Ορισμένες πιο μεγάλες πόλεις έχουν όλους τους δρόμους τους καταχωρημένους ως ξεχωριστή οντότητα (entity) στο Wikidata. Παρ’ όλα αυτά, λόγω διαφορών στην ορθογραφία, στη σειρά των λέξεων, στην απουσία ή την παρουσία τιμητικών τίτλων και άλλων παραμέτρων, η επίτευξη πλήρους αντιστοιχίας μεταξύ τέτοιων συνόλων δεδομένων είναι περίπλοκη και συχνά απαιτεί προσαρμοσμένες λύσεις για κάθε σχετική πόλη. Και πάλι, αντί να αναπτύξουμε προσαρμοσμένες λύσεις για συγκεκριμένες χώρες ή πόλεις, αναζητήσαμε μια ενιαία λύση που θα μπορούσε να εφαρμοστεί με συνέπεια σε όλα τα σύνολα δεδομένων μας.

Ακολουθεί το δύσκολο μέρος.

Αντιστοίχιση των δρόμων με την οντότητα από την οποία πήραν το όνομά τους

Ενδεχομένως να υπάρχουν πολλές διαθέσιμες πηγές που περιλαμβάνουν πληροφορίες σχετικά με το πρόσωπο του οποίου το όνομα φέρει κάποιος δρόμος.

Ορισμένες από αυτές είναι υψηλής ποιότητας, αλλά είναι δύσκολο ή και αδύνατο να τεθούν σε κλίμακα ή να γενικευτούν. Αυτές περιλαμβάνουν:

  • Ανοικτά δεδομένα που διανέμονται από έναν δήμο με αυτές τις πληροφορίες. Ακόμα και όταν υπάρχουν, τις περισσότερες φορές δεν είναι εύκολο να αντιστοιχηθούν είτε με γεωγραφικά δεδομένα είτε με δεδομένα σχετικά με το πρόσωπο στο οποίο είναι αφιερωμένη μια οδός. Ακόμα και στην καλύτερη περίπτωση, θα απαιτούνταν χειρωνακτική εργασία προκειμένου να μετατραπούν τα δεδομένα σε μορφή που να επιτρέπει την οπτικοποίησή τους και τη σύγκρισή τους με αντίστοιχα δεδομένα άλλων χωρών ή πόλεων. Μια ιδανική μορφή, για παράδειγμα, είναι αυτή που χρησιμοποιείται για την αναφορά οδών και δημόσιων χώρων αφιερωμένων σε γυναίκες στον ιταλικό δήμο της Μπολόνια: ανοικτά δεδομένα σε εύχρηστη μορφή πίνακα, με γεωγραφικές συντεταγμένες, ημερομηνία κατά την οποία η οδός αφιερώθηκε στο συγκεκριμένο πρόσωπο και βασικές βιογραφικές πληροφορίες σε μορφή που δύναται να αναλυθεί (η ιδανική μορφή, κατ’ εμάς, θα περιλάμβανε επίσης ένα αναγνωριστικό Wikidata, θα ήταν πλήρης για όλους τους δρόμους και θα περιλάμβανε πληροφορίες για την ονομασία της προηγούμενης οδού σε περίπτωση μετονομασίας).
  • στην περίπτωση μεγάλων πόλεων, υπάρχουν ολόκληρα βιβλία που ασχολούνται με το θέμα, τα οποία περιλαμβάνουν πληροφορίες για το πρόσωπο στο οποίο είναι αφιερωμένη μια οδός (π.χ. βλ. Străzi din București și numele lor για το Βουκουρέστι ή Stockholm gatunamn για τη Στοκχόλμη).
  • στην περίπτωση μεγάλων πόλεων, μερικές φορές υπάρχουν τοπικές πρωτοβουλίες, των οποίων ο ρόλος είναι να αναδεικνύουν ενδιαφέροντα βιογραφικά στοιχεία για τα πρόσωπα στα οποία είναι αφιερωμένη μια οδός (π.χ., και πάλι στην περίπτωση του Βουκουρεστίου, βλ. Străzi cu Renume)


Υπάρχουν, επίσης, κάποιες πρωτοβουλίες με πληροφορίες σχετικά με τις ονομασίες οδών που έχουν αφιερωθεί σε γυναίκες. Το πιο ολοκληρωμένο παράδειγμα είναι μάλλον η Toponomastica femminile, μια μεγάλη πρωτοβουλία που σχηματίστηκε στην Ιταλία, με στόχο την παροχή πληροφοριών για οδούς που είναι αφιερωμένες σε γυναίκες στους περισσότερους δήμους της χώρας. Η συγκεκριμένη πρωτοβουλία έχει συγκεντρώσει δεδομένα που αφορούν χιλιάδες δήμους μετά από εκτενή έρευνα.

Άλλες πρωτοβουλίες παρουσιάζουν πληροφορίες σε δομημένη μορφή για διάφορες πόλεις στην Ευρώπη ή αλλού, οι οποίες, όπως και στην περίπτωση της δικής μας πρωτοβουλίας, βασίζονται στο OpenStreetMap και τα Wikidata, συμπεριλαμβανομένων των EqualStreetNames και Las Calles de las Mujeres.

Ακαδημαϊκά άρθρα και μελέτες έχουν ασχοληθεί επίσης με το συγκεκριμένο θέμα και σε ορισμένες περιπτώσεις έχουν συμπεριλάβει σχετικά σύνολα δεδομένων -για παράδειγμα:


Υπάρχουν, επίσης, εθνικές δημοσιογραφικές έρευνες που έχουν ασχοληθεί με το θέμα αυτό, οι οποίες θα μπορούσαν να χρησιμοποιηθούν ως όροι αναφοράς σε ορισμένες περιπτώσεις -βλ. π.χ. Streetnames: Streetscapes – Mozart, Marx and a Dictator, από την Die Zeit.

Τέλος, τα δεδομένα αυτά μπορούν θεωρητικά να αποθηκευτούν απευθείας στις ίδιες πηγές που χρησιμοποιήσαμε.

Πράγματι, τα δεδομένα μπορούν να αποθηκευτούν απευθείας στο OpenStreetMap μέσω ενός συνόλου ειδικών ετικετών (tags), όπως οι name:etymology:wikidata. Το συγκεκριμένο θέμα αναλύεται εκτενώς σε αυτήν την ανάρτηση που αφορά τη δουλειά που έγινε σε μια γερμανική πόλη. Η μετονομασία θα μπορούσε να καταγραφεί και εκεί με τη χρήση της λειτουργίας data namespace. Δυστυχώς, αυτές οι πληροφορίες σπάνια περιλαμβάνονται στο OpenStreetMap. Ωστόσο, υπάρχουν διαδραστικοί χάρτες στο Διαδίκτυο που επιτρέπουν στους χρήστες να δουν τα διαθέσιμα δεδομένα αλλά και να συνεισφέρουν με πληροφορίες απευθείας στο OpenStreetMap (βλ. ιδιαιτέρως mapcomplete.osm.be/etymology και https://etymology.dsantini.it/).

Τα δεδομένα μπορούν επίσης να αποθηκευτούν απευθείας στο Wikidata με τη χρήση της ιδιότητας «named after» σε σχέση με έναν δρόμο που περιλαμβάνεται στο Wikidata ως ξεχωριστή οντότητα. Αυτό συμβαίνει κατά κόρον σε πόλεις που έχουν καταχωρημένους όλους τους δρόμους τους ως ξεχωριστή οντότητα στο Wikidata. Το ερώτημα, βέβαια, που προκύπτει είναι πόσοι δήμοι το κάνουν αυτό. Όπως θα δούμε, υπάρχουν μεγάλες διαφοροποιήσεις μεταξύ των χωρών:

  • σε κάποιες χώρες, όπως για παράδειγμα στην Τσεχία και την Ολλανδία, τα στοιχεία φαίνεται πως είναι αρκετά πλήρη,
  • σε άλλες χώρες, όπως στη Γερμανία και τη Γαλλία, έχουν συμπεριληφθεί ορισμένοι δήμοι, χωρίς να φαίνεται να ακολουθούνται συγκεκριμένα κριτήρια, πέραν ίσως της διαθεσιμότητας σχετικών ανοικτών δεδομένων και της παρουσίας ενός τοπικού ακτιβιστή που έχει αναλάβει την πρωτοβουλία για την ανάρτησή τους,
  • στις περισσότερες άλλες χώρες, μόνο ένας μικρός αριθμός μνημειωδών δρόμων υπάρχουν ως ξεχωριστή οντότητα στο Wikidata.


Από μόνη της, καμία από αυτές τις δύο πηγές δεν προσφέρει ένα ιδανικό format για την αποθήκευση τέτοιων δεδομένων. Για παράδειγμα, το Wikidata παρέχει τις συντεταγμένες ενός δρόμου ως ένα μοναδικό σημείο και στις περισσότερες περιπτώσεις δεν περιλαμβάνει έναν άμεσο δείκτη (direct pointer) στο OpenStreetMap προς τον σχετικό δρόμο. Αυτό συμβαίνει λόγω του μοντέλου δεδομένων και των πρακτικών που εφαρμόζονται στο OpenStreetMap: οι δρόμοι συχνά αποτελούνται από πολλά τμήματα με δυνητικά διαφορετικές ιδιότητες που συχνά δεν συνδέονται μεταξύ τους, ενώ στις περισσότερες περιπτώσεις δεν έχουν ένα μοναδικό σταθερό αναγνωριστικό που να μπορεί να συνδεθεί με το Wikidata. Ένα τέτοιο αναγνωριστικό μπορεί να υπάρξει στο OpenStreetMap μόνο εφόσον όλα τα στοιχεία ενός δρόμου είναι ενωμένα σε μια σχέση (relation) (βλ. τη σχετική εισήγηση), πράγμα που αποτελεί μια εύλογη, αν και όχι ιδιαίτερα διαδεδομένη, πρακτική, εν μέρει επειδή συχνά θεωρείται περιττή.

Εάν όλοι οι δρόμοι αποτελούσαν μέρος μιας σχέσης στο OpenStreetMap και, συνεπώς, είχαν ένα σταθερό αναγνωριστικό, καθώς και αν όλοι οι δρόμοι υπήρχαν στο Wikidata με το δικό τους σταθερό αναγνωριστικό Q, τότε οι δύο αυτές πηγές θα μπορούσαν να συνδεθούν μέσω της ιδιότητας OpenStreetMap relation ID του Wikidata, πράγμα που θα αποτελούσε την ιδανική περίπτωση. Εάν περισσότερες χώρες ακολουθούσαν το παράδειγμα της Τσεχίας, όπου κάθε δρόμος έχει ένα μοναδικό αναγνωριστικό που διανέμεται ως ανοικτό δεδομένο και, επομένως, συνδέεται εύκολα από τα Wikidata, θα ήμασταν πολύ πιο κοντά στον στόχο μας, καθώς αυτό θα μπορούσε να συνδυαστεί με όλα τα είδη άλλων ανοικτών δεδομένων.

Δυστυχώς, κάτι τέτοιο δεν συμβαίνει ακόμα.

Έτσι, αποφασίσαμε να πορευτούμε με βάση τις διαθέσιμες επιλογές.

Η προσέγγισή μας για την αντιστοίχιση των ονομασιών δρόμων με το πρόσωπο ή την οντότητα στην οποία είναι αφιερωμένοι

Στις προηγούμενες παραγράφους περιγράψαμε πώς φτάσαμε να έχουμε έναν κατάλογο με ονομασίες οδών για κάθε δήμο στην Ευρώπη και την αδυναμία μας να βρούμε μια προϋπάρχουσα, συνεπή και κλιμακούμενη προσέγγιση που θα μπορούσε να χρησιμοποιηθεί για τον εντοπισμό σχετικών δεδομένων από διάφορες πόλεις σε όλη την Ευρώπη με τη δυνατότητα επέκτασης της προσπάθειας σε οποιονδήποτε μεγάλο ή μικρό δήμο.

Η βέλτιστη προσέγγιση θα ήταν ενδεχομένως ένας συνδυασμός και μια αντιστοίχιση με βάση τη διαθεσιμότητα των δεδομένων και τις ιδιαιτερότητες της κάθε χώρας ή γλώσσας. Αυτό θα συνεπαγόταν την υιοθέτηση ξεχωριστής προσέγγισης ανά χώρα ή ανά πόλη, πράγμα που θεωρήσαμε πρακτικά αδύνατον να πραγματοποιηθεί. Ο λόγος που καταλήξαμε σε αυτήν την επιλογή, η οποία αποδείχθηκε εξαιρετικά αμφίβολη στη συνέχεια, ήταν εν μέρει η εμπειρία μας με την Ιταλία, η οποία χρησιμοποιήθηκε ως πιλοτική χώρα. Πράγματι, στην περίπτωση της Ιταλίας:

  • καμία μεγάλη πόλη δεν έχει όλους τους δρόμους της ως ξεχωριστή οντότητα στο Wikidata
  • οι οδοί έχουν προβλέψιμες ονομασίες (π.χ. είναι πάντα «via di κάτι», «piazza κάτι», «viale όνομα επώνυμο» κλπ.)
  • στη συντριπτική πλειονότητα των περιπτώσεων όπου οι δρόμοι που είναι αφιερωμένοι σε κάποιο πρόσωπο, το ονοματεπώνυμο αυτού του προσώπου αναγράφεται πλήρως στην ονομασία της οδού
  • οι ονομασίες έχουν μια ενιαία τυποποιημένη μορφή (σε κάποιες γλώσσες, η ονομασία των οδών μπορεί να αλλάζει λόγω της πτώσης ή της επιθετικοποίησης των ονομάτων)


Φυσικά, είχαμε επίγνωση των γλωσσικών διαφορών, ωστόσο υποτιμήσαμε τη διαθεσιμότητα δεδομένων σε άλλες χώρες.

Όπως και να έχει, ακολουθήσαμε μια ως επί το πλείστον τυπική προσέγγιση:

1. Παίρνουμε την ονομασία μιας οδού.

2. Για χώρες όπου συνηθίζεται να καταχωρείται ξεχωριστή οντότητα στο Wikidata για κάθε δρόμο, αναζητούμε την πλήρη συμβολοσειρά του ονόματος του δρόμου στο Wikidata και βλέπουμε αν είναι διαθέσιμο το πεδίο «named after». Σε περίπτωση που είναι διαθέσιμο, το διατηρούμε και παραλείπουμε όλα τα υπόλοιπα. Σε περίπτωση που δεν βρεθεί κάποια αντιστοιχία ή δεν υπάρχει καμία οντότητα στο Wikidata για τους δρόμους κάποιας συγκεκριμένης χώρας, ακολουθούμε τα επόμενα βήματα.

3. Αφαιρούμε το μέρος του ονόματος που περιγράφει τον δρόμο, και όχι το πρόσωπο ή την οντότητα στην οποία είναι αφιερωμένος με βάση τις προσαρμοσμένες λίστες (π.χ. για την Ιταλία αφαιρούμε όλα τα «via», «viale» κλπ στην αρχή της συμβολοσειράς της ονομασίας, για τη Γερμανία αφαιρούμε όλα τα «Straße» στο τέλος κ.ο.κ.)

4. Εάν η εκάστοτε γλώσσα οδηγεί σε αλλαγές στον τρόπο γραφής μιας ονομασίας, επιχειρούμε τη μετατροπή της σε ονομαστική πτώση (π.χ. στα πολωνικά μετατρέπουμε τις καταλήξεις σε «-szka», σε «-szek»). Η διαδικασία αυτή βασίζεται αποκλειστικά στα λεκτικά μοτίβα (δηλαδή μέσω regex), και δεν έχει βελτιστοποιηθεί (καθώς και πάλι, αυτό συνεπάγεται διαφορετική λύση για κάθε χώρα/γλώσσα), γι’ αυτό και η ποιότητα των αποτελεσμάτων ποικίλλει.

5. Προχωράμε σε αναζήτηση του υπόλοιπου τμήματος της οδού στο Wikidata στην κύρια γλώσσα που χρησιμοποιείται σε μια δεδομένη χώρα.

6. Σε περίπτωση που βρεθεί αντιστοιχία, την κρατάμε προσωρινά.

Με τον παραπάνω τρόπο επεξεργαστήκαμε μαζικά δεδομένα για δεκάδες αστικά κέντρα της Ευρώπης. Η ίδια διαδικασία χρησιμοποιείται και σε μια ειδική διαδραστική διαδικτυακή διεπαφή που θα κυκλοφορήσουμε σύντομα, η οποία θα επιτρέπει την απόκτηση αντίστοιχων δεδομένων για άλλους δήμους.

Μετάφραση: Ανατολή Σταυρουλοπούλου

Το παρόν αποτελεί αποτέλεσμα μετάφρασης από το iMEdD Lab επιλεγμένων ενοτήτων από το πρωτότυπο κείμενο της λεπτομερούς μεθοδολογίας εργασίας, που δημοσιεύθηκε από τον Giorgio Comai (OBC Transeuropa) στη σελίδα του Ευρωπαϊκού Δικτύου για τη Δημοσιογραφία Δεδομένων (EDJNet) στο Medium, υπό τον τίτλο «The messy data sources behind “Mapping diversity”», στις 6 Μαρτίου 2023. Διαβάστε ολόκληρο το μεθοδολογικό σημείωμα, όπου μπορείτε να βρείτε αναλυτικές πληροφορίες σχετικά με τον χειρωνακτικό έλεγχο των δεδομένων από τις ομάδες εργασίας, την ειδική εφαρμογή που αναπτύχθηκε για τον σκοπό αυτό, τη δομή των δεδομένων και τα όσα σχεδιάζονται για το επόμενο διάστημα.

Η διαδικτυακή εφαρμογή MappingDiversity.eu είναι έργο που υλοποιήθηκε υπό τον συντονισμό του OBC Transeuropa για το EDJNet και αρχικά δημοσιεύθηκε τον Μάρτιο 2023. Ο σχεδιασμός και η ανάπτυξή της έγιναν από το Sheldon.studio. Στο έργο συμμετείχαν και συνέβαλαν οκτώ δημοσιογραφικοί οργανισμοί-μέλη του EDJNet, μεταξύ των οποίων και το iMEdD: OBC Transeuropa, BiQdata/Gazeta Wyborcza, Denik Referendum, Divergente, El Orden Mundial, EUrologus/HVG, iMEdD, Voxeurop.

Λογότυπο Άδειας Χρήσης Creative Commons Non Commercial International