Τρόποι και εργαλεία για την ανάγνωση και την εξαγωγή δεδομένων από αρχεία PDF, με διαφορετικά επίπεδα δυσκολίας.
Κεντρική εικόνα: Δημιουργήθηκε με τη χρήση ChatGPT
Στον κόσμο της υπολογιστικής δημοσιογραφίας, τα αρχεία PDF είναι βραχνάς για πολλούς που προσπαθούν να δώσουν δομή σε προηγουμένως αδόμητα δεδομένα. Είναι η ευκολία με την οποία τα αρχεία PDF εσωκλείουν διαφορετικές μορφές δεδομένων που τα κάνει τόσο θελκτικά αλλά και τόσο δύσκολα στον χειρισμό. Συλλέξαμε τρόπους και εργαλεία για την ανάγνωση αρχείων PDF και την εξαγωγή δεδομένων από αυτά, για διαφορετικούς βαθμούς δυσκολίας.
Ένα δημόσια διαθέσιμο workshop για να κάνετε άφοβα ρεπορτάζ για την τεχνητή νοημοσύνη

Το Pulitzer Center ξεκίνησε ένα ανοιχτό διαδικτυακό πρόγραμμα που βοηθά τους δημοσιογράφους να κατανοήσουν την τεχνολογική εξέλιξη γύρω από την τεχνητή νοημοσύνη.
Τι είναι τα αρχεία PDF;
Η μορφή φορητού εγγράφου (Portable Document Format – PDF), είναι μορφή αρχείου που διατηρεί οτιδήποτε και αν περιλαμβάνει (χρώματα, γραμματοσειρές, γραφικά κ.α.) σε οποιαδήποτε εφαρμογή και αν διαβαστεί. Το δυνατό σημείο του PDF είναι η ευκολία με την οποία μπορεί να διαμοιραστεί, να ανοιχτεί, να επεξεργαστεί και, ιδίως, να τυπωθεί, ανεξαρτήτως προγράμματος επεξεργασίας, ενώ, στις περισσότερες περιπτώσεις, τα αρχεία PDF χρησιμοποιούνται λόγω της ακρίβειάς τους στην εκτύπωση.
Όμως, δεν είναι εύκολα μηχαναγνώσιμα. Καθώς ο σκοπός τους είναι η ανάγνωση με το ανθρώπινο μάτι και η ακριβής εκτύπωση, για τον υπολογιστή, τα στοιχεία τους μεταφράζονται ως αυτόνομα σχήματα με χρώματα, τοποθετημένα σε έναν καμβά βάσει συντεταγμένων, και όχι ως λέξεις ή γράμματα με σημασιολογικό νόημα. Συμπερασματικά, η μετατροπή των δεδομένων των αρχείων PDF, από μια μορφή σε άλλη είναι δύσκολη και τα αποτελέσματα ποικίλουν.
Εξακολουθεί να είναι ένας διαδεδομένος τρόπος αποθήκευσης αρχείων και χρησιμοποιείται ως κύρια μορφή διάθεσης κυβερνητικών, δημόσιων και εταιρικών εγγράφων και εκθέσεων. Για τους ερευνητές δημοσιογράφους, τα στοιχεία που περιλαμβάνουν τα PDF –τα κείμενα, οι πίνακες με δεδομένα, οι εικόνες– συχνά είναι απαραίτητα για το ρεπορτάζ. Η εξαγωγή τους, όμως, μπορεί να αποδειχθεί δοκιμασία μεγαλύτερη και από το ίδιο το ρεπορτάζ. Δεν είναι λίγες οι φορές ή οι χώρες, όπου «ανοίγουμε δεδομένα» για τους δημόσιους φορείς σημαίνει γεμίζουμε το Ίντερνετ με αρχεία PDF.
Επίπεδο δυσκολίας: Εύκολο
Η πλατφόρμα Tabula
Ένας από τους ευκολότερους τρόπους να ανακτήσουμε οποιαδήποτε πληροφορία από αρχεία PDF είναι η εξαγωγή πινάκων με τη χρήση της πλατφόρμας Tabula για τον υπολογιστή. Το Tabula είναι ένα εργαλείο απελευθέρωσης δεδομένων που βρίσκονται μέσα πίνακες εσωκλειώμενους σε αρχεία PDF με περίπλοκη δομή.
Αποτελεί γέννημα του δημοσιογραφικού κόσμου για χάρη του δημοσιογραφικού κόσμου: Έχει δημιουργηθεί από τον δημοσιογράφο Τζέρεμι Μπ. Μέριλ (Jeremy B. Merrill) και τους προγραμματιστές Μάικ Τίγκας (Mike Tigas) και Μάνιουελ Αριστράν (Manuel Aristarán) με την υποστήριξη των ProPublica, La Nación DATA, Knight-Mozilla OpenNews και The New York Times.
Το λογισμικό αυτό δεν χρειάζεται γνώσεις προγραμματισμού και μπορεί να επιφέρει γρήγορα αποτελέσματα για μικρούς πίνακες που βρίσκονται σε μια σελίδα. Είναι σημαντικό να θυμάστε πως, για να χρησιμοποιήσετε το εργαλείο, πρέπει να έχετε εγκατεστημένη στον υπολογιστή σας τη γλώσσα προγραμματισμού Java στη νεότερή της έκδοση.
Aφού κατεβάσετε το Tabula στον υπολογιστή σας, απλώς το ανοίγετε με διπλό κλικ.
Το Tabula επιτρέπει να ανέβει ολόκληρο έγγραφο στην πλατφόρμα και ύστερα να επιλεχθεί ο ανάλογος πίνακας. Η χρήση είναι αρκετά απλή και παρατίθεται σε απλά βήματα από την ίδια την πλατφόρμα του λογισμικού:
- Ανεβάστε ένα αρχείο PDF που περιέχει έναν πίνακα δεδομένων.
- Μεταβείτε στη σελίδα που θέλετε και επιλέξτε τον πίνακα κάνοντας κλικ και σύροντας για να σχεδιάσετε ένα πλαίσιο γύρω από τον πίνακα. Βοηθάει να αφήνετε αρκετό περιθώριο γύρω από τον πίνακα που σας ενδιαφέρει.
- Κάντε κλικ στο «Preview & Export Extracted Data». Το Tabula θα προσπαθήσει να εξαγάγει τα δεδομένα και θα σας εμφανίσει μια προεπισκόπηση. Ελέγξτε τα δεδομένα για να βεβαιωθείτε ότι φαίνονται σωστά. Εάν λείπουν δεδομένα, μπορείτε να επιστρέψετε και να προσαρμόσετε την επιλογή σας.
- Κάντε κλικ στο κουμπί «Export».
Τα δεδομένα αποθηκεύονται στον υπολογιστή σε μορφή αρχείου διαχωρισμένων τιμών με κόμμα (Comma Separated Values –CSV) και είναι εύκολα αναγνώσιμα μέσω προγραμμάτων υπολογιστικών φύλλων.
Επίπεδο δυσκολίας: Μέτριο
Οι βιβλιοθήκες pdftotext και tabula σε Python
Εδώ, μια εξοικείωση με κανόνες προγραμματισμού είναι απαραίτητη, για να μπορέσει κανείς να χρησιμοποιήσει τις παρακάτω μεθόδους.
Ο ευκολότερος τρόπος για εξαγωγή δεδομένων είναι μέσω εργαλείων που χρησιμοποιούν το terminal του υπολογιστή, με σκοπό να μετατρέψουν ολόκληρο το αρχείο PDF σε απλό κείμενο (.txt). Για παράδειγμα, το pdftotext είναι μία απλή βιβλιοθήκη της Python, η οποία μπορεί να εξάγει κομμάτια από κείμενο με μόνο λίγες γραμμές κώδικα.
Σε αυτό το Google Colab notebook παρουσιάζουμε μερικούς τρόπους για να εξάγετε κείμενο από PDF, με τη χρήση της βιβλιοθήκης pdftotext.
Το Google Colab, είναι ένα περιβάλλον ανάπτυξης κώδικα που βασίζεται σε τεχνολογία cloud και θυμίζει τα Jupyter Notebooks. Τα δύο αυτά προγράμματα λειτουργούν σαν διαδραστικά σημειωματάρια, δηλαδή αποτελούν διαδραστικά έγγραφα που περιέχουν οργανωμένα, εκτελέσιμα κελιά, τα οποία υποστηρίζουν διαφορετικούς τύπους γραφής. Ένα κελί μπορεί να περιέχει κείμενο, ένα άλλο να περιλαμβάνει κώδικα σε Python, ενώ ένα τρίτο να εμφανίζει την οπτικοποίηση που δημιουργήσατε από τον πίνακα δεδομένων που μόλις επεξεργαστήκατε, και όλα αυτά να ζουν σε ένα κοινό έγγραφο.
Σε περίπτωση που είστε εξοικειωμένοι με τη χρήση κώδικα και επιθυμείτε να δοκιμάσετε τις δυνάμεις σας, το Tabula επίσης διατίθεται ως βιβλιοθήκη της Python και επιτρέπει την εξαγωγή δεδομένων και μέσω κώδικα.
Στο αυτό το Google Colab notebook μπορείτε να δείτε μια απλή εξαγωγή πίνακα σε μορφή αρείου CSV.
Με τη χρήση άλλων βιβλιοθηκών της Python, όπως η pandas, μπορείτε να επεξεργαστείτε τα πλέον μηχανανγώσιμα δεδομένα.
Επίπεδο δυσκολίας: (Πιο) Δύσκολο
H βιλιοθήκη natural-pdf σε Python
Το natural-pdf είναι μία βιβλιοθήκη, που δημιούργησε ο Τζόναθαν Σόμα (Jonathan Soma), Καθηγητής, με έδρα Knight, στη Σχολή Δημοσιογραφίας του Πανεπιστημίου Κολούμπια στη Νέα Υόρκη. Η βιβλιοθήκη natural-pdf, που αποτελεί μετεξέλιξη του pdfplumber του αρχισυντάκτη δεδομένων των New York Times, Τζέρεμι Σίνγκερ Βάιν (Jeremy Singer Vine), επιτρέπει την περαιτέρω εξαγωγή δεδομένων από αρχεία PDF, με φυσικό τρόπο.
Σε αυτό το Google Colab notebook θα σας δείξουμε πώς να εξάγετε κείμενο και πίνακες από αρχεία PDF.
Όμως, η βιβλιοθήκη αυτή μπορεί να κάνει πολλά παραπάνω και θα βρείτε τον πλήρη οδηγό εδώ.
