Μπορεί μια γελοιογραφία να «γεννηθεί» από έναν αλγόριθμο; Εάν ναι, τι σημαίνει αυτό για το μέλλον της σάτιρας και του σχολίου; Ένας ερευνητής τεχνητής νοημοσύνης και τέσσερις σκιτσογράφοι μιλούν στο iMEdD. Οι τελευταίοι εξηγούν γιατί, μετά από πειραματισμό, τελικά επέλεξαν να την αφήσουν, προς το παρόν, εκτός κάδρου.
Ερευνώντας την Τεχνητή Νοημοσύνη: τι βρίσκεται πέρα από τον αλγόριθμο
Η Τεχνητή Νοημοσύνη αποτελεί πλέον αναπόσπαστο κομμάτι της καθημερινότητάς μας, όμως το πραγματικό κόστος το πληρώνουν κάποιοι άλλοι. Στο συνέδριο Dataharvest, δημοσιογράφοι παρουσίασαν τις έρευνές τους και μοιράστηκαν συμβουλές για το πώς μπορεί κανείς να ερευνήσει σε βάθος αυτήν την τεχνολογία.
Τον Μάρτιο του 2025, η Open AI ανακοίνωσε την αναβάθμιση των δυνατοτήτων του ChatGPT (GPT-4.0) για τη δημιουργία εικόνων και σκίτσων. Ήταν η πρώτη φορά, επίσης, που ένας απλός χρήστης μπορούσε να δημιουργήσει εύκολα «σατιρικές εικόνες» με πρόσωπα πολιτικών.
Σε βίντεο της εταιρείας στο YouΤube, ανέφερε πως «ενσωματωμένη στο ChatGPT είναι η ιδέα ενός καλλιτέχνη, ο οποίος συνομιλεί μαζί σου».
Λίγες ημέρες αργότερα, τα social media κατακλείστηκαν από εικόνες, που θύμιζαν το στυλ του φημισμένου ιαπωνικού στούντιο κινουμένων σχεδίων Ghibli. Το «Ghibli effect» εκτόξευσε τον μέσο όρο των εβδομαδιαίων ενεργών χρηστών του ChatGPT, που γρήγορα ξεπέρασαν το όριο των 150 εκατομμυρίων.
Ποιος, όμως, είναι ο καλλιτέχνης, όταν η δημιουργία ενός σκίτσου προκύπτει μέσα από έναν «διάλογο» με μια μηχανή; Ποια ζητήματα εγείρει η χρήση της; Το iMEdD συνομίλησε με σκιτσογράφους που πειραματίζονται με εργαλεία τεχνητής νοημοσύνης, αναζητώντας τι σηματοδοτεί η παραγωγή εικόνας μέσω ΑΙ για το μέλλον της δουλειάς τους.
Tα τεχνολογικά άλματα προς την παραγωγή εικόνας μέσω ΑΙ
Τα πρώτα εργαλεία που βασίζονταν σε νευρωνικά δίκτυα μετατροπής κειμένου σε εικόνα (text-to-image neural networks), εμφανίστηκαν το 2021. Έκτοτε, έγιναν ιδιαίτερα δημοφιλή, τόσο στο ευρύ κοινό όσο και μεταξύ επαγγελματιών.
Το ότι φτάσαμε στο σημείο να δημιουργούμε εικόνες τύπου Studio Ghibli, χρησιμοποιώντας εργαλεία όπως το ChatGPT, «ήταν μια σειρά από πολλά τεχνολογικά άλματα», λέει στο iMEdD o Ιωάννης Σιγλίδης, μηχανικός και μεταδιδακτορικός ερευνητής τεχνητής νοημοσύνης στο Pioneer Center for AI στην Κοπεγχάγη.
Το 2019, μαζί με τον καλλιτέχνη κόμικς, Ιλάν Μανουάχ (Ilan Manouach), δημιούργησαν έναν αλγόριθμο, βασισμένο σε μοντέλα τεχνητής νοημοσύνης, που κάθε μέρα, επί τρία χρόνια (2020-2023), δημοσίευε «συνθετικά» σκίτσα στον λογαριασμό Neural Yorker στο X (πρώην Twitter). «[Τότε] εμπνεόμασταν από το μέλλον που βλέπαμε να σκαριφούν αυτά τα πρώιμα μοντέλα. Αυτό που δεν μπορούσαμε να προβλέψουμε ήταν η ταχύτητα της προόδου και της αύξησης της δημοτικότητάς τους», λέει ο Σιγλίδης.
Πριν από μόλις έξι χρόνια, οι δυνατότητες των μοντέλων παραγωγής εικόνας, γνωστά ως GANs (Generative Adversarial Networks), ήταν ακόμη πολύ περιορισμένες. Τα άλματα που έγιναν μέχρι τη σημερινή ευκολία του prompting από τον απλό χρήστη ήταν πολλά.
«Πρώτα, τα μοντέλα διάχυσης (diffusion models) κατάφεραν να κάνουν πρόοδο προς αυτό που τώρα ονομάζουμε γενίκευση στη σύνθεση (compositional generalization), όπου μπορούσαν να συνθέτουν εικόνες με αντικείμενα που δεν είχαν υπάρξει ή δεν είχαν ιδωθεί ποτέ μαζί στην ίδια εικόνα, όπως για παράδειγμα ένα άλογο στο φεγγάρι», λέει ο Σιγλίδης.
Το GPT-4o έφερε την επανάσταση. Δεν εφαρμόζει απλά φίλτρα στην εικόνα. Μπορεί να εντοπίσει τα κύρια αντικείμενά της να την ανασυνθέσει. «Κοινώς, η σούπα των πίξελ έγινε από χυλός, ράμεν».
Yστερα, βελτιώθηκε ο τρόπος που ανταποκρίνονται στις εντολές των χρηστών (prompts). Το GPT-4o —που παράγει σήμερα εικόνες σαν αυτές στο στυλ του Studio Ghibli— έφερε την επανάσταση. Δεν εφαρμόζει απλά φίλτρα στην εικόνα. Μπορεί να εντοπίσει τους κύριους χαρακτήρες και να «καταλάβει» ποια είναι τα κύρια αντικείμενα της εικόνας, προκειμένου να την ανασυνθέσει.
«Κοινώς, η σούπα των πίξελ έγινε από χυλός, ράμεν», λέει, κάνοντας μια τριπλή αναφορά στο Studio Ghubli, στη μεταφυσική του φιλοσόφου των μαθηματικών και της γλώσσας Λούντβιχ Βίτγκενσταϊν (Ludwig Wittgenstein), όπου ο εξωτερικός κόσμος είναι συνεχής και δεν έχει διακριτές κατηγορίες, αλλά και στη φαινομενολογία της υπολογιστικής όρασης (computer vision). «Όλες οι εικόνες σε ένα γενετικό μοντέλο ξεκινούν σαν θόρυβος και τα γενετικά μοντέλα μαθαίνουν πώς να σχηματίζουν σε αυτόν δομή, νόημα», σημειώνει. «Χυλός» σημαίνει πως δεν χρειάζεται τα μοντέλα να καταλαβαίνουν πολύ καλά τι περιέχει η εικόνα-σούπα. Αντιθέτως, «ράμεν» σημαινει πως ο αλγόριθμος δημιουργεί πολύ διακριτά αντικείμενα (όπως έχει, αλλωστε, και η σούπα ράμεν), αφού πρώτα φτάσει στο λεγόμενο «decomposition» των δεδομένων.
Απειλείται η γελοιογραφία από το ΑΙ;
Τον Δεκέμβριο του 2022, η Ένωση Αμερικανών Σκιτσογράφων (Association of American Editorial Cartoonists – AAEC) απαγόρευσε στα μέλη της, που έκαναν αίτηση για κάποιο βραβείο, την υποβολή υποψήφιων εικόνων οι οποίες έχουν παραχθεί με τεχνητή νοημοσύνη.
«Σε ό,τι αφορά την πολιτική γελοιογραφία, όχι. [Η τεχνητή νοημοσύνη] δεν αποτελεί απειλή μέχρι στιγμής», ανέφερε στο iMEdD o KAK (Πατρίκ Λαμασούρ), πρόεδρος από το 2019 του δικτύου σκιτσογράφων Cartooning for Peace.
Έχοντας πειραματιστεί με διάφορα ΑΙ εργαλεία παραγωγής εικόνας για σκίτσα του στην εφημερίδα L’Opinion και στο περιοδικό Franc Tireur, κατέληξε στο συμπέρασμα πως η τεχνητή νοημοσύνη δεν μπορεί να υποκαταστήσει τον σκιτσογράφο.
«Όταν θέλεις να δημιουργήσεις ένα καλό πολιτικό σκίτσο, αυτό συνήθως αφορά ένα γεγονός που μόλις συνέβη. Στις περισσότερες περιπτώσεις, το AI δεν το γνωρίζει», λέει. Ακόμα κι αν καταφέρει να «πιάσει» την επικαιρότητα, συμπληρώνει, η τεχνητή νοημοσύνη θα πρέπει να «σκεφτεί» μια καλή ιδέα για ένα σκίτσο και φυσικά να βάλει και λίγο χιούμορ.
Χαρακτηριστικό παράδειγμα των περιορισμών της τεχνητής νοημοσύνης είναι ένα πρόσφατο σκίτσο που σχεδίασε ζητώντας από το Adobe Firefly, μια ακόμη μηχανή δημιουργίας εικόνων, που επιτρέπει στους χρήστες να εισαγάγουν μια περιγραφή κειμένου, ώστε να δημιουργήσουν εικόνες. Στο prompt, ζήτησε να δημιουργηθεί ένα σκίτσο σχετικά με τον Ντόναλντ Τραμπ και την πρότασή του οι ΗΠΑ να πάρουν τον έλεγχο της Λωρίδας της Γάζας. H εικόνα που προέκυψε, λέει, ήταν γενική και του χρησίμευσε απλώς ως ιδέα, για να σχεδιάσει ο ίδιος το σκίτσο από την αρχή.
Αυτό που απειλεί τη γελοιογραφία, σημειώνει, είναι η πτώση της κυκλοφορίας των εφημερίδων. «Πρέπει να βρούμε ένα νέο επιχειρηματικό μοντέλο […] Συνδυάστε το με το γεγονός ότι, ως παγκόσμια τάση, οι άνθρωποι τείνουν να διαβάζουν λιγότερο [τις ειδήσεις] και τείνουν περισσότερο να τις ακούν ή να τις βλέπουν».
Λογοκλοπή με ένα… prompt
Τον περασμένο Μάιο ο πολιτικός γελοιογράφος από τη Νικαράγουα, Πέδρο Χ. Μολίνα (Pedro X. Molina), κατήγγειλε στον λογαριασμό του στο Facebook την αναπαραγωγή από εργαλεία τεχνητής νοημοσύνης δικών του σκίτσων και γελοιογραφιών συναδέλφων του.
Εξόριστος πλέον στις ΗΠΑ, ο Μολίνα εγκατέλειψε τη Νικαράγουα εξαιτίας του καθεστώτος Ορτέγκα το 2018. Παρ’ όλα αυτά, συνεχίζει να εργάζεται ως σκιτσογράφος και εικονογράφος για την ανεξάρτητη εφημερίδα Confidencial.digital στα ισπανικά, καθώς και για την πλατφόρμα Tinyview.com και το Tribune Content Agency στα αγγλικά.
Η παρέμβασή του στα social media ανέδειξε ακόμα μία απειλή: την ακούσια ή σκόπιμη χρήση σκίτσων που αναδημιουργήθηκαν, χωρίς την άδεια των δημιουργών.
«Χρησιμοποιούσαν την τεχνητή νοημοσύνη για να αναδημιουργήσουν αυτές τις γελοιογραφίες σε άλλο στυλ», αναφέρει ο Μολίνα στο iMEdD. «Αυτό ευτελίζει το έργο, αλλά αφήνει, επίσης, τους πραγματικούς δημιουργούς χωρίς το κίνητρο, τον χώρο ή την ευκαιρία να συνεχίσουν να κάνουν αυτό που κάνουν και να ζήσουν από αυτό».
Τα σκίτσα του Μολίνα είχαν τροποποιηθεί μεν ελαφρά μέσω εργαλείων τεχνητής νοημοσύνης, έφεραν όμως άλλη υπογραφή και είχαν αναρτηθεί από τους λογαριασμούς «AmeriSatire» και «ToonAmerica» στο TikTok και στο YouTube.
Οι δημιουργοί υπέβαλαν από κοινού αίτημα στα μέσα κοινωνικής δικτύωσης να τα «κατεβάσουν» και σύντομα τα παραποιημένα σκίτσα εξαφανίστηκαν. Εκείνοι, ωστόσο, ξεκίνησαν να σκέφτονται πώς να κινηθούν νομικά.
Έχω χρησιμοποιήσει το ΑΙ, για να παράξω εικόνες, για να δω πώς δουλεύει […] Ειδικά, όμως, για τα δικά μου σχέδια, να του πω “πες μου μια αστεία ιδέα” δεν θέλω να το κάνω, γιατί μετά μπαίνεις σε μια διαδικασία που παραχωρείς, στην ουσία, σε μια μηχανή αυτό που σε κάνει άνθρωπο, αυτό που σε κάνει ξεχωριστό.
Αντώνης Βαβαγιάννης, σκιτσογράφος στο News247
H κριτική των δημιουργών όσον αφορά στη λογοκλοπή δεν είναι κάτι νέο.
Ήδη από τις πρώτες ημέρες της παρουσίασης των νέων δυνατοτήτων του ChatGPT ο Μπραντ Λάιτκαπ (Brad Lightcap), διευθύνων σύμβουλος της OpenAI, είχε δηλώσει στη Wall Street Journal: «Σεβόμαστε τα δικαιώματα των καλλιτεχνών όσον αφορά τον τρόπο με τον οποίο γίνεται η παραγωγή και έχουμε εφαρμόσει πολιτικές που μας εμποδίζουν να παράγουμε εικόνες οι οποίες μιμούνται άμεσα το έργο οποιουδήποτε εν ζωή καλλιτέχνη».
Ανάμεσα στους δημιουργούς που είναι επιφυλακτικοί απέναντι στη χρήση της τεχνητής νοημοσύνης, λόγω του κινδύνου λογοκλοπής, είναι και ο Αντώνης Βαβαγιάννης, σκιτσογράφος στο ελληνικό ενημερωτικό μέσο, News247, και δημιουργός της δημοφιλούς σειράς βιβλίων κόμικς, Κουραφέλκυθρα, με περισσότερους από 80.000 followers στο Instagram.
«Έχω χρησιμοποιήσει το ΑΙ, για να παράξω εικόνες, για να δω πώς δουλεύει. Το χρησιμοποίησα, για να ψάξω πληροφορίες. Ειδικά, όμως, για τα δικά μου σχέδια, να του πω “πες μου μια αστεία ιδέα” δεν θέλω να το κάνω, γιατί μετά μπαίνεις σε μια διαδικασία που παραχωρείς στην ουσία σε μια μηχανή αυτό που σε κάνει άνθρωπο, αυτό που σε κάνει ξεχωριστό», αναφέρει στο iMEdD. «Αυτό το κάνω μια ζωή: να βρίσκω ιδέες, να κάνω εικόνες. Εάν είναι να το παραχωρήσω στο ΑΙ, τότε είναι σαν να χάνω ένα μεγάλο κομμάτι της χαράς της ζωής που είναι για μένα η δημιουργία και η δημιουργικότητα».
Copyright: τα όρια της «συνθετικής» δημιουργίας
Ο Τζο Ντουορέτσκι (Joe Dworetzky), σκιτσογράφος στην τοπική αμερικανική εφημερίδα Bay City News, ασχολήθηκε με την ερευνητική δημοσιογραφία, το δικαστικό ρεπορτάζ και το σκίτσο ύστερα από 35 χρόνια καριέρας ως δικηγόρος.
Τα πρώτα τέσσερα χρόνια παρήγαγε επί το πλείστο σκίτσα για κοινωνικά ζητήματα, όπως η αστεγία και κάλυπτε την τεχνολογική βιομηχανία στο Σαν Φρανσίσκο. Το 2024, όταν κάλυπτε τις προεκλογικές εκστρατείες των Δημοκρατικών και των Ρεπουμπλικανών, άρχισε να συμπεριλαμβάνει πολιτικά σκίτσα στα κείμενά του.
Πολύ γρήγορα, χρησιμοποίησε όλα τα διαθέσιμα εργαλεία παραγωγής εικόνας, κυρίως ως έμπνευση για σκίτσα. Στο Leonardo AI «ανέβασε» 40 με 50 σχέδιά του στο ίδιο στυλ και πειραματίστηκε με το prompting, κάνοντας αρκετές προσαρμογές. Με το DALL-E δημιούργησε μια σειρά από σκίτσα, που συνόδευαν το κείμενό του για την κάλυψη της δικαστικής διαμάχης μεταξύ του Ίλον Μάσκ και του Σαμ Άλντμαν, τα οποία έφεραν την σήμανση για τον αναγνώστη πως ήταν δημιουργημένα με ΑΙ.
«Έμεινα έκπληκτος με το πόσο γρήγορα, βολικά και, νομίζω, πραγματικά καλοφτιαγμένα ήταν κάποια από τα σκίτσα, που λάμβανα από τις διάφορες πλατφόρμες», λέει στο iMEdD.
Ταυτόχρονα, ένιωσε πως το αποτέλεσμα δεν εκπροσωπούσε πλήρως τη δουλειά του. «Από μια άποψη, αισθάνομαι λίγο σαν να μην είναι πραγματικά η δουλειά μου. Είναι σαν να περνάει η δουλειά κάποιου άλλου. Προσπαθώ να είμαι ξεκάθαρος πότε χρησιμοποιώ την τεχνητή νοημοσύνη», λέει.
Έμεινα έκπληκτος με το πόσο γρήγορα, βολικά και, νομίζω, πραγματικά καλοφτιαγμένα ήταν κάποια από τα σκίτσα, που λάμβανα από τις διάφορες πλατφόρμες. Από μια άποψη, αισθάνομαι λίγο σαν να μην είναι πραγματικά η δουλειά μου.
Τζο Ντουορέτσκι, σκιτσογράφος στην τοπική αμερικανική εφημερίδα Bay City News
Όπως εξηγεί, αυτή τη στιγμή υπάρχουν δικαστικές υποθέσεις, όπως αυτή των New York Times, που θα δημιουργήσουν δικαστικό προηγούμενο σχετικά με το copyright και τη χρήση του περιεχομένου των μέσων ενημέρωσης για την «εκπαίδευση» της τεχνητής νοημοσύνης.
Σημειώνοντας ότι απλά εκφράζει τη γνώμη του για το θέμα, λέει: «Υπάρχουν δύο ξεχωριστά ζητήματα. Το ένα είναι αν η λήψη των αρχικών δεδομένων και η χρήση τους για την τροφοδότηση της τεχνητής νοημοσύνης (τα δεδομένα εκπαίδευσης, δηλαδή), εάν αυτό από μόνο του αποτελεί ζήτημα πνευματικών δικαιωμάτων. Και, δεύτερον, εάν ένα έργο που παράγεται από την τεχνητή νοημοσύνη και έχει το ύφος κάποιου άλλου ανθρώπου, μπορεί επίσης να αποτελεί παραβίαση πνευματικών δικαιωμάτων. Και νομίζω ότι αυτά είναι δύο διαφορετικά ζητήματα».
Όπως αναφέρει, η δεύτερη περίπτωση είναι περισσότερο πολύπλοκη. «Αυτό που θα προκύψει, νομίζω ότι θα είναι μια πολύ δύσκολη υπόθεση πνευματικών δικαιωμάτων. Όπως καταλαβαίνω τον τρόπο λειτουργίας της τεχνητής νοημοσύνης, δεν παράγει σκίτσα με την αντιγραφή όσων υπάρχουν. Είναι περισσότερο σαν να κοιτάζει τι υπάρχει εκεί και να μαθαίνει ποιες είναι οι αρχές της γελοιογραφίας και στη συνέχεια το αναπαράγει με τον δικό του τρόπο».
Άλλο γελοιογραφία, άλλο meme
Η δημιουργία γελοιογραφιών, ακόμα και με εργαλεία τεχνητής νοημοσύνης, δεν είναι απλή, ούτε αυτόματη, υπόθεση. Είναι αποτέλεσμα περισσότερων διεργασιών, που καλείται να κάνει ένας σκιτσογράφος: έρευνα για την επικαιρότητα, σύνθεση, επιλογή της εστίασης και χιούμορ.
Οι δημοσιογράφοι και σκιτσογράφοι, που υπογράφουν τα έργα τους, λέει στο iMEdD o Πέδρο Μολίνα, παίζουν καθοριστικό ρόλο στην κατανόηση της σύγχρονης, συχνά χαοτικής, πραγματικότητας, καθώς η γελοιογραφία συνοψίζει και αναλύει την επικαιρότητα με χιούμορ.
Σχεδιάζει τουλάχιστον έντεκα σκίτσα την εβδομάδα, καθένα από τα οποία χρειάζεται ώρες έρευνας, πειραματισμού και σχεδιασμού για να ολοκληρωθεί.
«Νέοι άνθρωποι έρχονται και μου λένε: “Α, σχεδιάζεις memes” […] Απλώς δεν ξέρουν τη διαφορά. Γι’ αυτό, πρέπει να τους εκπαιδεύσουμε, να τους βοηθήσουμε να καταλάβουν ποια είναι η διαφορά», λέει.
«Εμείς είμαστε οι fact-checkers […] Διότι, εάν δεν μπορείς να εμπιστευτείς κανέναν, τότε είσαι αναγκασμένος να πιστέψεις οτιδήποτε —ή απολύτως τίποτα. Και αν τίποτα δεν είναι αληθινό, τότε για τίποτα δεν αξίζει να αγωνίζεσαι».