8. Digitales Sehen. Computer Vision in der Analyse attischer Vasenbilder
Vom 19. bis 21. November 2021 fand unter der Ägide von Prof. Dr. Salvatore Settis (Scuola Normale Superiore di Pisa) das 9. Walter-de-Gruyter-Seminar der Mommsen-Gesellschaft zum Thema „Emotions and Gestures in Greek and Roman Imagery“ in Wittenberg statt. Dr. Torsten Bendschus stellte in diesem Rahmen ein aktuelles Forschungsprojekt an der Friedrich-Alexander-Universität (FAU) Erlangen-Nürnberg vor, das sich der Entwicklung und Anwendung digitaler Methoden in der Analyse historischer Kunstwerke widmet.
Techniken der Computer Vision einschließlich der digitalen Bilderkennung, welche auf convolutional neural networks und damit sogenannter Künstlicher Intelligenz basiert, haben in den vergangenen Jahren große Fortschritte gemacht und sind mit zunehmender Häufigkeit in unterschiedlichen Formen in unserem Alltag anzutreffen. Auch in den Klassischen Altertumswissenschaften wächst die Anzahl der Projekte, die neueste digitale Methoden für verschiedene fachspezifische Anwendungsbereiche erschließen, so beispielsweise die maschinelle Sprachverarbeitung für die Klassische Philologie, die automatische Typenbestimmung antiker Münzen oder die computergestützte Klassifizierung von Keramikfragmenten.
Das von der FAU Erlangen-Nürnberg im Rahmen der Emerging Fields Initiative geförderte interdisziplinäre Forschungsprojekt „Iconographics. Computational Understanding of Iconography and Narration in Visual Cultural Heritage“ beschäftigt sich in enger fächerübergreifender Zusammenarbeit aus (Digitaler) Kunstgeschichte, Klassischer Archäologie, Christlicher Archäologie und Informatischen Wissenschaften mit der noch offenen Herausforderung, Methoden der Computer Vision für die Analyse historischer Kunstwerke nutzbar zu machen.[1] In den als Fallstudien ausgewählten Ikonografien der beteiligten Disziplinen stehen dabei u. a. Figureninteraktionen, nonverbale Kommunikationsformen und Figurencharakterisierungen durch Attribute als Teile der Bilderzählung im Fokus. Die fachspezifischen Bildcorpora ermöglichen indes nicht nur diachrone wie gattungsübergreifende Vergleiche und zeigen Entwicklungen auf, sondern stellen auf Grund der starken kulturellen Vielfalt und hohen Heterogenität hinsichtlich Datenbeschaffung und -menge, Gattungen, künstlerischen Stilen etc. unterschiedliche Anforderungen an die Entwicklung der Algorithmen.
Die Forschung im Rahmen des Teilprojekts der Klassischen Archäologie unter der Leitung von Prof. Dr. Corinna Reinhardt sei anhand eines Fallbeispiels kurz vorgestellt: Das Führen und Geleiten einer Frau durch einen Krieger ist ein populäres Bildschema in der attisch-schwarzfigurigen Vasenmalerei des 6. und frühen 5. Jhs. v. Chr. Es besteht aus einer weiblichen Figur, die ihr Himation als Schleier vor dem Körper hält (ἀνακάλυψης-Gestus), und einer männlichen Figur in der Vollrüstung eines griechischen Hopliten (Abb. 1). Die nicht näher namentlich identifizierten zentralen Protagonisten sind i. d. R. flankiert von mehreren weiteren Figuren, darunter Jünglinge, Frauen, Speerträger, Bogenschützen und andere Hopliten. Zwar bleibt die Körperhaltung der Frau unverändert, jedoch erzeugen das Gegenüberstehen bzw. Voranschreiten mit rückwärtig gedrehtem Kopf des Kriegers sowie das Ausbleiben von Körperkontakt bzw. das Ergreifen der Frau an Gewand, Rücken oder Hand in den Variationen dieses Schemas unterschiedliche Dimensionen von Dominanz, Bedrohung, Nähe und Distanz, die im Narrativ des Bildes auch als emotionale Elemente verstanden werden können.
Abb. 1: Frauenführungsszene mit zentralem Krieger-Frau-Paar und flankierendem Hopliten (links) sowie Jüngling (rechts) auf einer schwarzfigurigen Halsamphora des Antimenes-Malers in London (British Museum, Inv.-Nr. 1836,0224.10), um 520 v. Chr. (Bild: © The Trustees of the British Museum)
Bereits in der schwarzfigurigen Vasenmalerei wird insbesondere das Schema des Griffs an Hand oder Handgelenk (bekannt als χεῖρ’ ἐπὶ καρπῷ) auch auf andere Szenen angewandt, die durch weitere Bildelemente als mythologische Narrative konkretisiert sind, z. B. das Führen von Polyxene durch Neoptolemos zum Grab des Achilleus oder das Ergreifen der Helena durch Theseus in Anwesenheit des Peirithoos. Während unbenannte Krieger-Frau-Paare in der rotfigurigen Vasenmalerei ab dem Ende des 6. Jhs. v. Chr. kaum noch auftreten, begegnet uns das χεῖρ’ ἐπὶ καρπῷ-Schema dort sowohl in verschiedenen Szenen mythologischer Paare (z. B. Menelaos und Helena, Peleus und Thetis oder Patroklos und Briseis) als auch in Darstellungen profaner Hochzeitsprozessionen, die die Führung der Braut durch den Bräutigam zu dessen Haus darstellen. Die stil- und kontextübergreifende Verwendung eines Bildschemas erzeugt hier Bezüge zwischen unterschiedlichen Bildwerken und half den Betrachtenden, das Verhältnis der abgebildeten Figuren im jeweiligen Vasenbild zu verstehen.
Das Fallbeispiel diente im Projekt auch dem Zweck, grundsätzliche Anforderungen an eine computergestützte Bildanalyse exemplarisch abzuleiten. Konkret sind bei diesem Schema Körperhaltung, Kopf- und Fußausrichtung der Figuren, Körperkontakt sowie Objekte (wie z. B. Waffen) als signifikante Bildelemente herauszustellen. Die digitale Erkennung all dieser visuellen Elemente ist im Rahmen des Projekts erprobt worden. Von grundsätzlicher Bedeutung ist dabei das Trainieren vorhandener Modelle, welche die digitale Bilderkennung anhand einer sehr großen Anzahl moderner Fotografien erlernt haben, auf die spezifischen Charakteristika der antiken Vasenmalerei und ihrer Ikonografien. Diesem Zweck dient einerseits ein digitaler Stiltransfer (Abb. 2) eines umfangreichen verfügbaren Bilddatensets wie COCO (Common Objects in COntext), dessen Bilder (content images) stilistisch Vasenmalereien (style images) angeglichen werden (style transfer learning). Andererseits waren dem Algorithmus zusätzlich eine Vielzahl manueller Annotationen (beschriftete Markierungen von Posen, Objekten, Figuren, …) in Vasenbildern zur Verfügung zu stellen sowie die automatisiert erstellten Resultate zu prüfen und ggf. zu korrigieren (supervised learning). Dabei wurde bewusst auf semantische Annotationen (z. B. die Markierung und Beschriftung einer ganzen Szene mit „Parisurteil“) zu Gunsten einzelner Bildelemente (wie „Schwert“, „Altar“ oder „Krieger“) verzichtet.
Abb. 2: Visualisierung des sogenannten style transfer learning (Grafik: R. Kosti & P. Madhu)
Auf diesem Weg wurde beispielsweise auf Grundlage von über 42.000 Annotationen in circa 11.000 Abbildungen von Vasenbildern eine robuste digitale Objekterkennung entwickelt, deren durchschnittliche Präzision für insgesamt 81 unterschiedliche Objekte bei circa 42% liegt.[2]
Ähnlich geschah das Training einer Posenerkennung für Figuren in antiken Vasenbildern durch das manuelle Setzen von bis zu 18 Gelenkpunkten pro Figur und deren Verbindung zu Posenskeletten.[3] Diese sogenannte pose estimation (Abb. 3) diente als Grundlage für ein testweise projektintern entwickeltes Anwendungstool, das den Nutzerinnen und Nutzern erlaubt, eine beliebige Abbildung hochzuladen, in welcher das Programm automatisch zunächst die Figuren erkennt und anschließend ihre Posen bestimmt (detections), daraufhin aus einem großen Bilderpool Vasenbilder mit ähnlichen Körperhaltungen vorschlägt (retrievals) (Abb. 4).
Abb. 3: Die einzelnen Schritte der digitalen Posenerkennung (Grafik: R. Kosti & P. Madhu)
Abb. 4: Ein mögliches Anwendungstool: die sogenannte pose-based image retrieval application (Screenshot: R. Kosti & P. Madhu)
Anwendungsmöglichkeiten wie diese gehören zu den Potenzialen, mit denen Computer Vision-Modelle bildwissenschaftliche Forschungen unterstützen können. Sie ermöglichen das schnelle Auffinden von signifikanten Bildrelationen mittels eines Vergleichs von Körperhaltungen oder Figurenausrichtungen und –konstellationen, oder aber auch der Kombination verschiedener Bildelemente wie ein Gestus mit einem bestimmten Objekt. Eng verwandte Vasenbilder aus unserem Fallbeispiel der schwarzfigurigen Frauenführungsszenen wie auch das beobachtete stil- und kontextübergreifende Auftreten einer Geste in unterschiedlichen Ikonografien sind beispielsweise demgegenüber in den gängigen textbasierten Bilddatenbanken oft nur sehr umständlich als solche auffindbar, da die jeweiligen Einzelabfragen von den Beschreibungen und Interpretationen der Autorinnen und Autoren abhängig und selbige mitunter sehr unterschiedlich sind. Gerade für Fragestellungen wie beispielsweise zum Verhältnis der Körpersprache sogenannter Beifiguren zu jener der zentralen männlichen und weiblichen Protagonisten einer Bildhandlung in der attischen Vasenmalerei (spiegelnd/verstärkend/steigernd…), die nur anhand einer großen Materialbasis untersucht werden können, werden die Algorithmen in Zukunft gewinnbringend sein.
Die sehr anregende kritische Diskussion im Rahmen des 9. Walter-de-Gruyter-Seminars, für welche ich an dieser Stelle nochmals herzlich danken möchte, bestätigte neben dem großen Potenzial derartiger Techniken aber auch unsere Erfahrungen aus dem Forschungsprojekt: Die Entwicklung digitaler Methoden und ihre jeweilige disziplinäre Einbettung setzt intensiven transdisziplinären Austausch und eingehende theoretische wie methodische Reflexion voraus. Bildmaterial wie das der Klassischen Archäologie stellt ganz eigene Anforderungen (z. B. Erhaltungszustand, Stil, Darstellungskonventionen, die Materialität des Bildträgers, …), sodass eine Beteiligung des Fachgebiets an diesen technischen Entwicklungen unabdingbar ist. Gleichzeitig fordern die neuen digitalen Methoden und ihre Nutzung aber auch eine Auseinandersetzung der Forschenden mit dem Zustandekommen der Resultate und ihrer suggerierten, aber eben nur scheinbaren „Objektivität“, sodass perspektivisch ein reflektierter Umgang mit ihnen zum Profil eines „digital classicist“ gehören wird.
Torsten Bendschus, Erlangen
Anmerkungen:
[1] Informationen zu diesem Projekt finden Sie auf der Projekthomepage: https://www.izdigital.fau.de/forschung/efi-iconographics/. Näheres zum Teilprojekt der Klassischen Archäologie erfahren Sie auf der Institutshomepage der Klassischen Archäologie an der FAU Erlangen-Nürnberg: https://www.klassischearchaeologie.phil.fau.de/projekt-iconographics/. An diesem transdisziplinären Forschungsprojekt sind Prof. Dr. Peter Bell und Dirk Suckow (Kunstgeschichte), Prof. Dr. Corinna Reinhardt und Dr. Torsten Bendschus (Klassische Archäologie), Prof. Dr. Ute Verstegen und Lara Mührenberg (Christliche Archäologie) sowie Prof. Dr.-Ing. habil. Andreas Meier, Dr.-Ing. Vincent Christlein, Dr. Ronak Kosti und Prathmesh Madhu (Informatik) beteiligt.
[2] P. Madhu et al., Deep Learning based Attribute Representation in Ancient Vase Paintings, in: Digital Humanities 2020 – Intersections/Carrefours 2020 (Ottawa 2020).
[3] P. Madhu et al., Enhancing Human Pose Estimation in Ancient Vase Paintings via Perceptually-grounded Style Transfer Learning (eingereicht).