Kunstgeschichte unter KI-Druck?

Eine methodenkritische Analyse des Microsoft-Befunds und das Modell VERA-VM

Andreas Gregor Hahn (Louis de la Sarre) — VERA-VM / vera-vm.de, 2026

Englische Fassung (Zenodo, peer-zitierfähig, DOI): Art History Under AI Pressure? A Methodological Critique of the Microsoft Study and the VERA-VM Framework →


I. Der Befund und seine Tragweite

Im Juli 2025 veröffentlichte eine Forschungsgruppe um Kiran Tomlinson von Microsoft Research eine Studie unter dem Titel Working with AI: Measuring the Applicability of Generative AI to Occupations. Ihr Kernbefund schlug rasch Wellen: Historiker zählen zu jenen Berufsgruppen, deren Tätigkeitsspektrum am stärksten mit den Fähigkeiten generativer KI überlappt. Mit einem AI Applicability Score von 0,48 und einem Coverage-Wert von 0,91 — was bedeutet, dass 91 Prozent der typischen Tätigkeiten eines Historikers mit den Fähigkeiten aktueller Sprachmodelle korrespondieren — rangieren Historiker auf dem zweiten Platz hinter Übersetzern, noch vor Autoren, Politikwissenschaftlern und Managementanalysten.

Was bedeutet das für Kunsthistoriker, also für eine Disziplin, die Textarbeit mit Bildanalyse verbindet, hermeneutische Methodik mit visueller Urteilskraft? Und lässt sich aus diesem Befund etwas ableiten, das über die reflexartige Debatte zwischen Alarmismus und Beschwichtigung hinausgeht?

Dieser Beitrag versucht, den Befund ernst zu nehmen, weder als Bedrohungsszenario, das Kunsthistoriker in die Defensive treibt, noch als medialen Lärm, den man getrost ignorieren kann. Er fragt stattdessen, was an dem Befund methodisch belastbar ist, wo seine Grenzen liegen und — das ist die eigentliche These — warum das ungelöste Problem nicht die KI selbst ist, sondern die fehlende methodische Kontrolle über ihre Outputs. In diesem Zusammenhang wird das System VERA-VM vorgestellt, das nicht als Schutzwall gegen KI konzipiert ist, sondern als strukturelle Antwort auf ein epistemisches Problem, das durch KI sichtbar wird, ohne von ihr verursacht zu werden.


II. Was die Studie misst — und was sie dabei übersieht

Die methodische Grundlage der Microsoft-Studie ist die O*NET-Datenbank des U.S. Department of Labor, die Berufsbilder in standardisierte Tätigkeitsbeschreibungen zerlegt. Diese werden in drei Hierarchiestufen abstrahiert: Detailed Work Activities, Intermediate Work Activities und General Work Activities. Mit zunehmender Abstraktionsstufe verschwinden die berufsspezifischen Merkmale zugunsten allgemeiner Formulierungen. Ein Historiker erscheint auf der höchsten Ebene als jemand, der „Informationen verarbeitet“, „Dokumente analysiert“ und „Wissen kommuniziert“ — Tätigkeiten, die gut mit den Stärken generativer Sprachmodelle übereinstimmen.

Eine präzise Gegenkritik formuliert Joanna Phillips in den Transactions of the Royal Historical Society (Dezember 2025). Sie zeigt, dass die Studie Historiker durch die Wahl der Abstraktionsebene faktisch de-skilliert, also ihrer Fachspezifika beraubt. Was einen Historiker ausmacht — Quellenkritik im philologisch-historischen Sinne, Kontextualisierung von Überlieferungsbrüchen, die Entwicklung originärer Deutungshypothesen aus lückenhaftem Material — das erscheint in der O*NET-Hierarchie nicht als eigenständige Kategorie, sondern wird auf die Ebene von „Informationen sammeln“ und „Texte auswerten“ reduziert. Genau diese allgemeinen Tätigkeiten kann KI plausibel simulieren.

Dieser Einwand trifft für Kunsthistoriker noch stärker zu. Denn die kunsthistorische Arbeit umfasst über die allgemeine Textarbeit hinaus einen visuellen Erkenntnisakt, der in keiner Datenbank standardisierbar ist: die argumentierte Deutung eines Bildes aus der Spannung zwischen Form, Kontext und Theorie heraus. Der Coverage-Wert von 0,91 misst nicht, wie gut KI kunsthistorische Arbeit leistet, sondern wie gut sie die abstrahierten Beschreibungen dieser Arbeit abzudecken scheint. Das ist ein erheblicher Unterschied.

Trotzdem wäre es falsch, die Studie deshalb einfach beiseitezuschieben. Denn auch wenn ihr Messverfahren die Komplexität des Faches nicht abbildet, trifft sie etwas Reales: KI kann tatsächlich Texte produzieren, die nach Kunstgeschichte klingen. Und das ist das eigentliche Problem.


III. Das strukturelle Problem: KI klingt kunsthistorisch

Große Sprachmodelle wie Claude, ChatGPT oder Gemini sind auf enormen Mengen kunsthistorischer Fachliteratur trainiert worden. Sie kennen Panofsky und Wölfflin, können zwischen Ikonografie und Ikonologie unterscheiden, beherrschen den Duktus wissenschaftlichen Schreibens und produzieren auf Anfrage Texte, die sich in Syntax, Terminologie und argumentativem Habitus kaum von akademischer Prosa unterscheiden. Das ist nicht Kompetenz. Es ist eine sehr glaubwürdige Imitation davon.

Das Problem liegt tiefer als stilistische Oberflächenähnlichkeit. Es ist strukturell in der Trainingsmethodik verankert. Alle führenden Sprachmodelle werden mit einer Technik namens Reinforcement Learning from Human Feedback (RLHF) optimiert, bei der menschliche Bewerter entscheiden, welche Antworten besser sind. Wie Anthropic-eigene Forschung (Sharma et al., 2023) und unabhängige Studien übereinstimmend zeigen, führt dieses Verfahren zu einer systematischen Tendenz: Modelle lernen, zustimmende, bestätigende, plausibel klingende Antworten zu bevorzugen, weil diese von menschlichen Bewertern höher eingestuft werden. Diese Tendenz wird in der Forschungsliteratur als Sycophancy bezeichnet — das Bestreben des Modells, zu gefallen statt zu korrigieren, zu bestätigen statt zu hinterfragen.

Für die kunsthistorische Arbeit hat das konkrete Konsequenzen. Ein Sprachmodell ohne methodische Kontrolle wird auf die Frage nach der Bedeutung eines Gemäldes eine Deutung liefern, die kohärent klingt, theoretisch angemessen formuliert ist und trotzdem falsch sein kann — in der Zuschreibung eines Begriffs, in der historischen Einordnung, in der Anwendung einer Theorie auf Material, für das sie nicht entwickelt wurde. Es wird diesen Fehler nicht kenntlich machen, weil es nicht darauf trainiert ist, Fehler zu benennen. Es ist darauf trainiert, zufriedenstellende Antworten zu produzieren.

Das ist kein Bug, der sich mit einem Update beheben lässt. Es ist eine Trainingseigenschaft. Und sie erklärt, warum der Coverage-Wert von 0,91 der Microsoft-Studie nicht bedeutet, dass KI 91 Prozent kunsthistorischer Arbeit leisten kann, sondern dass sie 91 Prozent davon simulieren kann — überzeugend genug, um ungeübte Leser zu täuschen und gelegentlich auch routiniert arbeitende Experten.


IV. Was Kunsthistoriker wirklich tun — und warum das zählt

Bevor von einem Gegenmittel die Rede sein kann, muss klar sein, was überhaupt geschützt werden soll. Die kunsthistorische Arbeit besteht nicht primär aus dem Schreiben von Texten. Sie besteht aus einem kontrollierten epistemischen Prozess, an dessen Ende ein Text steht.

Dieser Prozess beginnt mit einem Akt, der sich dem sprachlichen Zugriff entzieht: dem Sehen. Nicht das registrierende Sehen, das auch eine Kamera leistet, sondern das argumentierte Sehen — die Entscheidung, was an einem Bild beobachtbar, relevant und beschreibbar ist, und was dieser Befund im Kontext einer methodisch expliziten Fragestellung bedeutet. Diese Entscheidung ist keine Meinung. Sie ist ein wissenschaftlicher Akt, der begründet, überprüft und revidiert werden kann.

Auf diese formale Beobachtung folgt die historische Einbettung, dann die Theorieanwendung, also die begründete Entscheidung, welches methodische Instrumentarium auf das vorliegende Material passt und wie es zu handhaben ist, ohne den Gegenstand seiner Eigenart zu berauben. Am Ende steht eine Deutungshypothese, die all das zu einem kohärenten Argument verbindet.

Keiner dieser Schritte ist beliebig. Keiner ist automatisch. Und keiner funktioniert, wenn die Sequenz nicht eingehalten wird. KI ohne methodische Kontrolle macht all das routinemäßig falsch, nicht weil sie dumm wäre, sondern weil sie keine intrinsische Motivation hat, die Reihenfolge einzuhalten. Sie optimiert auf Texte, nicht auf Erkenntnisprozesse.


V. VERA-VM als strukturelle Antwort

VERA-VM — Virtuelle Expertin für Recherche und Analyse, Visuelle Methodik — ist ein modulares System für KI-gestützte kunsthistorische Bildanalyse, das auf der Anthropic Claude API basiert. Es wurde nicht entwickelt, um KI aus der kunsthistorischen Arbeit herauszuhalten, sondern um sie methodisch zu disziplinieren. Das ist ein fundamentaler Unterschied.

Der Aufbau folgt fünf aufeinander bezogenen Modulen. A1 erhebt den formalen Befund: Beschreibung, Komposition, Material, Licht, Raum — ohne Deutung, ohne Theorie, ohne historisches Vorwissen. A2 kontextualisiert historisch, funktional und kulturell. A3 wendet einen explizit gewählten kunsthistorischen oder philosophischen Theorierahmen an und reflektiert seine Grenzen. A4 führt alle Befunde zu einer argumentierten Gesamtdeutung zusammen. A5 dokumentiert zitierfähig nach akademischen Standards. Jedes Modul erhält den vollständigen Kontext aller vorangegangenen Module als Input.

Ergänzt wird die Sequenz durch ein persistentes Guardrail-System. Guardrails sind abstrakt formulierte methodische und terminologische Regeln, die bei jeder Analyse automatisch in den Systemprompt eingebettet werden. Sie entstehen aus konkreten Fehlern — etwa der falschen Zuschreibung des Begriffs disguised symbolism an Schleiermacher statt an Panofsky (1939) — und werden so abstrahiert, dass sie auf alle künftigen Analysen anwendbar sind. Das entspricht strukturell dem Prinzip des Constitutional AI, wie es Anthropic beschreibt. Kein Guardrail wird automatisch aktiviert: Die Bestätigung bleibt menschliche Aufgabe.


VI. ARCHÉ und ICONA: Zwei Reflexionsebenen jenseits der Analyse

VERA-VM enthält zwei weitere Module, die auf der epistemischen Ebene über der Analyse operieren. Sie fragen nicht, was an einem Bild zu sagen ist, sondern wie und unter welchen Bedingungen überhaupt etwas gesagt werden kann.

ARCHÉ erzeugt eine wissenschaftstheoretische Reflexion auf die gesamte Analyse. Es verpflichtet das Modell zu expliziter Selbstkritik: Wo hat die Analyse spekuliert? Wo wurden Begriffe aus einem disziplinären Kontext in einen anderen transferiert, ohne die Transferbedingungen zu klären? Welche Deutungsentscheidungen waren methodisch zwingend, welche kontingent? ARCHÉ hat einen Schwellenwert, unterhalb dessen die Reflexion nicht als abgeschlossen gilt: Das Modell muss mindestens eine genuine Schwäche der eigenen Analyse benennen und mindestens eine Stelle identifizieren, an der ein anderer methodischer Ansatz zu einem abweichenden Ergebnis geführt hätte. Das macht Selbstgefälligkeit strukturell kostspielig.

ICONA adressiert eine spezifische Gefahr kunsthistorischer KI-Outputs: die zirkuläre Deutung. Gemeint ist die Tendenz, visuelle Befunde so zu beschreiben, dass sie bereits die Deutungskategorie voraussetzen, die sie eigentlich erst begründen sollen. Ein Beispiel: „Das Licht fällt auf die Figur und betont ihre transzendente Bedeutung“ ist keine Beobachtung. Es ist eine Deutung, die als Beobachtung formuliert wurde. ICONA verpflichtet das Modell durch explizite Pflicht-Blöcke zur phänomenologischen Transparenz: Beobachtung und Interpretation müssen unterscheidbar bleiben; Spekulationen müssen als solche markiert werden.

Zusammen bilden ARCHÉ und ICONA eine epistemologische Reflexionsarchitektur, die es in dieser Form in keinem anderen KI-gestützten Bildanalysesystem gibt.


VII. Möglichkeiten, nicht nur Abwehr

Es wäre ein Missverständnis, VERA-VM als defensives Projekt zu lesen. Die Möglichkeiten, die das System eröffnet, gehen weit über das hinaus, was ohne KI denkbar wäre.

Die vielleicht bedeutsamste ist die Reproduzierbarkeit. Kunsthistorische Analysen sind traditionell Einzeldokumente, deren Entstehungsprozess für Dritte kaum nachvollziehbar ist. VERA-VM macht diesen Prozess explizit und erzeugt damit eine Form methodischer Transparenz, die in der Disziplin bislang nicht existierte.

Eine zweite Möglichkeit liegt in der Theoriearbeit. Das A3-Modul erlaubt es, unterschiedliche theoretische Rahmungen an identischem Bildmaterial zu testen — etwa Imdahls ikonikale Analyse gegen Beltings Präsenztheorie, oder Wölfflins Formbegriffe gegen Warburgs Pathosformel-Konzept. Das Ergebnis sind präzise formulierte Differenzen: Wo divergieren die Interpretationen, und was sagt diese Divergenz über das Material oder die Theorie?

Drittens eröffnet VERA-VM Möglichkeiten für die Lehre. Die hermeneutische Methodik der Kunstgeschichte ist schwer lehrbar, weil ihr Prozesscharakter in Lehrbüchern kaum sichtbar wird. VERA-VM operationalisiert diesen Prozess und macht ihn beobachtbar.


VIII. Selbstkritische Bilanz

VERA-VM ist kein fertiges Produkt; es ist ein Forschungssystem, das weiterentwickelt wird. Die Guardrail-Pflege ist aufwändig, die Abstraktion von Einzelfehlern zu allgemeinen Regeln erfordert fachkundiges Urteil, und die Qualität der Outputs hängt von der Qualität der Eingaben ab.

Eine tiefere Grenze ist epistemischer Natur. VERA-VM kann die Sycophancy-Tendenz von Sprachmodellen nicht eliminieren. Es kann sie einschränken, durch Struktur, durch Selbstkritikpflicht, durch persistente Guardrails. Epistemische Sicherheit gibt es in der Kunstgeschichte nicht, und es wäre naiv zu erwarten, dass ein digitales System sie herstellt. Was VERA-VM herstellt, ist etwas Bescheideneres und Belastbareres: methodische Kontrollierbarkeit.


IX. Schluss

Der Microsoft-Befund ist kein Anlass zur Panik, aber er ist auch kein Irrtum, den man mit dem Hinweis auf Abstraktionsfehler in der O*NET-Datenbank erledigen kann. Er benennt ein reales Phänomen: KI kann wesentliche Oberflächenmerkmale kunsthistorischer Arbeit simulieren, schnell, skalierbar und überzeugend genug, um in der Praxis ernstgenommen zu werden.

VERA-VM ist ein Versuch, genau das strukturell zu adressieren. Nicht indem es KI ersetzt, sondern indem es sie in eine wissenschaftlich kontrollierte Architektur einbettet. Die beiden Reflexionsmodule ARCHÉ und ICONA repräsentieren eine epistemologische Entscheidung: dass Bildanalyse nicht enden kann, ohne den eigenen Erkenntnisweg zu befragen. Diese Entscheidung ist nicht neu. Sie ist so alt wie die Hermeneutik selbst. Was VERA-VM leistet, ist, sie für das KI-Zeitalter operativ zu machen — strukturiert, reproduzierbar und überprüfbar.

LITERATUR & QUELLENHINWEISE

  • Tomlinson, K. et al. (2025). Working with AI: Measuring the Applicability of Generative AI to Occupations. Microsoft Research. arXiv:2507.07935.
  • Phillips, J. (2025). The Historian in the Age of AI. Transactions of the Royal Historical Society. Cambridge University Press.
  • Sharma, M. et al. (2023). Towards Understanding Sycophancy in Language Models. Anthropic Research. arXiv:2310.13548.
  • Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. Anthropic Research. arXiv:2212.08073.
  • Panofsky, E. (1939). Studies in Iconology. Oxford University Press.
  • Boehm, G. (Hg.) (1994). Was ist ein Bild? Wilhelm Fink Verlag.
  • Belting, H. (2001). Bild-Anthropologie. Wilhelm Fink Verlag.

Nachtrag · Empirische Ergänzung · April 2026

Nachtrag · Empirische Ergänzung · April 2026

Nach Veröffentlichung dieses Beitrags wurde ein Vergleichsexperiment durchgeführt: Die vier Analysedokumente (A1–A4, ARCHÉ, ICONA, Textkritik) wurden Gemini, dem Sprachmodell von Google DeepMind, ohne Kontextinformation vorgelegt. In zwei Durchläufen wurde Gemini gebeten, (1) die methodische Struktur zu beschreiben und (2) Schwächen zu identifizieren, die auf KI-Generierung hinweisen.

Das Ergebnis ist für die These dieses Beitrags aufschlussreich. Gemini identifizierte korrekt faktische Fehler (Seitenverhältnis, Provenienz, Taxonomie) — dieselben Fehler, die VERAs eigene Textkritik bereits benannt hatte. Gleichzeitig kritisierte Gemini die Theoriedichte von ICONA als „Pattern Matching“. Auf Widerspruch korrigierte Gemini sich und formulierte:

„Wenn die Anwendung von Merleau-Ponty im Text dazu führt, dass eine neue, begründete Sichtweise auf Leonardos Lichtführung entsteht, ist die Frage nach ‚Pattern Matching‘ zweitrangig gegenüber der erkenntnistheoretischen Leistung des Textes.“

Und weiter: „Das kann eine KI aktuell nur simulieren, aber nicht im Sinne einer eigenen Seherfahrung vollziehen.“

Damit bestätigt ein externes KI-System exakt die Grenze, an der VERA-VM ansetzt: nicht die Seherfahrung wird automatisiert, sondern die methodische Kontrolle über den Output. Die Frage der Urheberschaft tritt zurück hinter die Frage der erkenntnistheoretischen Validität — eine Unterscheidung, die klassische Textkritik nicht leisten kann, VERA-VM aber strukturell erzwingt.