Comparative Annotation to Explore and Explain Text Similarities (CompAnno)

Julia Nantke & Nils Reiter

Das Projekt CompAnno entwickelt einen vergleichenden Annotationsworkflow zur Erforschung und Erklärung von Textähnlichkeiten hinsichtlich der Darstellung von Figureneigenschaften. Wir konzentrieren uns auf literarische Figuren, da diese Kategorie sowohl für die Gestaltung literarischer Texte im Allgemeinen als auch für die Herstellung und Interpretation intertextueller Beziehungen zentral ist. Im Gegensatz zu etablierten Annotationsansätzen beruht die vergleichende Annotation auf der gleichzeitigen Betrachtung mehrerer Textausschnitte. Die Zuweisung von Figureneigenschaften erfolgt zunächst manuell im Vergleich der Textausschnitte. Anhand einer großen Sammlung von annotierten Paaren bringen wir die Ähnlichkeiten in eine Rangfolge, die wiederum zum Trainieren eines maschinellen Lernsystems verwendet wird. Der vergleichende Annotationsprozess führt zu einer partiellen Ordnung für jede Eigenschaft. Der Hauptvorteil dieses Ansatzes besteht darin, dass er nicht nur die Annotation intertextueller Beziehungen unterstützt, sondern generell die Annotation abstrakter, interpretationsbezogener Textmerkmale wie die Beschreibung und Charakterisierung literarischer Figuren ermöglicht. Wir setzen verschiedene technische Verfahren ein, die unterschiedliche Perspektiven auf die gestellte Aufgabe bieten. Grundsätzlich können drei Perspektiven unterschieden werden: 1. Wenn man es als Document-Retrieval-Aufgabe betrachtet, kann ein technisches System den Nutzenden Ausschnitte liefern, die dem zu untersuchenden Text in Bezug auf die Darstellung einer Figureneigenschaft ähnlich sind. Dies offenbart (potentiell neue) intertextuelle Beziehungen. 2. Wenn das Problem als Ranking-Aufgabe formuliert wird, kann ein System ein Ranking der bereitgestellten Textausschnitte nach der Ausprägung einer Eigenschaft erstellen. Dies eröffnet auch den Zugang zu (einigen Aspekten) der Figurengestaltung im Allgemeinen. 3. Wenn die Ähnlichkeit selbst im Mittelpunkt steht, kann ein Ranking-System auf Textausschnitt-Paare angewendet werden, um über eine Menge von Ausschnitten ein Ranking aller Paare nach ihrer Ähnlichkeit zu erstellen. In diesem Fall wird die Ähnlichkeit auch durch das Fehlen oder den geringen Wert einer Eigenschaft verursacht (z. B. können zwei Ausschnitte ähnlich sein, weil die darin enthaltenen Figuren beide nicht bösartig sind). In allen Fällen erfolgt im Projekt eine Reintegration dieser quantitativen Ergebnisse in den literaturwissenschaftlichen Diskurs, indem wir Guidelines für ihre Interpretation bereitstellen. Das Projekt zielt also auf zwei konkrete Ergebnisse ab: Zum einen entwickeln wir den ersten Workflow für eine computergestützte Untersuchung von Intertextualität und Textähnlichkeit, der über die Erkennung von text-reuse hinausgeht und nicht auf ein festes Korpus bezogen ist. Zum anderen zeigen wir einen neuen Weg für die Arbeit mit interpretativen Kategorien auf, die in der computergestützten Literaturwissenschaft häufig vorkommen und von großem Interesse sind.

-->