Warum kann ich nicht einfach einen großen Stapel Texte herunterladen und analysieren?

Weil die Zusammensetzung dieses Stapels Ihre Ergebnisse bestimmt. Verfügbare Sammlungen sind ungleichmäßig und voreingenommen gegenüber dem, was digitalisiert wurde, und unkorrigierte OCR führt zu Fehlern. Die Dokumentation von Auswahl, Provenienz und Verarbeitung ist unerlässlich für die Interpretation und das Vertrauen in jegliche computergestützte Erkenntnis.

Korpusbildung und Kuration

Jede computergestützte Lektüre hängt von einem Korpus ab, und kein Korpus ist neutral. Entscheidungen darüber, was aufgenommen wird, wie die Texte bereinigt und strukturiert werden und welche Metadaten angehängt werden, prägen jedes nachfolgende Ergebnis – was den Korpusaufbau zu einem eigenständigen wissenschaftlichen Akt macht.

Thema finden mit PaperMindDemnächstFind papers & topics

Tools & resources

Folien herunterladen

Learn & explore

VideoDemnächst

Definition

Die prinzipiengeleitete Zusammenstellung, Verarbeitung, Dokumentation und Pflege von Textsammlungen, die für die computergestützte Analyse verwendet werden, verbunden mit einer kritischen Betrachtung, wie diese Sammlungen ausgewählt und geformt werden.

Scope

Umfasst den Aufbau und die Pflege von Textkorpora für die computergestützte Analyse: Auswahl und Stichprobenziehung, Bereinigung und Normalisierung, optische Zeichenerkennung und Transkription, Metadaten und Dokumentation. Beinhaltet eine kritische Reflexion über Repräsentativität, Verzerrung (Bias) und die konstruierte Natur von Datensätzen in den Geisteswissenschaften. Wird hier aus einer digital-humanistischen Perspektive behandelt und nicht als Korpuslinguistik.

Core questions

Was bedeutet es für ein Korpus, einen Literatur- oder Geschichtsbestand zu repräsentieren?
Wie beeinflussen Entscheidungen bezüglich Bereinigung, OCR und Normalisierung die nachfolgende Analyse?
Welche Metadaten und Dokumentationen benötigt ein wiederverwendbares Korpus?
Wessen Texte fehlen in den verfügbaren digitalen Sammlungen und warum?

Key concepts

Stichprobenziehung
Repräsentativität
OCR
Normalisierung
Provenienz
Dokumentation

Key theories

Daten als konstruiert, nicht gegeben: Gitelman und Mitautoren argumentierten, dass Daten immer gemacht werden – ausgewählt, bereinigt, gerahmt – daher ist 'Rohdaten' eine Fehlbezeichnung und jeder Datensatz trägt die Annahmen seiner Konstruktion in sich.
Repräsentativität und das literarische Korpus: Underwood erörterte, wie die Zusammensetzung und die Verzerrungen digitaler Sammlungen Aussagen über literarischen Wandel prägen, wodurch Stichprobenziehung und Provenienz zu zentralen methodologischen Anliegen werden.
Sammlungen als wissenschaftliche Argumente: Bode argumentierte, dass die digitalen Sammlungen, die der computergestützten Literaturgeschichte zugrunde liegen, selbst interpretative Konstrukte sind und dass Wissenschaftler Rechenschaft darüber ablegen müssen, wie eine Sammlung erstellt wurde.

History

Mit der Zunahme der computergestützten Textanalyse erkannten Wissenschaftler zunehmend, dass die Ergebnisse von den zugrunde liegenden Korpora abhängen. Gitelmans Band von 2013 stellte die Idee neutraler Daten in Frage; Bode (2018) und Underwood (2019) machten den Aufbau und die Verzerrung literarischer Sammlungen explizit und etablierten die Korpus-Kuration als methodologisches und kritisches Anliegen.

Debates

Repräsentativität versus Verfügbarkeit: Korpora werden oft aus dem aufgebaut, was digitalisiert wurde, was zu einer Verzerrung hin zu bestimmten Sprachen, Perioden und kanonischen Werken führt und die Frage aufwirft, wie weit Schlussfolgerungen verallgemeinerbar sind.

Key figures

Ted Underwood
Katherine Bode
Lisa Gitelman

Seminal works

gitelman2013
bode2018
underwood2019

Frequently asked questions

Warum kann ich nicht einfach einen großen Stapel Texte herunterladen und analysieren?: Weil die Zusammensetzung dieses Stapels Ihre Ergebnisse bestimmt. Verfügbare Sammlungen sind ungleichmäßig und voreingenommen gegenüber dem, was digitalisiert wurde, und unkorrigierte OCR führt zu Fehlern. Die Dokumentation von Auswahl, Provenienz und Verarbeitung ist unerlässlich für die Interpretation und das Vertrauen in jegliche computergestützte Erkenntnis.