zum Inhalt springen

Distant Reading

Eine erste Annäherung an den Begriff des Distant Reading lässt sich gut über dessen Gegenbegriff Close Reading umsetzen. Mit Close Reading werden Sie sogar schon vertraut sein, da es die „klassische“ Textarbeit beschreibt. Es meint also selbstständiges Lesen und eigenhändiges Zusammenfassen relevanter Informationen aus einem ausgewählten Text oder auch „die Arbeit am Text“. Unter Distant Reading werden hingegen verschiedene Formen der toolgestützten bzw. automatisierten Textarbeit zusammengefasst, bei denen aus einer größeren Menge unstrukturierter (Text-)Daten strukturierte Informationen herausgezogen werden. Der entscheidende Unterschied findet sich dabei in der Art und Weise, wie auf das Textmaterial zugegriffen wird. Wie der Name es schon vermuten lässt, hat man beim Close Reading einen direkten Zugriff auf das Textmaterial und ist „nah“ am Text. Distant Reading setzt jedoch eine gewisse „Distanz“ zum Textkorpus voraus, die meist durch eine digitale Recherchekomponente hergestellt wird. Der Zugriff auf das Textkorpus erfolgt also über einen „digitalen Zwischenhändler“, der i.d.R. über eine festgelegte Suchmaske bedient werden kann. Ein gutes Beispiel für ein Textkorpus bzw. einen Datensatz, der über Distant Reading Verfahren verfügbar gemacht worden ist, findet sich auf digiPress – Das Zeitschriftenportal der Bayerischen Staatsbibliothek. Über die Plattform der Bayerischen Staatsbibliothek München können über 9 Millionen Zeitungsseiten mit einer Volltextsuche durchsucht werden. Diese Volltextsuche ist dabei das entscheidende Merkmal, das die Recherche mittels Distant Reading von der üblichen Recherche z.B. in Bibliothekskatalogen unterscheidet. Wenn Sie ein festgelegtes Korpus haben, ist die Kollokationsanalyse eine gern verwendete Methode. Hierbei wird ein Korpus auf einen von Ihnen festgelegten Begriff hin untersucht. Dieser Begriff wird dabei auf Verbindungen mit anderen Begriffen hin untersucht und als Ergebnis mit einem statistischen Wert versehen, wie oft bestimmte Begriffsverbindungen im Korpus vorkommen. Eine Einführung in die Kollokationsanalyse finden Sie hier: DiaCollo Tutorial

Distant Reading ermöglicht es daher, eine bisher kaum überschaubare Menge an Datensätzen auf ein Thema hin zu durchsuchen und für die Forschung nutzbar zu machen. Ein sinnvoller Einsatz bringt jedoch auch einige Voraussetzungen mit sich. Zum einen muss auf der technischen Seite erst einmal gewährleistet sein, dass die Quellen in einer maschinenlesbaren Form vorliegen und in einer durchsuchbaren Datenbank zur Verfügung gestellt werden. Seien Sie auch besonders vorsichtig und kontrollieren Sie den zu durchsuchenden Volltext. Hier können gut gemeinte Angebote mit automatisch generierten und nicht korrigierten Volltexten umfassende Recherchemöglichkeiten versprechen, die bei näherem Hinsehen nicht eingehalten werden können. Der Grund hierfür wird – wie so häufig – in der mangelnden Finanzierung derartiger Projekte zu finden sein. Programme wie Transkribus, die eine automatisierte Transkription großer handgeschriebener Textmengen ermöglichen, arbeiten zwar schnell, aber noch nicht genau. Deswegen müssten idealerweise Texte, die mit Programmen wie Transkribus erstellt worden sind, nochmals händisch von kundigen Personen korrigiert werden. Gerade dieser Schritt kostet Zeit und Geld.  Das im Volltext durchsuchbare Korpus „Deutsche Ratsprotokolle 17. bis 19. Jh. (Kurrentschrift)“ des Archivverbund Bautzen ist hierfür ein Beispiel. Zwar stellt das Projekt einen Meilenstein dar, um Quellen wie Ratsprotokolle sichtbar und zugänglich zu machen, und der Einsatz der ArchivarInnen soll in keiner Weise geschmälert werden, jedoch ist hier eine automatisch erstellte Transkription verfügbar gemacht worden, die im Nachgang keiner Qualitätsüberprüfung unterzogen worden ist. Die hohe Fehlerquote der Transkription erschwert damit den Einsatz von Methoden wie Distant Reading erheblich und macht ihn in diesem Beispiel für die Ratsprotokolle des 17. Jahrhunderts unmöglich.

Zudem sollten Sie sich schon eingehend mit Ihrem Thema und dem historischen Kontext des zu durchsuchenden Quellenmaterials befasst haben. Da die maschinelle Durchsuchung des Textes auf „strings“, also Zeichenketten, basiert, kommt der Schreibweise der Suchbegriffe große Bedeutung zu. Und diese variiert mitunter im Zeitverlauf. Wenn Sie beispielsweise über Aspekte der Militärgeschichte des frühen 19. Jahrhunderts arbeiten möchten, hilft zu wissen, dass die Schreibweise „Militair“ weit verbreitet gewesen ist. Besonders die Schreibweisen von Namen ein und derselben Person oder von Orten kann sich in verschiedenen Quellen zum Teil stark voneinander unterscheiden. Hier lohnt es sich, die Datenbanken der Deutschen Nationalbibliothek oder für Orte auch GeoNames zu benutzen, da hier unterschiedliche Schreibweisen und Pseudonyme gesammelt und als Normdaten ausgegeben  werden. Daher ist es schon gerechtfertigt, bei Distant Reading von einer eigenen Methode zu sprechen. Um sie effektiv durchführen zu können, müssen Sie gewisse Kenntnisse über das Textkorpus mitbringen und dieses mittels an Ihrer Forschungsfrage ausgerichteten Begrifflichkeiten strukturieren. Sie verlangt also auch eine gewisse Reflexion Ihrer Forschungsfrage, die es ermöglicht, diese auf wenige zentrale Begriffe zu reduzieren. Hierbei ist es empfohlen, sich die verwendeten Begriffe und Suchvorgänge zu notieren, um den eigenen Rechercheweg im Nachhinein nachvollziehen zu können und nicht aus Versehen doppelt durchzuführen. Eine gute Dokumentation spart Ihnen daher Arbeit und bei längeren Projekten besonders viel Zeit und macht Ihr Vorgehen auch für andere nachvollziehbar.

Nichtsdestotrotz hat Distant Reading eine explorative Funktion, die es Ihnen ermöglicht, ein Textkorpus erst einmal kennenzulernen. Scheuen Sie sich also nicht, bei einer ersten Annäherung die oben genannten Hinweise zu ignorieren und den Datensatz ungezwungen zu erkunden. Denken Sie nur im Laufe Ihrer Arbeit daran, nicht allem zu vertrauen, was eine Suchmaske Ihnen zur Verfügung stellt. Grundsätzlich wird es auch darauf hinauslaufen, dass Sie Distant Reading und Close Reading kombinieren. Sie werden i.d.R. die Texte, die Sie mittels Distant Reading gefunden haben, lesen und im Close Reading Verfahren auswerten. Dieser Ansatz wird mit dem Namen Blended Reading zusammengefasst.

 

Für einen ersten Einstieg können Sie sich folgende Seiten näher anschauen:       

Darauf aufbauend:   

Und als „Experten-Beispiel“: