zum Inhalt springen

Layout Analysis & Nachbearbeitung

Nachdem das Dokument auf die Server hochgeladen ist und Sie es geöffnet haben, kann auch gleich die Layout Analysis gestartet werden. Hierbei wird das Dokument automatisch analysiert und in die dabei erkannten Zeilen und Textabschnitte unterteilt. Klicken Sie hierfür auf den Reiter Tools und dann im ersten Abschnitt unter Layout Analysis auf den Button Run. Transkribus unterteilt das Dokument nun in Text Regions (TR) mit verschiedenen Zeilen (Base Lines BL). Die Dauer dieses Prozesses ist von der Menge des zu analysierenden Materials abhängig und kann auch einige Stunden in Anspruch nehmen, sollte in unserem Fall aber nicht länger als 2 Minuten dauern. Den Verlauf können Sie wieder über die Kaffeetasse verfolgen.

vergrößern: Hier hat das Programm zu viele Textregionen erkannt

Auch wenn die von Transkribus automatisch durchgeführte Layout Analysis sehr genau ist, werden Sie bei den meisten handschriftlichen Dokumenten dem Programm unter die Arme greifen müssen. Diese Nachkorrektur ist für eine zeilengenaue Transkription unabdingbar, da sie u.a. die Leserichtung vorgibt. Unter dem Reiter Layout können Sie die einzelnen Zeilen und Textregionen in der Reihenfolge finden, in der Transkribus sie erkannt hat. Hier können Sie ebenfalls die Textregionen oder Zeilen, die bei der Layout Analysis fälschlicherweise erkannt wurden, löschen und per Drag&Drop die Reihenfolge der Zeilen und Textregionen anpassen.

Mit diesen Werkzeugen können Sie Änderungen an dem automatisch erkannten Layout vornehmen. Die für diese Übung wichtigen Werkzeuge sind links markiert.

Rot: Hiermit können Sie eine neue Baseline (sprich eine neue Zeile) für die Transkription markieren. Dabei folgen Sie der Schriftline der vollständigen Zeile. Halten Sie die Abstände zwischen den einzelnen Punkten nicht zu groß. Sie können sich hier an der automatischen Layout Analysis orientieren.

Grün: Hiermit können Sie ein ausgewähltes Element löschen. Wenn Sie mehrere Elemente gleichzeitig entfernen möchten, können Sie mithilfe der Taste Strg + Mausklick (halten Sie dabei Strg gedrückt) auch mehrere Elemente auswählen und über die Taste Entf löschen. Falls Sie den Löschvorgang (oder eine andere Aktion) rückgängig machen möchten, können Sie dies mit Strg + Z.

Blau: Es kann besonders bei handschriftlichen Texten häufiger passieren, dass Transkribus eine Zeile teilt, wenn der Abstand zwischen zwei Worten etwas größer ist. Mit diesem Werkzeug können Sie zwei oder mehr Zeilen zu einer Zeile verbinden. Markieren Sie dafür die Baseline der zu verbindenden Zeilen mit Strg + Mausklick und klicken Sie danach auf das blau markierte Symbol.

 

Nachdem Sie mit der Layout Analysis zufrieden sind, kann zum nächsten Schritt und dem Kernstück von Transkribus übergegangen werden: Der Handwritten Text Recognition (HTR)