Biete Hilfe beim Einstieg zu Transkribus

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge
  • hakaro
    Erfahrener Benutzer
    • 08.07.2012
    • 374

    Biete Hilfe beim Einstieg zu Transkribus

    Liebe Forumskollegen,

    Transkribus ist ein Projekt zur automatisierten Erkennung von Handschriften.

    Über diese Links kann man sich zum Projekt informieren:
    Transkribus-Webseite: https://transkribus.eu/Transkribus/
    Beschreibung des Projekts: https://transkribus.eu/wikiDe/index.php/Hauptseite

    Das Projekt unterstützt neben Archiven und Forschungseinrichtungen auch Privatpersonen (das bin ich). Ich forsche sehr viel in den Braunauer Kirchenbüchern (Tschechisches Gebietsarchiv Zamrsk) und habe vor einigen Wochen begonnen mit Hilfe von Transkribus ein Kirchenbuch vollständig zu transkribieren.

    Im ersten Schritt muss man ein Modell trainieren, dazu ist es erforderlich ca. 20 bis 50 Seiten händisch zu transkribieren. Dann kann man dieses Modell auf die Folgeseiten anwenden und braucht "nur" noch die Fehler korrigieren.

    Mein erstes Modell wurde nach ca. 20 Seiten erstellt. Die Nacharbeit der damit transkribierten Seiten hat mich etwa so viel Zeit gekostet wie die vollständige Neu-Transkription.

    Nach ca. 40 Seiten wurde ein neues verbessertes Modell erstellt. Damit brauche ich zum Korrigieren nur noch etwa ein Drittel der Zeit.

    Ich bin bei weitem keine Experte und habe auch ein recht einfaches Kirchenbuch mit homogener Schrift (ohne Tabellen!) gewählt, sodass die Ergebnisse sehr erfreulich sind.

    Wenn jemand ernsthaft mit dem Gedanken spielt, selbst einmal ein vollständiges Buch zu transkribieren, aber sich bisher vor dem Einstieg in Transkribus gescheut hat, dem würde ich Initialhilfe anbieten.

    Bei Interesse würde ich denjenigen auf meine Arbeit berechtigen, sodass selbst einmal einzelne Seiten transkribiert werden könnten.

    Man muss sich dazu vorher einen Account bei Transkribus besorgen und die Software auf seinem eigenen PC installieren.

    Viele Grüße
    Harald
  • Scherfer
    Moderator
    • 25.02.2016
    • 2511

    #2
    Hallo Harald,

    ich hoffe, ich komme nicht zu negativ rüber. Grundsätzlich finde ich es eine tolle Idee, solche Hilfsprogramme zu entwickeln. Aber wenn ich erst einmal 30-50 perfekt transkribierte Seiten benötige, um das Programm zu trainieren, wo ist dann der Mehrwert? Auch in ein Kirchenbuch haben ja mehrere Pfarrer mit ganz verschiedenen Handschriften eingeschrieben. Bräuchte es dann nicht für jeden dieser Pfarrer ein neues Training? Außerdem: Wenn ich ohnehin 30-50 Seiten fehlerlos transkribiert habe, dann ist es doch auch keine große Schwierigkeit, den Rest des gleichen Schreiberlings zu transkribieren.

    Aber bitte: Überzeuge mich gerne vom Gegenteil!

    Kommentar

    • hakaro
      Erfahrener Benutzer
      • 08.07.2012
      • 374

      #3
      Zitat von Scherfer Beitrag anzeigen
      Aber bitte: Überzeuge mich gerne vom Gegenteil!
      Hallo Scherfer,

      ich biete hier denjenigen Hilfe an, die sich gerne mit Transkribus beschäftigen wollen. Ich werde aber keine Diskussion über Sinn und Zweck des Projekts führen.

      Viele Grüße
      Harald

      Kommentar

      • Taunide
        Erfahrener Benutzer
        • 19.12.2016
        • 330

        #4
        Ich habe erst heute von Transkribus erfahren und mir gleich das Programm geladen da ich mit der Handschriftenerkennung die größten Probleme bei der Ahnenforschung habe.
        So richtig nutzerfreundlich ist die Oberfläche ja nicht aber das kann man von einem Forschungsprojekt auch erst mal nicht verlangen.

        @ Scherfer Ich habe wie gesagt noch nicht vernünftig damit gearbeitet aber ich denke das du a) die Sachen die du nicht sicher erkennen kannst auch nicht transkribierst und b) Es ja generelle Gemeinsamkeiten in der Schrift je nach Zeit und Ort. Und ich denke das deswegen unterschiedliche Schreiber nicht so ins Gewicht fallen.

        Tatsächlich denke ich das hakaro den Zweck des Programms richtig begriffen hat und komplette Kirchenbücher erfasst im Gegensatz zu normalen Ahnenforschern die ja doch eher nur einzelnen Einträgen hinterher hetzen.

        Für die Erstellung von OFBs halte ich Transkribus für einen Segen und hoffe das die einzelnen Modelle irgendwann miteinander verknüpft werden um ohne große Trainingsarbeit automatisiert einen großen Teil der Arbeit zu übernehmen.

        Ich habe einen Account bei Transkribus und frage mich wie die Ergebnisse von hakaros Modell auf meinen Kirchenbucheinträgen aussehen würden. Ich erbitte um Berechtigung deine Modelle zu nutzen bzw. Würde einzelne Seiten hier einstellen auf das Du sie mal durchlaufen lassen könntest.

        Tatsächlich würde ich aber erst ein Bild deines Quellmaterials sehen damit ich einen ähnlich aussehenden Auszug wählen kann. Danke
        "Nein Schatz ich kann noch nicht schlafen kommen, im Internet hat jemand unrecht!"

        Kommentar

        • hakaro
          Erfahrener Benutzer
          • 08.07.2012
          • 374

          #5
          Zitat von Taunide Beitrag anzeigen
          Tatsächlich würde ich aber erst ein Bild deines Quellmaterials sehen damit ich einen ähnlich aussehenden Auszug wählen kann. Danke

          Hallo Taunide,

          sehr gerne. Du trifft mich jetzt gerade in unseren Urlaubsvorbereitungen und ich schaffe es heute leider nicht mehr.

          Wir sind in 2 Wochen wieder zurück, dann kann ich die Berechtigungen einrichten und auch durch die ersten Schritte führen.

          Viele Grüße
          Harald

          Kommentar

          • mabelle
            Erfahrener Benutzer
            • 09.10.2017
            • 722

            #6
            Hallo Harald,


            gerade eben finde ich auch einen Artikel bei Heise von heute zu dem Thema:


            Transkribus digitalisiert historische Dokumente, die sich nur noch schwer lesen lassen. Je mehr Text die Software auswertet, desto besser das Ergebnis. Jeder kann das Tool nutzen – auch Laien, die Uromas Briefe entziffern wollen.



            Das Werkzeug könnte vielleicht bei den Bamberger Kirchenbüchern interessant werden, die derzeit digitalisiert werden. Wird wohl noch ein paar Monate dauern und soll, wie ich erfahren habe, auch erst noch "inhouse" auf lokalen Benutzer-PCs geprüft werden, bevor das online geht. Eine Transkription der Daten ist derzeit offenbar nicht vorgesehen, aber dann könnte diese Software in der Tat recht hilfreich werden.


            Viele Grüße
            mabelle
            Axinger: Michelsneukirchen, Aipoln, Pittsburgh, Pennsylvania, USA
            Bezold: Eckenhaid/Eckental, Eschenbach, Tirschenreuth, Moosburg, Ebersberg, Kitzingen, Landshut, Halle-Saale, Duisburg, Hudson, New Jersey, USA
            Krömer: Bieskau, Schweidnitz, Schlesien
            Meißner: Lauterbach, Großkonreuth
            Rother: Königszelt, Költschen, Schweidnitz, Schlesien
            Thamm: Peterwitz, Saarau, Schlesien

            Kommentar

            • mikejpr
              Neuer Benutzer
              • 04.11.2018
              • 2

              #7
              Hallo Harald,


              die Software Transkribus klingt sehr interessant und ich wollte diese ausprobieren, ob es auch etwas taugt.


              Was ich bis jetzt gesehen habe lässt mich doch etwas verzweifeln.

              Daher würde ich gerne deine Erfahrung aus heutiger Sicht mit dem Tool wissen. Ich will unbedingt vermeiden 50 Seiten erstmal zu übersetzen um erst anschließend zu erfahren, dass es für meine Umsetzung nichts taugt.



              Daher hier ein paar Fragen:

              • Wieviel Zeit muss man pro Seite verbringen um diese einzulesen und zu übersetzen?
              • Kann man nicht auf vorhandene Module zurückgreifen? Auch wenn jede Handschrift unterschiedlich ist, hätte ich gedacht und gehoft, dass das System 80% schon von sich aus erkennt. Mit den vorhandene Kurrentschrift im System konnte ein Dokument von 1874 gar nicht richtig erfasst werden. Da passte kein einziges Wort.
              • Kann das System auch mit zwei Schriftarten umgehen. Z.B. ist auf die Sterbeurkunde ein Teil in Fraktur gedruckt und ein Teil händisch in Kurrentschrift erfasst.
              • Muss ich jedes Mal wenn der Verfasser wechselt von neu anfangen, sprich erst wieder 50 Seiten verfassen bevor das Tool etwas erkennt? Oder kann man auf das vorhandene Modell sich weiterhin basieren?
              • Was müssten man aus deiner Sicht bei der Benutzung beachten?

              Danke im Voraus für deine Antwort.


              Viele Grüße
              Mike

              Kommentar

              • hakaro
                Erfahrener Benutzer
                • 08.07.2012
                • 374

                #8
                Hallo Mike,

                ich hatte zwei Kirchenbücher aus der Hand eines Schreibers. Ein Taufbuch und ein Trauungsbuch. Ich habe mit dem Taufbuch begonnen. Die einzelnen Taufeinträge sind fortlaufend hintereinander geschrieben (keine Tabellen) und immer nach dem selben Muster (hier mal ein Beispiel):
                "Den 18.Octob: ist dem Jacob Kahlern Undt seinem eheweib ein Kindt getaufft
                worden, Nahmens Barbara, die Pathen Casper Gräbner,
                Nickel Reyman, Undt Jacob Werners Tochter Barbara.
                Den 20.Dito wardt Christoph Friemeln Undt seinem eheweib ein
                Kindt Getaufft worden, mit Nahmen Barbara.
                Den 15. 9bris wardt dem Martin Pötzen ein Kindt Getaufft mit
                Nahmen Eva, die Pathen waren Mattheus Scholtze, die Nickel Scholtzin
                Undt die George Wolffin."

                Für die Transkription einer Seite habe ich etwa 15 Minuten gebraucht. Nach ca. 20/25 Seiten wurde mein erstes Modell erstellt, das aber (noch) keine Zeitersparnis gebracht hat. Die Korrektur der automatischen Erkennung hat mich etwa soviel Zeit gekostet, wie die vollständige Neutranskription - also etwa 15 Minuten/Seite.

                Nach ca. 50 Seiten wurde ein neues Modell erstellt. Damit wurde die Erkennungsrate wesentlich verbessert und die Zeit der Nachkorrektur ist deutlich gefallen - auf ca. 5-8 Minuten / Seite.

                Dieses (Tauf-) Modell habe ich dann auf das Trauungsbuch vom selben Schreiber angewendet. Die Trauungseinträge waren nach diesem Muster:
                "den 1. Februari Ist George Haan Jungergeselle Weyl:
                Johannes Haans zue Mertzdorff ehel: Sohn, Undt Jungfrau
                Anna Weyl: Mattheus Altmans zue Hermanßdorff ehel. Tochter
                Copuliret worden.
                Den 13. February seindt Getreuet worden George Tölck
                Wittiber Zue Ottendorff mit Jungfr: Anna Michael Schwei-
                dlers Zum Johannesberg Ehl: Tochter."
                Mit den Trauungseinträgen sind viele Wörter neu dazugekommen, mit denen das Modell gar nicht zurechtgekommen ist: z.B. "Jungergeselle/Junger Geselle/Junggeselle", "Weyl/Wayl.", "Copuliret/Copuliert", "Getreuet" und auch noch die vielen Ortsnamen, die in den Taufeinträgen gar nicht vorhanden waren: "Mertzdorf/Merzd." "Hermanßdorf/Hermßd." usw.

                Die Nachkorrektur dieser Einträge war aufwändiger als die Neutranskription. Ich vermute mal, dass ich nach 50 Seiten nochmal ein neues Modell gebraucht hätte. An der Stelle habe ich dann meine Versuche beendet.

                Zu deinen Fragen:
                Zitat von mikejpr Beitrag anzeigen
                • Wieviel Zeit muss man pro Seite verbringen um diese einzulesen und zu übersetzen?
                Du hast zuerst einen initialen Grundaufwand (Collection erstellen, Seiten hochladen, Software-Bedienung....). Für jede einzelne Seite kannst du danach mit ca. 15 Minuten rechnen.

                Zitat von mikejpr Beitrag anzeigen

                • Kann man nicht auf vorhandene Module zurückgreifen? Auch wenn jede Handschrift unterschiedlich ist, hätte ich gedacht und gehoft, dass das System 80% schon von sich aus erkennt. Mit den vorhandene Kurrentschrift im System konnte ein Dokument von 1874 gar nicht richtig erfasst werden. Da passte kein einziges Wort.

                Es gibt ein Auswahlfeld, in dem du das Modell auswählen kannst. Eine Funktion "Erkenne ein passendes Modell" gibt es (noch?) nicht.

                Zitat von mikejpr Beitrag anzeigen

                • Kann das System auch mit zwei Schriftarten umgehen. Z.B. ist auf die Sterbeurkunde ein Teil in Fraktur gedruckt und ein Teil händisch in Kurrentschrift erfasst.
                Damit habe ich keine eigene Erfahrung. Es gibt aber Tabellen-Layouts. Damit könnte man sicherlich den in Fraktur gedruckten Teil einmalig erfassen und dann auf den nächsten Seiten aussparen. Aber ich weiß nicht, ob bzw. wie das geht.

                Zitat von mikejpr Beitrag anzeigen

                • Muss ich jedes Mal wenn der Verfasser wechselt von neu anfangen, sprich erst wieder 50 Seiten verfassen bevor das Tool etwas erkennt? Oder kann man auf das vorhandene Modell sich weiterhin basieren?
                Ich befürchte, dass man tatsächlich wieder ein neues Modell lernen muss. Bei meinen Versuchen hätte ich mir auch ein iteratives Hinzulernen gewünscht. Wenn ich z.B. in jedem zweiten Trauungseintrag das Wort "Wittiber" habe und das Modell erkennt das Wort nicht mal ansatzweise.



                Zitat von mikejpr Beitrag anzeigen

                • Was müssten man aus deiner Sicht bei der Benutzung beachten?

                Überlege dir zuerst, welche Zielsetzung du verfolgen willst. Schreibe noch mal bitte, was du planst.

                Viele Grüße
                Harald

                Kommentar

                • mikejpr
                  Neuer Benutzer
                  • 04.11.2018
                  • 2

                  #9
                  Hallo Harald,


                  danke erstmal für die ausführliche Erklärung.


                  Du hast die Problematiken mit der Anwendung die ich vermutete bestätigt. Ich hatte irgendwie gehofft, dass der Einstieg einfacher ist und man bereits von der Arbeit anderer profitieren kann. Z.B. wird in den meisten Taufbücher ähnliche Textpassagen geben und je mehr daran teilnehmen, desto mehr Handschriften erkennt das System richtig. Aber es ist doch eher, dass jeder seinen eigenen Wörterbuch anlegen muss für seinen eigenen Projekt der dummerweise nur für einen einzelnen Schreiber gilt.



                  Ich werde es mir gründlich überlegen, ob ich die Zeit investieren werde. Ich habe vom Dorf meine Mutter einige Kirchenbücher. Jetzt werde ich prüfen wie lange der Pfarrer im Amt war. Wenn er nicht über eine gewissen Anzahl an Jahre gleichbleibt, wird es wohl wenig Sinn haben. Aber jeder Versuch macht Klug

                  Kommentar

                  Lädt...
                  X